您现在的位置:首页 > 今日国内 >
Kaggle在线ar Xiv成套数据集开发机器学习
发稿时间:2020-08-31 12:39:09   来源:网络

如果你是一个学术达人,经常搜索学术论文,那你一定知道arxiv这个网站。如果你爱好数据科学,专注于机器学习,kaggle就会是一个非常好的选择。

arxiv是一个始于1991年、目前用于收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本网站。arxiv的存在是造就科学出版业中所谓开放获取运动的因素之一。现今的一些数学家及科学家习惯先将其论文上传至arxiv,再提交予专业的学术期刊。无论你是在自身研究领域迅速成长的研究生,还是致力于用科研为公众提供服务的研究者,arxiv这一丰富的信息库都可以为你提供重要、甚至难以置信的帮助。

kaggle则是全球最大的数据竞赛平台,也是一个主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,创建于2010年,并于2017年被谷歌母公司alphabet收购。在kaggle这个平台上,不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)和想要解决的问题丢上去,请平台上的数据专家来帮忙解答。kaggle允许用户查找和发布数据集,在数据科学环境中开发和构建模型,用户也可以与其他数据科学家和机器学习工程师合作或一起参加竞赛。

现在,为了使arxiv资源更容易获得和访问,arxiv和kaggle必须是强大和强大的。最近,康奈尔大学的研究人员创建了一个免费的、开放的arxiv数据集,其中包含170多万篇学术论文,用户可以获取论文的标题、作者、类别、摘要和pdf全文。

(来源:kaggle)

在kaggle上放置完整的arxiv数据集可以大大增加arxiv论文的阅读可达性,arxiv执行主任OnoraPrissani(eleonorapresani)在一个官方博客上说。公众也可以获得比这些论文更多的知识,这也将以机器可读的格式向公众开放arxiv后面的数据和信息。

arxiv不仅仅是一个纸质数据库,它也是一个知识共享平台。我们需要不断地创新,以我们展示和解释这些知识的方式,在那里,Kaggle用户可以帮助。

kaggle上的相关接口显示,arxiv元数据集(元数据)存储已达到1.1tb,并继续增长。包含信息Arxivid、论文提交者、论文作者、论文标题、数字对象唯一标识符、论文摘要和版本的json格式文件。

(来源:kaggle)

一个arxiv数据集,包含超过170万篇学术论文。开发人员希望以此作为促进机器学习领域发展的途径,指导探索更丰富的机器学习技术,并将多模态特征集成到趋势分析、推荐引擎、类别预测、共引网络、知识地图构建和语义搜索接口等应用中。

目前,开发人员已经更新了五个版本,数据集中的论文数量正在逐渐增加,范围也越来越广泛。根据arxiv官方博客,arxiv数据将每周更新。