25个适用于数据科学/机器学习项目的开放数据集

寻找合适的数据集可能会令人望而生畏,尤其是当你需要它们用于机器学习(ml)和数据科学项目时。我们通过提供最终的免费数据集列表来减少您的研究工作。

数据集只是数据的集合。它可以是财务数据、社区健康数据、股市数据、银行数据、地理数据、粒子科学研究数据、电子商务网站上的产品评级等。

数据集包含通过科学调查标准收集的数据,对于进一步的可视化、提取、预测等非常重要。由于数据是数字宇宙中的原油等价物,数据集变得商业化和稀缺。

继续阅读以了解有关数据集的基础知识。您还将发现一些真正免费供您的机器学习(ml)或数据科学项目使用的开源数据集。

什么是数据集?

数据集是以结构化和组织良好的容器中的数据集合。通常,调查员将数据集与唯一的机构相关联,例如“世界银行开放数据”。

同样,数据收集者将数据集限定为特定主题,例如由美国人口普查局发布的美国2020年人口普查数据。

您将在全球和地方问题上找到许多数据集。大多数数据集包含相互关联的数据点。例如,一个国家的人口以及肥胖症与该人口不同阶层的关系。

数据科学家可能需要使用大数据工具清洁、重组和处理这些数据集,以得出有价值的结论,例如通过分析塑料使用数据来减少塑料废物,通过分析工资数据来解决劳动力问题,培训人工智能等等。

数据集的类型

根据数据集的来源,它们可以是公共的或私人的。公共数据集对所有人开放,对研究和开发做出了很大贡献。

同样,根据其中包含的信息,数据集可以分为以下类型:

  • 多变量:包含多个变量的数据。
  • 分类:描绘了许多人群类别。
  • 数值:此类数据集以数字(如年龄、身高等)来衡量数据。
  • 相关性:此类型中,数据点是相互关联的。
  • 基于文件:在这里,数据集存储在文件中。
  • 双变量:具有两个变量之间的关系的数据集。
  • web数据集:从一个或多个类似的互联网门户收集的数据。
  • 数据库:此类数据集将数据存储在表、列和行中。

数据科学项目的开源数据集

免费数据集是推动您对数据科学事业的热情的燃料。因为如果您处于数据科学事业的早期阶段,您可能希望从事个人和非商业项目,以增强自信或构建个人作品集。

首先,您可以通过将工具和技术应用于现实世界的数据集问题来轻松测试您新学到的技能。

例如,有免费提供的癌症研究数据、covid-19数据、fbi犯罪记录数据、cern的粒子分析数据等。您可以使用这些数据构建数据科学模型,回答重要的社会、财务和健康问题。

其次,这些项目可以增强您的职业素养。如果您能构建一个成功的数据分析模型,能够提供可行的见解,您可以通过创建个人网站在线展示这些模型。雇主更看重项目而不是目标陈述。

机器学习项目的免费数据集

像数据科学专业人士一样,机器学习专业人士也必须开展自我管理的项目来检验他们的技能。如果项目取得成功,它也成为您在线或离线机器学习项目组合的理想组成部分。

因此,现在您可以理解,数据科学和机器学习的增长取决于结构化数据集。如果这些数据集过于商业化,数据科学领域的研究和开发将完全以企业为中心。

为了使数据科学和机器学习研究对所有人开放,以下机构和平台提供免费数据集

data.gov

您可以在data.gov找到美国政府收集和处理的所有开放数据。该平台还提供研究资源和工具,用于进行研究、设计数据可视化、开发移动/网络应用等。

其重要数据集包括可持续土地利用数据、农村住房数据、内陆电子导航图等。

开放数据集:kaggle

kaggle为数据科学项目提供大量的公共数据和计算机代码。您可以选择原始数据集和编程代码。kaggle上热门的数据集有amex数据、辛普森收视率、聊天机器人训练数据等。

段数据集:youtube 8-m

youtube 8-m的段数据集提供了由人工审核员验证的段注释。您还可以从同一门户访问youtube-8m数据集。该数据集包含610万个视频id,35万小时的视频,26亿个音频/视觉特征,3863个视频类别,平均每个视频有3.0个标签。

aws上的开放数据注册表

aws上的rod帮助数据科学家共享和发现存储在aws资源上的数据集。您可以在这里找到一些有趣的数据集,如癌症基因组图谱、foldingathome covid-19数据集、common crawl等。

机器学习库:uci

uci机器学习库目前维护着622个适用于数据科学家和机器学习工程师训练ai模型的数据集。此外,还有一个可搜索的界面用于研究数据库。热门吸引人的数据集有加速度计数据集、同步机器数据集、维基百科数学基本知识、土耳其头条新闻数据集等。

bigquery公共数据集:google cloud

许多公共数据集存储在bigquery上。谷歌通过google cloud公共数据集计划免费提供这些数据集。但是,免费查询每月有1tb的限制。您可以执行标准sql和传统sql查询。

精彩的公共数据集:github

awesome public datasets是一个开源数据集,包含了以主题为中心的公共数据。它从各种博客、答案和用户反馈中收集和整理,结合了物理、体育、软件、自然语言和机器学习等免费和付费数据集。

世界银行数据

世界银行开放数据是一个平台,您可以免费获取全球发展数据。它还提供其他有价值的资源,如预格式化的表格和报告。您可以轻松按国家或指标浏览以获取所需的数据集。

fivethirtyeight:数据

fivethirtyeight是一个美国网站,专门从事民意调查分析、政治、经济和体育。您可以通过其平台的数据集访问这些民意调查和预测。您可以一键下载数据集。

imagenet

imagenet是一个图像数据库,全球研究人员可以从中获取用于非商业项目的开源数据集。这里的图像是根据wordnet层次结构进行组织的。该项目在高级深度学习研究中发挥着重要作用。

数据集档案:联合国儿童基金会数据

使用数据集档案,您可以获取联合国儿童基金会在全球范围内收集的数据集。这里提供了有关迁移、流离失所、饮食、连通性、教育、健康、学习、死亡率、暴力、儿童发展、童婚、童工和各种统计数据。

查找开放数据:英国政府

如果您的项目需要英国地方机构和中央政府发布的数据,查找开放数据是您应该查看的门户网站。它涵盖了政府支出、商业、健康、教育、国防等各种数据集。

数据:美国人口普查局

您是否需要美国人口普查数据进行相关项目?您可以从uscb数据获取帮助。在这里,您可以浏览2020年人口普查数据、表格、地图和数据概况,同时可视化数据并使用数据工具。

数据和统计数据:cdc

美国联邦机构疾病控制和预防中心(cdc)也向公众提供免费的数据集,以便访问该门户网站上的数据和统计数据。数据集主题涵盖环境健康、慢性疾病、出生和出生率、死亡和死亡率、预期寿命、伤害和暴力、生殖健康、国家报告性疾病等。

世界银行数据目录

数据目录收集了使世界银行的发展相关数据易于访问的免费数据集。在各种项目中使用它非常方便,因为您可以轻松找到和下载您需要的信息。它包含超过5000个数据集,涵盖了世界银行的微观数据、财务数据和能源平台。

nasa太空科学数据

nasa提供对其存档数据的访问,存储在太空科学数据协调存档中。这个平台对公众非常有帮助,特别是在教育和太空研究领域工作的人。它拥有400tb的数字数据,包含了550个太空科学的信息。

获取数据:inside airbnb

airbnb是全球知名的在线民宿和度假租赁市场。它还提供了来自获取数据的各个城市的数据收集。您可以浏览城市以快速获取数据。此外,您还可以在此门户网站上请求所需数据并阅读数据假设。

web数据:亚马逊评论

对市场研究和产品评论感兴趣的人应该使用由snap web数据提供的数据集。它包含了从1995年6月到2013年3月的亚马逊上超过3400万用户评论。数据集包含纯文本、产品信息、用户名、评级和评论。

国际货币基金组织数据

国际货币基金组织数据门户对所有经济和金融数据类型都非常有价值。无论您是在寻找国际货币基金组织的财务数据、外部部门统计数据、旗舰出版物还是微观经济数据,您都可以在这里找到它们。此外,您可以使用过滤器获取按国家划分的数据。

谷歌图书ngrams

如果您正在研究词类和语言,谷歌图书ngrams可以极大地帮助您。这个开源数据集可以让您了解一个特定词语和短语在历史上或特定时间范围内的使用情况。这个数据集的来源是谷歌索引的数字文档。

市场数据:《金融时报》

如果您想获取可靠和准确的全球和地区股票市场数据,《金融时报》的市场数据将为您提供帮助。它使您能够使用来自美国、亚太地区、欧洲、非洲和全球市场的市场数据。

earthdata:美国国家航空航天局

美国国家航空航天局通过earth data计划提供对其科学数据的完全开放访问,帮助您了解我们的地球并进行相关项目。您可以在大气、生物圈、冰层圈、人类尺度、地表、海洋、固体地球、太阳地球相互作用和陆地水圈等方面找到免费的数据集。

数据集搜索:谷歌

如果您是学生、研究人员或数据科学家,并且正在寻找支持您的项目的数据集,您可以从数据集搜索门户获得帮助。您可以把它称为数据集搜索引擎,因为它允许您通过关键字搜索在各种报告中托管的数据集。

开放数据:cern

欧洲研究机构cern拥有一个开放数据门户,您可以使用它来访问cern生成的研究数据。这个数据集门户包含与粒子物理学相关的两个拍字节的数据。此外,它还提供了用于数据分析所需的应用程序和文档。

犯罪数据浏览器:fbi

犯罪数据浏览器(cde)是fbi的开源数据集,旨在更便捷地共享犯罪、非犯罪和执法数据。除了允许您通过可视化和类别过滤器发现所需数据外,该平台还可以让您以csv格式下载数据。

最后的话

到目前为止,您已经浏览了一份真正详尽的高质量数据集列表。本文介绍了来自物理科学、医疗记录、太空研究、犯罪记录、产品评级等各个领域的数据。

根据你从事的数据科学或机器学习项目,你可以自由选择。几乎所有的数据集也都有适当的指导说明,以帮助你完成项目。

你可能还对这些资源感兴趣,以了解如何学习数据科学和机器学习

类似文章