你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure 开放数据集

项目
02/25/2025

使用公开的数据集提高机器学习模型的准确性。为节省数据发现和准备时间，请使用为机器学习项目准备好的精选数据集。

运输

数据集	说明
TartanAir：AirSim 模拟数据集	AirSim Autonomous 汽车数据，生成用来实现即时定位与地图构建 (SLAM)。
纽约市出租车和豪车委员会 - 黄色出租车行程记录	黄色出租车行程记录，其中包括接客和下客的日期/时间、地点、行程距离、各项费用、费率类型、付款方式和驾驶员报告的乘客数量的字段。
纽约市出租车和豪华轿车委员会 - 绿色出租车行程记录	绿色出租车行程记录，其中包括接客和下客的日期/时间、地点、行程距离、各项费用、费率类型、付款方式和驾驶员报告的乘客数量的字段。
纽约市出租车和豪华轿车委员会 - 绿色运营车辆 (FHV) 行程记录	营运车辆的行程记录包含调度基地许可证号，搭车日期、时间和出租车区域位置 ID。

健康和基因组学

数据集	说明
COVID-19 数据湖	新冠肺炎数据湖集合包含来自各种来源的新冠肺炎相关数据集，它涵盖了测试和患者结果跟踪数据、社交距离策略、医院容纳能力和流动性等等。

劳动力和经济

数据集	说明
美国劳动力统计信息	“美国劳动力统计信息”提供了与劳动力相关的数据，包括劳动力参与率，以及按年龄、性别、种族和民族划分的民用非机构人口。
美国全国工作时数及收入	当前就业统计 (CES) 计划对美国非农就业、工时和工人收入进行了详细的行业估计。
美国各州工作时数及收入	当前就业统计 (CES) 计划对美国非农就业、工时和工人收入进行了详细的行业估计。
美国各地区失业统计信息	美国当地失业率统计数据库为美国人口普查地区及分区、州、县、大都市区和许多城市提供月度和年度就业、失业和劳动力数据。
美国消费者价格指数	消费者价格指数 (CPI) 衡量城市消费者为一篮子消费品和服务支付的价格随时间的平均变化。
美国生产者价格指数 - 行业	生产者价格指数 (PPI) 衡量国内生产商收到的产品售价随时间的平均变化。
美国生产者价格指数 - 商品	生产者价格指数 (PPI) 衡量国内生产商收到的商品售价随时间的平均变化。

人口和安全

数据集	说明
按县划分的美国人口	源自 2000 年和 2010 年人口普查（每十年一次）的每个美国县按性别和人种划分的美国人口。该数据集来自美国人口调查局。
按邮政编码划分的美国人口	源自 2010 年人口普查（每十年一次）的每个美国邮政编码按性别和人种划分的美国人口。该数据集来自美国人口调查局。
波士顿安全数据	阅读报告给波士顿市的 311 电话的相关数据。此数据集以 Parquet 格式存储，并接收每日更新。
芝加哥安全数据	阅读报告给芝加哥市的 311 电话的相关数据。此数据集以 Parquet 格式存储，并接收每日更新。
纽约市安全数据	该数据集包含 2010 年至今纽约市的所有 311 服务请求。此数据集以 Parquet 格式存储，并接收每日更新。
旧金山安全数据	旧金山市消防部门呼叫服务和 311 事件。此数据集包含从 2015 年至今累积的历史记录。
西雅图安全数据	西雅图消防部门 911 调遣。该数据集每日都会更新，它包含 2010 年至今累积的历史记录

补充数据集和常用数据集

数据集	说明
糖尿病	糖尿病数据集中包含带有 10 个特性的 442 个样本，因此非常适合用于机器学习算法入门练习。
OJ 销售模拟数据	此数据集派生自 Dominick 的 OJ 数据集，并包含其他模拟数据，目的是提供一个数据集，使你可以轻松地同时在 Azure 机器学习上训练数千个模型。
包含手写数字的 MNIST 数据库	包含手写数字的 MNIST 数据库有一个 60,000 示例的训练集，还有一个 10,000 示例的测试集。这些数字的大小已规范化，在固定大小的图像中居中。
Microsoft 资讯推荐数据集	Microsoft 资讯数据集（Microsoft News Dataset，MIND）是用于资讯推荐研究的大规模数据集。将它用作新闻推荐的基准数据集，并辅助新闻推荐和推荐器系统的研究。
公共节假日	全球公共假日数据的来源是 PyPI holidays 数据包和 Wikipedia，涵盖自 1970 年至 2099 年的 38 个国家或地区。
俄语开放语音转文本	Russian Open STT 是一个供俄语使用的大规模开放式的语音转文本数据集