你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
什么是 Azure 开放数据集?如何使用它们?
Azure 开放数据集是特选的公共数据集,可用于将方案特定的特征添加到机器学习解决方案,以提高模型的准确度。 开放数据集已在 Microsoft Azure 云中提供。 它们已集成到 Azure 机器学习中,随时可在 Azure Databricks 和机器学习工作室(经典)中使用。 还可以通过 API 访问数据集,并可以在 Power BI 和 Azure 数据工厂等其他产品中使用它们。
数据集包括不受任何限制的天气、人口普查、节假日、公共安全和位置数据,有助于定型机器学习模型和扩充预测解决方案。 还可以通过 Azure 开放数据集共享公共数据集。
准备的精选数据集
Azure 开放数据集中的精选开放公共数据集更适合用于机器学习工作流。
有关可用数据集的详细信息,请访问 Azure 开放数据集目录资源。
数据科学家通常将大部分时间花在清理和准备数据上,以执行高级分析。 为了节省你的时间,开放数据集将复制到 Azure 云中,然后经过预处理。 系统将按固定的间隔从源提取数据,例如,通过与美国海洋与大气管理局 (NOAA) 建立 FTP 连接来提取数据。 接下来,将数据分析成结构化格式,然后根据需要使用特征(例如最靠近的气象站的邮政编码或位置)扩充这些数据。
数据集与 Azure 中的云计算在一起托管,简化了访问和操作。
下面是可用数据集的示例:
天气数据
数据集 | 笔记本 | 说明 |
---|---|---|
NOAA 集成地面数据 (ISD) | Azure Notebook Azure Databricks |
来自 NOAA 的全球每小时天气数据,最佳空间覆盖北美、欧洲、澳大利亚和亚洲部分地区。 每天更新一次。 |
NOAA 全球预测系统 (GFS) | Azure Notebook Azure Databricks |
来自 NOAA 的 15 天美国每小时天气预测数据。 每天更新一次。 |
日历数据
数据集 | 笔记本 | 说明 |
---|---|---|
公共节假日 | Azure Notebook Azure Databricks |
全球公共节假日数据,涵盖 41 个国家或地区从 1970 年到 2099 年的节假日数据。 包括国家/地区,以及大多数人是否有带薪休假。 |
访问数据集
使用 Azure 帐户,可以通过代码或 Azure 服务界面访问开放数据集。 数据与 Azure 云计算资源共置在一起,可在机器学习解决方案中使用。
开放数据集通过 Azure 机器学习 UI 和 SDK 提供。 开放数据集还提供 Azure Notebooks 和 Azure Databricks 笔记本,这些笔记本可将数据连接到 Azure 机器学习和 Azure Databricks。 也可以通过 Python SDK 访问数据集。
不过,无需使用 Azure 帐户,即可访问开放数据集;可以在含或不含 Spark 的任意 Python 环境中访问它们。
请求获取或参与数据集
如果找不到所需的数据,请向我们发送电子邮件,以请求获取数据集或参与数据集。