在 Azure 数据目录中从 Azure Data Lake Storage Gen1 注册数据
本文介绍如何将 Azure Data Lake Storage Gen1 与 Azure 数据目录集成,以便通过将其与数据目录集成,使数据在组织内可发现。 了解对数据进行分类的详细信息,请参阅 Azure 数据目录。 若要了解可以在其中使用数据目录的方案,请参阅 Azure 数据目录常见方案。
先决条件
在开始阅读本教程前,必须具有:
Azure 订阅。 请参阅获取 Azure 免费试用版。
为 Data Lake Storage Gen1 启用 Azure 订阅。 请参阅说明。
Data Lake Storage Gen1 帐户。 请遵循通过 Azure 门户开始使用 Azure Data Lake Storage Gen1 中的说明进行操作。 在本教程中,创建一个名为 datacatalogstore 的 Data Lake Storage Gen1 帐户。
创建帐户后,将示例数据集上传到其中。 在本教程中,上传 Azure Data Lake Git存储库中 AmbulanceDota 文件夹下的所有.csv文件。 可以使用各种客户端(Azure 存储资源管理器将数据上传到 blob 容器。
Azure 数据目录。 组织必须已具有为组织创建的 Azure数据目录。 每个组织只允许有一个目录。
将 Data Lake Storage Gen1 注册为数据目录的源
转到
https://azure.microsoft.com/services/data-catalog
,并单击“开始使用”。登录到 Azure 数据目录门户,并单击“发布数据”。
在下一页上,单击“启动应用程序”。 这会在计算机上下载应用程序清单文件。 双击此清单文件以启动应用程序。
在“欢迎”页上,单击“登录”并输入凭据。
在“选择数据源”页上,选择“Azure Data Lake Store”,并单击“下一步”。
在下一页上,提供要在数据目录中注册的 Data Lake Storage Gen1 帐户名。 其他选项保留为默认值,并单击“连接”。
下一个页面可以分为以下几部分。
a. “服务器层次结构”框表示 Data Lake Storage Gen1 帐户文件夹结构。 “$Root”表示 Data Lake Storage Gen1 帐户的根,而“AmbulanceData”表示 Data Lake Storage Gen1 帐户的根中创建的文件夹。
b. 可用对象框中列出 AmbulanceData 文件夹下的文件和文件夹。
c. “要注册的对象”框中列出要在 Azure 数据目录中注册的文件和文件夹。
在本教程中,应在目录中注册所有文件。 为此,请单击()按钮将所有文件移到“要注册的对象”框。
由于数据会在组织范围内的数据目录中注册,因此建议添加一些元数据,稍后可以使用这些元数据快速查找数据。 例如,可以为数据所有者添加电子邮件地址(例如,上传数据的用户)或添加标签以标识数据。 下面的屏幕截图显示了添加到数据的标记。
单击“注册”。
以下屏幕截图表示数据已成功注册到数据目录中。
单击“查看门户”返回到数据目录门户并验证现在是否可以从门户访问注册的数据。 若要搜索数据,可以使用注册数据时使用的标记。
现在可以执行向数据添加批注和文档等操作。 有关详细信息,请参阅以下链接。