你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

创建数据存储

适用范围:Azure CLI ml 扩展 v2(最新版)Python SDK azure-ai-ml v2(最新版)

本文介绍如何通过 Azure 机器学习数据存储连接到 Azure 数据存储服务。

先决条件

注意

机器学习数据存储不会创建基础存储帐户资源。 相反,它们链接现有存储帐户以供机器学习使用。 不需要机器学习数据存储。 如果有权访问基础数据,可以直接使用存储 URI。

创建 Azure Blob 数据存储

from azure.ai.ml.entities import AzureBlobDatastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureBlobDatastore(
    name="",
    description="",
    account_name="",
    container_name=""
)

ml_client.create_or_update(store)

创建 Azure Data Lake Storage Gen2 数据存储

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

创建 Azure 文件存储数据存储

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities import AccountKeyConfiguration
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureFileDatastore(
    name="file_example",
    description="Datastore pointing to an Azure File Share.",
    account_name="mytestfilestore",
    file_share_name="my-share",
    credentials=AccountKeyConfiguration(
        account_key= "XXXxxxXXXxXXXXxxXXXXXxXXXXXxXxxXxXXXxXXXxXXxxxXXxxXXXxXxXXXxxXxxXXXXxxxxxXXxxxxxxXXXxXXX"
    ),
)

ml_client.create_or_update(store)

创建 Azure Data Lake Storage Gen1 数据存储

from azure.ai.ml.entities import AzureDataLakeGen1Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen1Datastore(
    name="",
    store_name="",
    description="",
)

ml_client.create_or_update(store)

创建 OneLake (Microsoft Fabric) 数据存储(预览版)

本部分介绍了用于创建 OneLake 数据存储的各种选项。 OneLake 数据存储是 Microsoft Fabric 的一部分。 目前,机器学习支持连接到“Files”文件夹中的 Microsoft Fabric 湖屋工件,其中包括文件夹或文件以及 Amazon S3 快捷方式。 有关湖屋的详细信息,请参阅什么是 Microsoft Fabric 中的湖屋?

OneLake 数据存储创建需要来自 Microsoft Fabric 实例的以下信息:

  • 终结点
  • 工作区 GUID
  • 工件 GUID

以下屏幕截图展示了如何从 Microsoft Fabric 实例检索这些必需的信息资源。

显示如何在 Microsoft Fabric UI 中单击进入 Microsoft Fabric 工作区工件的工件属性的屏幕截图。

然后,在“属性”页的“URL”和“ABFS 路径”中找到“终结点”、“工作区 GUID”和“工件 GUID”:

  • URL 格式:https://{your_one_lake_endpoint}/{your_one_lake_workspace_guid}/{your_one_lake_artifact_guid}/Files
  • ABFS 路径格式:abfss://{your_one_lake_workspace_guid}@{your_one_lake_endpoint}/{your_one_lake_artifact_guid}/Files

显示 Microsoft Fabric UI 中 OneLake 工件的 URL 和 ABFS 路径的屏幕截图。

创建 OneLake 数据存储

from azure.ai.ml.entities import OneLakeDatastore, OneLakeArtifact
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = OneLakeDatastore(
    name="onelake_example_id",
    description="Datastore pointing to an Microsoft fabric artifact.",
    one_lake_workspace_name="XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX", #{your_one_lake_workspace_guid}
    endpoint="msit-onelake.dfs.fabric.microsoft.com" #{your_one_lake_endpoint}
    artifact = OneLakeArtifact(
        name="XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX/Files", #{your_one_lake_artifact_guid}/Files
        type="lake_house"
    )
)

ml_client.create_or_update(store)

后续步骤