了解 URI

已完成

可以将数据存储在本地设备或云中的某个位置。 无论将数据存储在何处,你都希望在训练机器学习模型时访问这些数据。 若要在 Azure 机器学习中查找和访问数据,可以使用统一资源标识符 (URI)

了解 URI

URI 引用数据的位置。 要使 Azure 机器学习连接到数据,需要使用相应的协议在 URI 前面加上前缀。 在 Azure 机器学习的上下文中处理数据时,有三种常见协议:

Azure 机器学习用于连接到外部数据源的不同类型协议的关系图。

  • http(s):用于在 Azure Blob 存储或公开可用的 http(s) 位置公开或专用的数据存储。
  • abfs(s):用于 Azure Data Lake Storage Gen 2 中的数据存储。
  • azureml:用于数据存储中存储的数据。

例如,可以在 Azure 中创建 Azure Blob 存储。 若要存储数据,请创建名为 training-data 的容器。 在容器中,创建一个 datastore-path 文件夹。 在该文件夹中,存储 CSV 文件 diabetes.csv

Azure Blob 存储中存储的数据的屏幕截图。

如果要从 Azure 机器学习工作区访问数据,可以直接使用文件夹或文件的路径。 如果要直接连接到文件夹或文件,可以使用 http(s) 协议。 如果容器设置为专用,则需要提供某种身份验证才能访问数据,例如共享访问签名 (SAS)。

在 Azure 机器学习中创建数据存储时,会将连接和身份验证信息存储在工作区中。 然后,若要访问容器中的数据,可以使用 azureml 协议。

提示

数据存储是对 Azure 上现有存储帐户的引用。 因此,引用数据存储中存储的数据时,可能指的是存储在 Azure Blob 存储或 Azure Data Lake Storage 中的数据。 但是,引用数据存储时,无需进行身份验证,因为 Azure 机器学习将使用存储在数据存储中的连接信息。

最佳做法是避免代码中的任何敏感数据,例如身份验证信息。 因此,应尽可能使用 Azure 机器学习中的数据存储和数据资产。 但是,在笔记本试验期间,你可能希望直接连接到存储位置以避免不必要的开销。