Создание хранилища данных
В службе машинного обучения Azure хранилища данных представляют собой абстракции облачного источника данных. Они инкапсулируют сведения, необходимые для подключения к источникам данных, и безопасно хранят эти сведения о подключении, чтобы кодировать их в скриптах не нужно.
Преимущества использования хранилищ данных:
- Предоставляет удобные URI для хранилища данных.
- Упрощает обнаружение данных в Машинное обучение Azure.
- Безопасно хранит сведения о подключении, не предоставляя секреты и ключи специалистам по обработке и анализу данных.
При создании хранилища данных с существующей учетной записью хранения в Azure вы можете выбрать один из двух способов проверки подлинности:
- На основе учетных данных: используйте субъект-службу, маркер подписанного URL-адреса (SAS) или ключ учетной записи для проверки подлинности доступа к учетной записи хранения.
- На основе удостоверений: используйте удостоверение Microsoft Entra или управляемое удостоверение.
Общие сведения о типах хранилищ данных
Служба Машинного обучения Azure поддерживает создание хранилищ данных для различных типов источников Azure, включая следующие.
- Хранилище BLOB-объектов Azure
- Общая папка Azure
- Azure Data Lake (2-го поколения)
Использование встроенных хранилищ данных
Каждая рабочая область имеет четыре встроенных хранилища данных (два подключения к контейнерам больших двоичных объектов служба хранилища Azure и два подключения к общим папкам служба хранилища Azure), которые используются в качестве системных хранилищ Машинное обучение Azure.
В большинстве проектов машинного обучения необходимо работать с источниками данных самостоятельно. Например, можно интегрировать решение машинного обучения с данными из существующих приложений или конвейеров проектирования данных.
Создание хранилища данных
Хранилища данных присоединяются к рабочим областям и используются для хранения сведений о подключении к службам хранилища. При создании хранилища данных укажите имя, которое можно использовать для получения сведений о подключении.
Хранилища данных позволяют легко подключаться к службам хранилища без необходимости предоставлять все необходимые сведения при каждом чтении или записи данных. Он также создает защитный слой, если вы хотите, чтобы пользователи использовали данные, но не подключаются к базовой службе хранилища напрямую.
Создание хранилища данных для контейнера Хранилище BLOB-объектов Azure
Хранилище данных можно создать с помощью графического пользовательского интерфейса, интерфейса командной строки Azure (CLI) или пакета SDK для программного обеспечения Python.
В зависимости от службы хранилища, к которой вы хотите подключиться, существуют различные варианты проверки подлинности Машинное обучение Azure.
Например, если требуется создать хранилище данных для подключения к контейнеру Хранилище BLOB-объектов Azure, можно использовать ключ учетной записи:
blob_datastore = AzureBlobDatastore(
name = "blob_example",
description = "Datastore pointing to a blob container",
account_name = "mytestblobstore",
container_name = "data-container",
credentials = AccountKeyConfiguration(
account_key="XXXxxxXXXxXXXXxxXXX"
),
)
ml_client.create_or_update(blob_datastore)
Кроме того, можно создать хранилище данных для подключения к контейнеру Хранилище BLOB-объектов Azure с помощью маркера SAS для проверки подлинности:
blob_datastore = AzureBlobDatastore(
name="blob_sas_example",
description="Datastore pointing to a blob container",
account_name="mytestblobstore",
container_name="data-container",
credentials=SasTokenConfiguration(
sas_token="?xx=XXXX-XX-XX&xx=xxxx&xxx=xxx&xx=xxxxxxxxxxx&xx=XXXX-XX-XXXXX:XX:XXX&xx=XXXX-XX-XXXXX:XX:XXX&xxx=xxxxx&xxx=XXxXXXxxxxxXXXXXXXxXxxxXXXXXxxXXXXXxXXXXxXXXxXXxXX"
),
)
ml_client.create_or_update(blob_datastore)
Совет
Дополнительные сведения о создании хранилищ данных для подключения к другим типам облачных решений хранилища.