Sdílet prostřednictvím


Kurz: Přístup k datům Azure Synapse ADLS Gen2 ve službě Azure Machine Learning

V tomto kurzu vás provedeme procesem přístupu k datům uloženým ve službě Azure Synapse Azure Data Lake Storage Gen2 (ADLS Gen2) ze služby Azure Machine Learning (Azure Machine Learning). Tato funkce je obzvláště cenná, když se snažíte zjednodušit pracovní postup strojového učení pomocí nástrojů, jako jsou automatizované strojové učení, integrované modely a sledování experimentů nebo specializovaný hardware, jako jsou GPU, které jsou k dispozici ve službě Azure Machine Learning.

Pro přístup k datům ADLS Gen2 ve službě Azure Machine Learning vytvoříme úložiště dat Azure Machine Learning, které odkazuje na účet úložiště Azure Synapse ADLS Gen2.

Požadavky

  • Pracovní prostor Azure Synapse Analytics Ujistěte se, že má účet úložiště Azure Data Lake Storage Gen2 nakonfigurovaný jako výchozí úložiště. V systému souborů Data Lake Storage Gen2, se kterým pracujete, se ujistěte, že jste přispěvatelem dat objektů blob služby Storage.
  • Pracovní prostor Azure Machine Learning.

Instalace knihoven

Nejprve balíček nainstalujeme azure-ai-ml .

%pip install azure-ai-ml

Vytvoření úložiště dat

Azure Machine Learning nabízí funkci označovanou jako úložiště dat, která funguje jako odkaz na váš stávající účet úložiště Azure. Vytvoříme úložiště dat, které odkazuje na účet úložiště Azure Synapse ADLS Gen2.

V tomto příkladu vytvoříme propojení úložiště dat s naším úložištěm Azure Synapse ADLS Gen2. Po inicializaci objektu MLClient můžete zadat podrobnosti o připojení k vašemu účtu ADLS Gen2. Nakonec můžete spustit kód pro vytvoření nebo aktualizaci úložiště dat.

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

# Provide the connection details to your Azure Synapse ADLSg2 storage account
store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Další informace o vytváření a správě úložišť dat služby Azure Machine Learning najdete v tomto kurzu v úložištích dat Azure Machine Learning.

Připojení účtu úložiště ADLS Gen2

Jakmile nastavíte úložiště dat, můžete k datům přistupovat tak, že vytvoříte připojení k účtu ADLSg2. Vytvoření připojení k účtu ADLS Gen2 ve službě Azure Machine Learning zahrnuje vytvoření přímého propojení mezi vaším pracovním prostorem a účtem úložiště, což umožňuje bezproblémový přístup k datům uloženým v rámci. Připojení v podstatě funguje jako cesta, která azure Machine Learning umožňuje interakci se soubory a složkami v účtu ADLS Gen2, jako by byly součástí místního systému souborů v rámci vašeho pracovního prostoru.

Po připojení účtu úložiště můžete snadno číst, zapisovat a manipulovat s daty uloženými v ADLS Gen2 pomocí známých operací systému souborů přímo v prostředí Azure Machine Learning, zjednodušení předběžného zpracování dat, trénování modelů a úloh experimentování.

Akce:

  1. Spusťte výpočetní modul.

  2. Vyberte Akce dat a pak vyberte Připojit.

    Snímek obrazovky s možností Azure Machine Learning pro výběr akcí dat

  3. Odsud byste měli vidět a vybrat název účtu úložiště ADLSg2. Vytvoření připojení může chvíli trvat.

  4. Jakmile je připojení připravené, můžete vybrat akce dat a pak využívat. V části Data pak můžete vybrat připojení, ze kterého chcete data využívat.

Teď můžete pomocí preferovaných knihoven přímo číst data z připojeného účtu Azure Data Lake Storage.

Čtení dat z účtu úložiště

import os
# List the files in the mounted path
print(os.listdir("/home/azureuser/cloudfiles/data/datastore/{name of mount}"))

# Get the path of your file and load the data using your preferred libraries
import pandas as pd
df = pd.read_csv("/home/azureuser/cloudfiles/data/datastore/{name of mount}/{file name}")
print(df.head(5))

Další kroky