Självstudie: Komma åt Azure Synapse ADLS Gen2-data i Azure Machine Learning
I den här självstudien vägleder vi dig genom processen att komma åt data som lagras i Azure Synapse Azure Data Lake Storage Gen2 (ADLS Gen2) från Azure Machine Learning (Azure Machine Learning). Den här funktionen är särskilt värdefull när du vill effektivisera arbetsflödet för maskininlärning genom att använda verktyg som automatiserad ML, integrerad modell- och experimentspårning eller specialiserad maskinvara som GPU:er som är tillgängliga i Azure Machine Learning.
För att få åtkomst till ADLS Gen2-data i Azure Machine Learning skapar vi ett Azure Machine Learning-datalager som pekar på Azure Synapse ADLS Gen2-lagringskontot.
Förutsättningar
- En Azure Synapse Analytics-arbetsyta. Kontrollera att det har ett Azure Data Lake Storage Gen2-lagringskonto konfigurerat som standardlagring. För Data Lake Storage Gen2-filsystemet som du arbetar med kontrollerar du att du är Storage Blob Data-deltagare.
- En Azure Machine Learning-arbetsyta.
Installera bibliotek
Först installerar azure-ai-ml
vi paketet.
%pip install azure-ai-ml
Skapa ett datalager
Azure Machine Learning erbjuder en funktion som kallas datalager, som fungerar som en referens till ditt befintliga Azure-lagringskonto. Vi skapar ett datalager som refererar till vårt Azure Synapse ADLS Gen2-lagringskonto.
I det här exemplet skapar vi en datalagerlänkning till vår Azure Synapse ADLS Gen2-lagring. När du har initierat ett MLClient
objekt kan du ange anslutningsinformation till ditt ADLS Gen2-konto. Slutligen kan du köra koden för att skapa eller uppdatera datalagret.
from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient
ml_client = MLClient.from_config()
# Provide the connection details to your Azure Synapse ADLSg2 storage account
store = AzureDataLakeGen2Datastore(
name="",
description="",
account_name="",
filesystem=""
)
ml_client.create_or_update(store)
Du kan lära dig mer om att skapa och hantera Azure Machine Learning-datalager med hjälp av den här självstudien om Azure Machine Learning-datalager.
Montera ditt ADLS Gen2-lagringskonto
När du har konfigurerat ditt datalager kan du sedan komma åt dessa data genom att skapa en montering på ditt ADLSg2-konto. I Azure Machine Learning innebär skapandet av en montering till ditt ADLS Gen2-konto att du upprättar en direkt länk mellan din arbetsyta och lagringskontot, vilket ger sömlös åtkomst till de data som lagras i. I grund och botten fungerar en montering som en väg som gör att Azure Machine Learning kan interagera med filer och mappar i ditt ADLS Gen2-konto som om de vore en del av det lokala filsystemet på din arbetsyta.
När lagringskontot har monterats kan du enkelt läsa, skriva och manipulera data som lagras i ADLS Gen2 med hjälp av välbekanta filsystemåtgärder direkt i Din Azure Machine Learning-miljö, vilket förenklar förbearbetning av data, modellträning och experimenteringsuppgifter.
Så här gör du:
Starta beräkningsmotorn.
Välj Dataåtgärder och välj sedan Montera.
Härifrån bör du se och välja namnet på ditt ADLSg2-lagringskonto. Det kan ta en stund innan monteringen skapas.
När monteringen är klar kan du välja Dataåtgärder och sedan Använda. Under Data kan du sedan välja den montering som du vill använda data från.
Nu kan du använda de bibliotek du föredrar för att läsa data direkt från ditt monterade Azure Data Lake Storage-konto.
Läsa data från ditt lagringskonto
import os
# List the files in the mounted path
print(os.listdir("/home/azureuser/cloudfiles/data/datastore/{name of mount}"))
# Get the path of your file and load the data using your preferred libraries
import pandas as pd
df = pd.read_csv("/home/azureuser/cloudfiles/data/datastore/{name of mount}/{file name}")
print(df.head(5))