Samouczek: uzyskiwanie dostępu do danych usługi Azure Synapse ADLS Gen2 w usłudze Azure Machine Learning
W tym samouczku przeprowadzimy Cię przez proces uzyskiwania dostępu do danych przechowywanych w usłudze Azure Synapse Azure Data Lake Storage Gen2 (ADLS Gen2) z usługi Azure Machine Learning (Azure Machine Learning). Ta funkcja jest szczególnie cenna, gdy chcesz usprawnić przepływ pracy uczenia maszynowego, wykorzystując narzędzia, takie jak zautomatyzowane uczenie maszynowe, zintegrowane śledzenie modeli i eksperymentów, lub wyspecjalizowany sprzęt, taki jak procesory GPU dostępne w usłudze Azure Machine Learning.
Aby uzyskać dostęp do danych usługi ADLS Gen2 w usłudze Azure Machine Learning, utworzymy magazyn danych usługi Azure Machine Learning wskazujący konto magazynu usługi Azure Synapse ADLS Gen2.
Wymagania wstępne
- Obszar roboczy usługi Azure Synapse Analytics. Upewnij się, że ma ono konto magazynu usługi Azure Data Lake Storage Gen2 skonfigurowane jako magazyn domyślny. W przypadku systemu plików usługi Data Lake Storage Gen2, z którym pracujesz, upewnij się, że jesteś współautorem danych obiektu blob usługi Storage.
- Obszar roboczy usługi Azure Machine Learning.
Instalowanie bibliotek
Najpierw zainstalujemy azure-ai-ml
pakiet.
%pip install azure-ai-ml
Tworzenie magazynu danych
Usługa Azure Machine Learning oferuje funkcję znaną jako magazyn danych, która działa jako odwołanie do istniejącego konta usługi Azure Storage. Utworzymy magazyn danych, który odwołuje się do naszego konta magazynu usługi Azure Synapse ADLS Gen2.
W tym przykładzie utworzymy magazyn danych łączący się z magazynem usługi Azure Synapse ADLS Gen2. Po zainicjowaniu MLClient
obiektu można podać szczegóły połączenia z kontem usługi ADLS Gen2. Na koniec możesz wykonać kod, aby utworzyć lub zaktualizować magazyn danych.
from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient
ml_client = MLClient.from_config()
# Provide the connection details to your Azure Synapse ADLSg2 storage account
store = AzureDataLakeGen2Datastore(
name="",
description="",
account_name="",
filesystem=""
)
ml_client.create_or_update(store)
Więcej informacji na temat tworzenia magazynów danych usługi Azure Machine Learning i zarządzania nimi można uzyskać, korzystając z tego samouczka w magazynach danych usługi Azure Machine Learning.
Instalowanie konta magazynu usługi ADLS Gen2
Po skonfigurowaniu magazynu danych możesz uzyskać dostęp do tych danych, tworząc instalację na koncie ADLSg2. W usłudze Azure Machine Learning utworzenie instalacji na koncie usługi ADLS Gen2 wiąże się z ustanowieniem bezpośredniego połączenia między obszarem roboczym a kontem magazynu, co umożliwia bezproblemowy dostęp do danych przechowywanych w ramach. Zasadniczo instalacja działa jako ścieżka umożliwiająca usłudze Azure Machine Learning interakcję z plikami i folderami na koncie usługi ADLS Gen2 tak, jakby były częścią lokalnego systemu plików w obszarze roboczym.
Po zainstalowaniu konta magazynu można bez wysiłku odczytywać, zapisywać i manipulować danymi przechowywanymi w usłudze ADLS Gen2 przy użyciu znanych operacji systemu plików bezpośrednio w środowisku usługi Azure Machine Learning, upraszczając przetwarzanie danych, trenowanie modeli i zadania eksperymentowania.
Czynność:
Uruchom aparat obliczeniowy.
Wybierz pozycję Akcje danych, a następnie wybierz pozycję Zainstaluj.
W tym miejscu powinna zostać wyświetlona i wybrana nazwa konta magazynu ADLSg2. Utworzenie instalacji może potrwać kilka minut.
Gdy instalacja będzie gotowa, możesz wybrać pozycję Akcje danych, a następnie zużyć. W obszarze Dane możesz wybrać instalację, z której chcesz korzystać.
Teraz możesz użyć preferowanych bibliotek do bezpośredniego odczytywania danych z zainstalowanego konta usługi Azure Data Lake Storage.
Odczytywanie danych z konta magazynu
import os
# List the files in the mounted path
print(os.listdir("/home/azureuser/cloudfiles/data/datastore/{name of mount}"))
# Get the path of your file and load the data using your preferred libraries
import pandas as pd
df = pd.read_csv("/home/azureuser/cloudfiles/data/datastore/{name of mount}/{file name}")
print(df.head(5))