Snabbstart: Interaktiv dataomvandling med Apache Spark i Azure Machine Learning

Artikel
11/23/2024

Azure Machine Learning-integrering med Azure Synapse Analytics ger enkel åtkomst till Apache Spark-ramverket för att hantera interaktiva dataomvandlingar i Azure Machine Learning. Den här åtkomsten möjliggör interaktiv dataomvandling i Azure Machine Learning Notebook.

I den här snabbstartsguiden får du lära dig hur du utför interaktiva dataomvandlingar med Serverlös Spark-beräkning i Azure Machine Learning, Azure Data Lake Storage (ADLS) Gen 2-lagringskonto och genomströmning av användaridentitet.

Förutsättningar

En Azure-prenumeration; Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.
En Azure Machine Learning-arbetsyta. Besök Skapa arbetsyteresurser.
Ett Azure Data Lake Storage(ADLS) Gen 2-lagringskonto. Besök Skapa ett ADLS Gen 2-lagringskonto (Azure Data Lake Storage).

Lagra autentiseringsuppgifter för Azure-lagringskonto som hemligheter i Azure Key Vault

Så här lagrar du autentiseringsuppgifter för Azure-lagringskontot som hemligheter i Azure Key Vault med Azure Portal användargränssnitt:

Gå till Azure Key Vault i Azure Portal
Välj Hemligheter i den vänstra panelen
Välj + Generera/importera
På skärmen Skapa en hemlighet anger du ett Namn för den hemlighet som du vill skapa
Gå till Azure Blob Storage-kontot i Azure Portal, som du ser i den här bilden:
Välj Åtkomstnycklar på sidan Azure Blob Storage-konto till vänster
Välj Visa bredvid Nyckel 1 och sedan Kopiera till Urklipp för att hämta åtkomstnyckeln för lagringskontot
Kommentar

Välj lämpliga alternativ för att kopiera
- Azure Blob Storage-token för signatur för delad åtkomst (SAS) för container med delad åtkomst
- Autentiseringsuppgifter för Azure Data Lake Storage (ADLS) Gen 2-lagringskontots huvudnamn
  - klientorganisations-ID:
  - klient-ID och
  - hemlighet
på respektive användargränssnitt när du skapar Azure Key Vault-hemligheterna åt dem
Gå tillbaka till skärmen Skapa en hemlighet
I textrutan Hemligt värde anger du åtkomstnyckelns autentiseringsuppgifter för Azure Storage-kontot, som kopierades till Urklipp i föregående steg
Välj Skapa

Dricks

Azure CLI och Azure Key Vault hemligt klientbibliotek för Python kan också skapa Azure Key Vault-hemligheter.

Lägga till rolltilldelningar i Azure Storage-konton

Vi måste se till att sökvägarna för indata och utdata är tillgängliga innan vi startar interaktiv dataomvandling. För det första för

användaridentiteten för notebook-sessionens inloggade användare

eller
ett huvudnamn för tjänsten

tilldela roller för läsare och lagringsblobdataläsare till användaridentiteten för den inloggade användaren. Men i vissa scenarier kanske vi vill skriva tillbaka de vridna data till Azure-lagringskontot. Rollerna Läsare och Lagringsblobdataläsare ger skrivskyddad åtkomst till användaridentiteten eller tjänstens huvudnamn. Om du vill aktivera läs- och skrivåtkomst tilldelar du rollerna Deltagare och Lagringsblobdatadeltagare till användaridentiteten eller tjänstens huvudnamn. Så här tilldelar du lämpliga roller till användaridentiteten:

Öppna Microsoft Azure Portal
Sök och välj tjänsten Lagringskonton
På sidan Lagringskonton väljer du Azure Data Lake Storage (ADLS) Gen 2-lagringskontot i listan. En sida som visar översikten över lagringskontot öppnas
Välj Åtkomstkontroll (IAM) på den vänstra panelen
Välj Lägg till rolltilldelning
Hitta och välj rollen Storage Blob Data Contributor
Välj Nästa
Välj Användare, grupp eller tjänstens huvudnamn
Välj + Välj medlemmar
Sök efter användaridentiteten nedan Välj
Välj användaridentiteten i listan så att den visas under Valda medlemmar
Välj lämplig användaridentitet
Välj Nästa
Välj Granska + tilldela
Upprepa steg 2–13 för rolltilldelning för deltagare

När användaridentiteten har tilldelats lämpliga roller bör data i Azure Storage-kontot bli tillgängliga.

Kommentar

Om en ansluten Synapse Spark-pool pekar på en Synapse Spark-pool, på en Azure Synapse-arbetsyta som har ett hanterat virtuellt nätverk associerat med den, bör du konfigurera en hanterad privat slutpunkt till ett lagringskonto för att säkerställa dataåtkomst.

Säkerställa resursåtkomst för Spark-jobb

För att komma åt data och andra resurser kan Spark-jobb använda antingen en hanterad identitet eller genomströmning av användaridentitet. I följande tabell sammanfattas de olika mekanismerna för resursåtkomst när du använder Azure Machine Learning serverlös Spark-beräkning och bifogad Synapse Spark-pool.

Spark-pool	Identiteter som stöds	Standardidentitet
Serverlös Spark-beräkning	Användaridentitet, användartilldelad hanterad identitet kopplad till arbetsytan	Användaridentitet
Bifogad Synapse Spark-pool	Användaridentitet, användartilldelad hanterad identitet kopplad till den anslutna Synapse Spark-poolen, systemtilldelad hanterad identitet för den anslutna Synapse Spark-poolen	Systemtilldelad hanterad identitet för den anslutna Synapse Spark-poolen

Om CLI- eller SDK-koden definierar ett alternativ för att använda hanterad identitet förlitar sig Azure Machine Learning serverlös Spark-beräkning på en användartilldelad hanterad identitet som är kopplad till arbetsytan. Du kan koppla en användartilldelad hanterad identitet till en befintlig Azure Machine Learning-arbetsyta med Azure Machine Learning CLI v2 eller med ARMClient.

Dela via

Snabbstart: Interaktiv dataomvandling med Apache Spark i Azure Machine Learning

Förutsättningar

Lagra autentiseringsuppgifter för Azure-lagringskonto som hemligheter i Azure Key Vault

Lägga till rolltilldelningar i Azure Storage-konton

Säkerställa resursåtkomst för Spark-jobb

Nästa steg

Feedback

Ytterligare resurser