Dela via


Dataintegrering med Azure Data Factory och Azure Data Share

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

När kunderna påbörjar sina moderna datalager- och analysprojekt behöver de inte bara mer data utan också mer insyn i sina data i sin dataegendom. I den här workshopen går vi in på hur förbättringar av Azure Data Factory och Azure Data Share förenklar dataintegrering och hantering i Azure.

Från att aktivera kodfri ETL/ELT till att skapa en omfattande vy över dina data, ger förbättringar i Azure Data Factory dina datatekniker möjlighet att på ett säkert sätt ta in mer data, och därmed mer värde, till ditt företag. Med Azure Data Share kan du göra affärer med företagsdelning på ett styrt sätt.

I den här workshopen använder du Azure Data Factory (ADF) för att mata in data från Azure SQL Database till Azure Data Lake Storage Gen2 (ADLS Gen2). När du har landställt data i sjön transformerar du dem via mappning av dataflöden, datafabrikens interna transformeringstjänst och sänker dem till Azure Synapse Analytics. Sedan delar du tabellen med transformerade data tillsammans med lite extra data med hjälp av Azure Data Share.

De data som används i det här labbet är Taxidata för New York City. Om du vill importera den till databasen i SQL Database laddar du ned bacpac-filen taxi-data. Välj alternativet Ladda ned råfil i GitHub.

Förutsättningar

Konfigurera din Azure Data Factory-miljö

I det här avsnittet får du lära dig hur du kommer åt Azure Data Factory-användarupplevelsen (ADF UX) från Azure Portal. Väl i ADF UX konfigurerar du tre länkade tjänster för vart och ett av de datalager som vi använder: Azure SQL Database, ADLS Gen2 och Azure Synapse Analytics.

I länkade Azure Data Factory-tjänster definierar du anslutningsinformationen till externa resurser. Azure Data Factory stöder för närvarande över 85 anslutningsappar.

Öppna Azure Data Factory UX

  1. Öppna Azure Portal i Antingen Microsoft Edge eller Google Chrome.

  2. Använd sökfältet överst på sidan och sök efter Datafabriker.

  3. Välj din datafabriksresurs för att öppna dess resurser i den vänstra rutan.

    Skärmbild från översiktssidan Azure Portal för en datafabrik.

  4. Välj Öppna Azure Data Factory Studio. Data Factory Studio kan också nås direkt på adf.azure.com.

    Skärmbild av startsidan för Azure Data Factory i Azure Portal.

  5. Du omdirigeras till startsidan för ADF i Azure Portal. Den här sidan innehåller snabbstarter, instruktionsvideor och länkar till självstudier för att lära dig begrepp i datafabriken. Börja redigera genom att välja pennikonen i det vänstra sidofältet.

    Skärmbild från Azure Portal av portalen konfigureras.

Skapa en länkad Azure SQL Database-tjänst

  1. Om du vill skapa en länkad tjänst väljer du Hantera hubb i det vänstra sidofältet. I fönstret Anslutningar väljer du Länkade tjänster och sedan Nytt för att lägga till en ny länkad tjänst.

    Skärmbild från Azure Portal för att skapa en ny länkad tjänst.

  2. Den första länkade tjänsten som du konfigurerar är en Azure SQL Database. Du kan använda sökfältet för att filtrera datalagerlistan. Välj på Azure SQL Database-panelen och välj fortsätt.

    Skärmbild från Azure Portal för att skapa en ny länkad Azure SQL Database-tjänst.

  3. I konfigurationsfönstret för SQL Database anger du "SQLDB" som ditt länkade tjänstnamn. Ange dina autentiseringsuppgifter för att tillåta att datafabriken ansluter till databasen. Om du använder SQL-autentisering anger du i servernamnet, databasen, ditt användarnamn och lösenord. Du kan kontrollera att anslutningsinformationen är korrekt genom att välja Testa anslutning. Välj Skapa när du är klar.

    Skärmbild från Azure Portal för att konfigurera en ny länkad Azure SQL Database-tjänst med en lyckat testad anslutning.

Skapa en länkad Azure Synapse Analytics-tjänst

  1. Upprepa samma process för att lägga till en länkad Azure Synapse Analytics-tjänst. På fliken Anslutningar väljer du Nytt. Välj panelen Azure Synapse Analytics och välj fortsätt.

    Skärmbild från Azure Portal för att skapa en ny länkad Azure Synapse Analytics-tjänst.

  2. I konfigurationsfönstret för länkad tjänst anger du "SQLDW" som ditt länkade tjänstnamn. Ange dina autentiseringsuppgifter för att tillåta att datafabriken ansluter till databasen. Om du använder SQL-autentisering anger du i servernamnet, databasen, ditt användarnamn och lösenord. Du kan kontrollera att anslutningsinformationen är korrekt genom att välja Testa anslutning. Välj Skapa när du är klar.

    Skärmbild från Azure Portal för att konfigurera en ny länkad Azure Synapse Analytics-tjänst med namnet SQLDW.

Skapa en länkad Azure Data Lake Storage Gen2-tjänst

  1. Den senaste länkade tjänsten som behövs för det här labbet är en Azure Data Lake Storage Gen2. På fliken Anslutningar väljer du Nytt. Välj panelen Azure Data Lake Storage Gen2 och välj fortsätt.

    Skärmbild från Azure Portal för att skapa en ny länkad ADLS Gen2-tjänst.

  2. I konfigurationsfönstret för länkad tjänst anger du "ADLSGen2" som ditt länkade tjänstnamn. Om du använder kontonyckelautentisering väljer du ditt ADLS Gen2-lagringskonto i listrutan Lagringskontonamn . Du kan kontrollera att anslutningsinformationen är korrekt genom att välja Testa anslutning. Välj Skapa när du är klar.

    Skärmbild från Azure Portal för att konfigurera en ny länkad ADLS Gen2-tjänst.

Aktivera felsökningsläge för dataflöde

I avsnittet Transformera data med hjälp av mappningsdataflöde skapar du mappning av dataflöden. Bästa praxis innan du skapar mappning av dataflöden är att aktivera felsökningsläge, vilket gör att du kan testa transformeringslogik på några sekunder på ett aktivt Spark-kluster.

Om du vill aktivera felsökning väljer du skjutreglaget För felsökning av dataflöde i det övre fältet för arbetsytan för dataflöden eller pipelinearbetsytan när du har dataflödesaktiviteter . Välj OK när bekräftelsedialogrutan visas. Klustret startar om cirka 5 till 7 minuter. Fortsätt att mata in data från Azure SQL Database till ADLS Gen2 med hjälp av kopieringsaktiviteten när den initieras.

Skärmbild från Azure Portal på sidorna Fabriksresurser med knappen felsökning av dataflöde aktiverad.

Skärmbild som visar var skjutreglaget för felsökning av dataflöde är när ett objekt har skapats.

Mata in data med kopieringsaktiviteten

I det här avsnittet skapar du en pipeline med en kopieringsaktivitet som matar in en tabell från en Azure SQL Database till ett ADLS Gen2-lagringskonto. Du lär dig hur du lägger till en pipeline, konfigurerar en datauppsättning och felsöker en pipeline via ADF UX. Konfigurationsmönstret som används i det här avsnittet kan tillämpas på kopiering från ett relationsdatalager till ett filbaserat datalager.

I Azure Data Factory är en pipeline en logisk gruppering av aktiviteter som tillsammans utför en uppgift. En aktivitet definierar en åtgärd som ska utföras på dina data. En datauppsättning pekar på de data som du vill använda i en länkad tjänst.

Skapa en pipeline med en kopieringsaktivitet

  1. I fönstret Fabriksresurser väljer du på plusikonen för att öppna den nya resursmenyn. Välj Pipeline.

    Skärmbild från Azure Portal för att skapa en ny pipeline.

  2. På fliken Allmänt på pipelinearbetsytan ger du pipelinen ett beskrivande namn, till exempel "IngestAndTransformTaxiData".

    Skärmbild från Azure Portal av det nya inmatnings- och transformeringsobjektet taxidata.

  3. Öppna dragspelet Flytta och transformera i åtgärdsfönstret på pipelinearbetsytan och dra aktiviteten Kopiera data till arbetsytan. Ge kopieringsaktiviteten ett beskrivande namn, till exempel "IngestIntoADLS".

    Skärmbild från Azure Portal för att lägga till ett kopieringsdatasteg.

Konfigurera Azure SQL DB-källdatauppsättning

  1. Välj på fliken Källa för kopieringsaktiviteten. Om du vill skapa en ny datauppsättning väljer du Ny. Källan är tabellen dbo.TripData som finns i den länkade tjänsten "SQLDB" som konfigurerades tidigare.

    Skärmbild från Azure Portal för att skapa en ny datauppsättning i alternativet Kopiera datakälla.

  2. Sök efter Azure SQL Database och välj fortsätt.

    Skärmbild från Azure Portal för att skapa en ny datauppsättning i Azure SQL Database.

  3. Anropa din datauppsättning "TripData". Välj "SQLDB" som länkad tjänst. Välj tabellnamn dbo.TripData i listrutan tabellnamn. Importera schemat Från anslutning/arkiv. Välj OK när du är klar.

    Skärmbild från Azure Portal på egenskapssidan för att skapa en ny datauppsättning i Azure SQL Database.

Du har skapat din källdatauppsättning. Kontrollera att standardvärdet Tabell är markerat i fältet Använd fråga i källinställningarna.

Konfigurera ADLS Gen2-mottagardatauppsättning

  1. Välj på fliken Mottagare för kopieringsaktiviteten. Om du vill skapa en ny datauppsättning väljer du Ny.

    Skärmbild från Azure Portal för att skapa en ny datauppsättning i alternativet Kopiera datamottagare.

  2. Sök efter Azure Data Lake Storage Gen2 och välj fortsätt.

    Skärmbild från Azure Portal för att skapa nya data i ADLS Gen2.

  3. I fönstret Välj format väljer du AvgränsadText när du skriver till en csv-fil. Välj Fortsätt.

    Skärmbild från Azure Portal på formatsidan när du skapar nya data i ADLS Gen2.

  4. Ge mottagarens datamängd namnet "TripDataCSV". Välj "ADLSGen2" som länkad tjänst. Ange var du vill skriva csv-filen. Du kan till exempel skriva dina data till filen trip-data.csv i containern staging-container. Ange Första raden som rubrik till true eftersom du vill att dina utdata ska ha rubriker. Eftersom det inte finns någon fil i målet ännu anger du Importera schema till Ingen. Välj OK när du är klar.

    Skärmbild från Azure Portal på egenskapssidan för att skapa nya data i ADLS Gen2.

Testa kopieringsaktiviteten med en pipeline-felsökningskörning

  1. Kontrollera att kopieringsaktiviteten fungerar korrekt genom att välja Felsök överst på pipelinearbetsytan för att köra en felsökningskörning. Med en felsökningskörning kan du testa din pipeline antingen från slutpunkt till slutpunkt eller tills en brytpunkt innan du publicerar den till datafabrikstjänsten.

    Skärmbild från Azure Portal av felsökningsknappen.

  2. Om du vill övervaka felsökningskörningen går du till fliken Utdata på pipelinearbetsytan. Övervakningsskärmen uppdateras automatiskt var 20:e sekund eller när du väljer uppdateringsknappen manuellt. Kopieringsaktiviteten har en särskild övervakningsvy som du kan komma åt genom att välja glasögonikonen i kolumnen Åtgärder .

    Skärmbild från Azure Portal av övervakningsknappen.

  3. Kopieringsövervakningsvyn ger aktivitetens körningsinformation och prestandaegenskaper. Du kan se information som läsning/skrivning av data, läsning/skrivning av rader, läs-/skrivskyddade filer och dataflöde. Om du har konfigurerat allt korrekt bör du se 49 999 rader skrivna i en fil i ADLS-mottagaren.

    Skärmbild från Azure Portal av prestandainformationen för kopieringsövervakningsvyn.

  4. Innan du går vidare till nästa avsnitt föreslås det att du publicerar dina ändringar i datafabrikstjänsten genom att välja Publicera alla i det översta fabriksfältet. Även om det inte beskrivs i det här labbet stöder Azure Data Factory fullständig git-integrering. Git-integrering möjliggör versionskontroll, iterativt sparande på en lagringsplats och samarbete på en datafabrik. Mer information finns i källkontroll i Azure Data Factory.

    Skärmbild från Azure Portal av knappen Publicera alla.

Omvandla data med Mappa dataflöden

Nu när du har kopierat data till Azure Data Lake Storage är det dags att ansluta och aggregera dessa data till ett informationslager. Vi använder dataflödet för mappning, Azure Data Factorys visuellt utformade transformeringstjänst. Genom att mappa dataflöden kan användarna utveckla en kodfri transformeringslogik och köra dem på spark-kluster som hanteras av ADF-tjänsten.

Dataflödet som skapades i det här steget ansluter datauppsättningen "TripDataCSV" som skapades i föregående avsnitt med en tabell dbo.TripFares som lagras i "SQLDB" baserat på fyra nyckelkolumner. Sedan aggregeras data baserat på kolumn payment_type för att beräkna medelvärdet av vissa fält och skrivs i en Azure Synapse Analytics-tabell.

Lägga till en dataflödesaktivitet i din pipeline

  1. Öppna dragspelet Flytta och transformera i åtgärdsfönstret på pipelinearbetsytan och dra dataflödesaktiviteten till arbetsytan.

    Skärmbild från Azure Portal av dataflödesalternativet på menyn Flytta och transformera.

  2. I sidofönstret som öppnas väljer du Skapa nytt dataflöde och väljer Mappa dataflöde. Välj OK.

    Skärmbild från Azure Portal för att lägga till ett nytt mappningsdataflöde.

  3. Du dirigeras till dataflödesarbetsytan där du skapar omvandlingslogiken. På fliken Allmänt namnger du dataflödet "JoinAndAggregateData".

    Skärmbild från Azure Portal av flödet Koppla och aggregera data.

Konfigurera csv-källa för resedata

  1. Det första du vill göra är att konfigurera dina två källtransformeringar. Den första källan pekar på datauppsättningen "TripDataCSV" DelimitedText. Om du vill lägga till en källtransformering väljer du i rutan Lägg till källa på arbetsytan.

    Skärmbild från Azure Portal av knappen Lägg till källa i ett nytt dataflöde.

  2. Ge källan namnet "TripDataCSV" och välj datauppsättningen "TripDataCSV" i listrutan källa. Om du kommer ihåg importerar du inte ett schema från början när du skapade den här datamängden eftersom det inte fanns några data där. Eftersom trip-data.csv det finns nu väljer du Redigera för att gå till fliken inställningar för datauppsättning.

    Skärmbild från Azure Portal av knappen redigera källdatauppsättning i alternativen för dataflöde.

  3. Gå till fliken Schema och välj Importera schema. Välj Från anslutning/arkiv för att importera direkt från filarkivet. 14 kolumner av typen sträng ska visas.

    Skärmbild från Azure Portal av val av schemakälla.

  4. Gå tillbaka till dataflödet "JoinAndAggregateData". Om felsökningsklustret har startat (indikeras av en grön cirkel bredvid felsökningsreglaget) kan du hämta en ögonblicksbild av data på fliken Dataförhandsgranskning . Välj Uppdatera om du vill hämta en förhandsgranskning av data.

    Skärmbild från Azure Portal av förhandsversionen av dataflödet.

Kommentar

Dataförhandsvisning skriver inte data.

Konfigurera din resa priser SQL Database källa

  1. Den andra källan som du lägger till punkter i SQL Database-tabellen dbo.TripFares. Under din TripDataCSV-källa finns det en annan rutan Lägg till källa . Välj den för att lägga till en ny källtransformering.

    Skärmbild från Azure Portal för att lägga till en annan datakälla i ett dataflöde.

  2. Ge den här källan namnet "TripFaresSQL". Välj Nytt bredvid källdatauppsättningsfältet för att skapa en ny SQL Database-datauppsättning.

    Skärmbild från Azure Portal av den nya källdatauppsättningen i ett annat steg för att kopiera data i dataflödet.

  3. Välj Azure SQL Database-panelen och välj fortsätt. Du kanske märker att många av anslutningsapparna i datafabriken inte stöds i mappning av dataflöde. Om du vill omvandla data från en av dessa källor matar du in dem i en källa som stöds med hjälp av kopieringsaktiviteten.

    Skärmbild från Azure Portal för att lägga till en ny Azure SQL Database-datauppsättning i dataflödet.

  4. Anropa din datauppsättning "TripFares". Välj "SQLDB" som länkad tjänst. Välj tabellnamn dbo.TripFares i listrutan tabellnamn. Importera schemat Från anslutning/arkiv. Välj OK när du är klar.

    Skärmbild från Azure Portal av egenskaperna för att lägga till en ny Azure SQL Database-datamängd i dataflödet.

  5. Om du vill verifiera dina data hämtar du en förhandsversion av data på fliken Dataförhandsgranskning .

    Skärmbild från Azure Portal av dataförhandsgranskningen av en annan datakälla i dataflödet.

Inre koppling TripDataCSV och TripFaresSQL

  1. Om du vill lägga till en ny transformering väljer du plusikonen i det nedre högra hörnet av "TripDataCSV". Under Flera indata/utdata väljer du Anslut.

    Skärmbild från Azure Portal av kopplingsknappen i datakällor i ett dataflöde.

  2. Ge din kopplingstransformeringen namnet "InnerJoinWithTripFares". Välj "TripFaresSQL" i listrutan för rätt dataström. Välj Inre som kopplingstyp. Mer information om de olika kopplingstyperna i mappning av dataflöde finns i kopplingstyper.

    Välj vilka kolumner som du vill matcha på från varje ström via listrutan Kopplingsvillkor . Om du vill lägga till ytterligare ett kopplingsvillkor väljer du på plusikonen bredvid ett befintligt villkor. Som standard kombineras alla kopplingsvillkor med en AND-operator, vilket innebär att alla villkor måste uppfyllas för en matchning. I den här labbuppgiften vill vi matcha kolumnerna medallion, hack_license, vendor_idoch pickup_datetime

    Skärmbild från Azure Portal av inställningar för dataflödeskoppling.

  3. Kontrollera att du har anslutit 25 kolumner tillsammans med en förhandsversion av data.

    Skärmbild från Azure Portal av dataförhandsgranskningen av ett dataflöde med anslutna datakällor.

Aggregera efter payment_type

  1. När du har slutfört din kopplingstransformering lägger du till en aggregerad transformering genom att välja plusikonen bredvid InnerJoinWithTripFares. Välj Aggregera under Schemamodifierare.

    Skärmbild från Azure Portal av den nya aggregeringsknappen.

  2. Ge din aggregerade omvandling namnet "AggregateByPaymentType". Välj payment_type som grupp efter kolumn.

    Skärmbild från Azure Portal av aggregerade inställningar.

  3. Gå till fliken Aggregeringar . Ange två sammansättningar:

    • Det genomsnittliga priset grupperat efter betalningstyp
    • Det totala reseavståndet grupperat efter betalningstyp

    Först skapar du det genomsnittliga biljettuttrycket. I textrutan med etiketten Lägg till eller välj en kolumn anger du "average_fare".

    Skärmbild från Azure Portal av alternativet Grupperad efter i aggregerade inställningar.

  4. Om du vill ange ett aggregeringsuttryck väljer du den blå rutan med etiketten Returuttryck, som öppnar byggare för dataflödesuttryck, ett verktyg som används för att visuellt skapa dataflödesuttryck med hjälp av indataschema, inbyggda funktioner och åtgärder samt användardefinierade parametrar. Mer information om funktionerna i uttrycksverktyget finns i dokumentationen för uttrycksverktyget.

    Om du vill hämta det genomsnittliga priset använder du avg() aggregeringsfunktionen för att aggregera kolumnomkastningen total_amount till ett heltal med toInteger(). I dataflödesuttrycksspråket definieras detta som avg(toInteger(total_amount)). Välj Spara och slutför när du är klar.

    Skärmbild från Azure Portal av Visual Expression Builder som visar en mängdfunktion avg(toInteger(total_amount)).

  5. Om du vill lägga till ett extra aggregeringsuttryck väljer du på plusikonen bredvid average_fare. Välj Lägg till kolumn.

    Skärmbild från Azure Portal av knappen Lägg till kolumn i aggregeringsinställningarna grupperade efter alternativ.

  6. I textrutan med etiketten Lägg till eller välj en kolumn anger du "total_trip_distance". Precis som i det sista steget öppnar du uttrycksverktyget för att ange i uttrycket.

    Om du vill hämta det totala reseavståndet sum() använder du aggregeringsfunktionen för att aggregera kolumngjutningen trip_distance till ett heltal med toInteger(). I dataflödesuttrycksspråket definieras detta som sum(toInteger(trip_distance)). Välj Spara och slutför när du är klar.

    Skärmbild från Azure Portal av två kolumner i aggregeringsinställningarna grupperade efter alternativ.

  7. Testa omvandlingslogik på fliken Dataförhandsgranskning . Som du ser finns det färre rader och kolumner än tidigare. Endast de tre grupperna efter och aggregeringskolumnerna som definierats i den här omvandlingen fortsätter nedströms. Eftersom det bara finns fem betalningstypsgrupper i exemplet matas endast fem rader ut.

    Skärmbild från Azure Portal av aggregerad dataförhandsgranskning.

Konfigurera azure Synapse Analytics-mottagare

  1. Nu när vi har slutfört vår omvandlingslogik är vi redo att sänka våra data i en Azure Synapse Analytics-tabell. Lägg till en mottagartransformering under avsnittet Mål .

    Skärmbild från Azure Portal av knappen Lägg till mottagare i dataflödet.

  2. Ge mottagaren namnet "SQLDWSink". Välj Nytt bredvid datauppsättningsfältet för mottagare för att skapa en ny Azure Synapse Analytics-datauppsättning.

    Skärmbild från Azure Portal av en ny datauppsättningsknapp för mottagare i mottagarinställningarna.

  3. Välj panelen Azure Synapse Analytics och välj fortsätt.

    Skärmbild från Azure Portal av en ny Azure Synapse Analytics-datauppsättning för en ny datamottagare.

  4. Anropa datamängden "AggregatedTaxiData". Välj "SQLDW" som länkad tjänst. Välj Skapa ny tabell och ge den nya tabellen dbo.AggregateTaxiDatanamnet . Välj OK när du är klar.

    Skärmbild från Azure Portal för att skapa en ny tabell för datamottagaren.

  5. Gå till fliken Inställningar i mottagaren. Eftersom vi skapar en ny tabell måste vi välja Återskapa tabell under tabellåtgärd. Avmarkera Aktivera mellanlagring, vilket växlar om vi infogar rad för rad eller i batch.

    Skärmbild från Azure Portal av inställningar för datamottagare, alternativet Återskapa tabell.

Du har skapat dataflödet. Nu är det dags att köra den i en pipelineaktivitet.

Felsöka pipelinen från slutpunkt till slutpunkt

  1. Gå tillbaka till fliken för IngestAndTransformData-pipeline. Lägg märke till den gröna rutan för kopieringsaktiviteten "IngestIntoADLS". Dra över den till dataflödesaktiviteten JoinAndAggregateData. Detta skapar en "vid framgång", vilket gör att dataflödesaktiviteten endast körs om kopian lyckas.

    Skärmbild från Azure Portal av en grön lyckad pipeline.

  2. Precis som för kopieringsaktiviteten väljer du Felsök för att köra en felsökningskörning. För felsökningskörningar använder dataflödesaktiviteten det aktiva felsökningsklustret i stället för att skapa ett nytt kluster. Det tar lite mer än en minut att köra den här pipelinen.

    Skärmbild från Azure Portal av felsökningsknappen för dataflödet för pipelinen för lyckat resultat.

  3. Precis som kopieringsaktiviteten har dataflödet en särskild övervakningsvy som används av glasögonikonen när aktiviteten har slutförts.

    Skärmbild från Azure Portal av utdataövervakaren på en pipeline.

  4. I övervakningsvyn kan du se ett förenklat dataflödesdiagram tillsammans med körningstiderna och raderna i varje körningssteg. Om det görs korrekt bör du ha aggregerat 49 999 rader till fem rader i den här aktiviteten.

    Skärmbild från Azure Portal av utdataövervakarens information om en pipeline.

  5. Du kan välja en transformering för att få ytterligare information om dess körning, till exempel partitioneringsinformation och nya/uppdaterade/borttagna kolumner.

    Skärmbild från Azure Portal av dataströminformation på pipelinens utdataövervakare.

Nu har du slutfört datafabriksdelen av den här labbuppgiften. Publicera dina resurser om du vill operationalisera dem med utlösare. Du har kört en pipeline som matade in data från Azure SQL Database till Azure Data Lake Storage med hjälp av kopieringsaktiviteten och sedan aggregerade dessa data till en Azure Synapse Analytics. Du kan kontrollera att data har skrivits genom att titta på själva SQL Server.

Dela data med Azure Data Share

I det här avsnittet får du lära dig hur du konfigurerar en ny dataresurs med hjälp av Azure Portal. Det handlar om att skapa en ny dataresurs som innehåller datauppsättningar från Azure Data Lake Storage Gen2 och Azure Synapse Analytics. Sedan konfigurerar du ett schema för ögonblicksbilder som ger datakonsumenterna möjlighet att automatiskt uppdatera de data som delas med dem. Sedan bjuder du in mottagare till din dataresurs.

När du har skapat en dataresurs byter du sedan hattar och blir datakonsument. Som datakonsument går du igenom flödet för att acceptera en dataresursinbjudan, konfigurera var du vill att data ska tas emot och mappa datauppsättningar till olika lagringsplatser. Sedan utlöser du en ögonblicksbild som kopierar data som delas med dig till det angivna målet.

Dela data (dataproviderflöde)

  1. Öppna Azure Portal i Microsoft Edge eller Google Chrome.

  2. Använd sökfältet överst på sidan och sök efter dataresurser

    Skärmbild från Azure Portal för att söka efter dataresurser i Azure Portal sökfältet.

  3. Välj dataresurskontot med providern i namnet. Till exempel DataProvider0102.

  4. Välj Börja dela dina data

    Skärmbild från Azure Portal av knappen Börja dela dina data.

  5. Välj +Skapa för att börja konfigurera din nya dataresurs.

  6. Under Resursnamn anger du ett valfritt namn. Det här är resursnamnet som visas av datakonsumenten, så se till att ge det ett beskrivande namn som TaxiData.

  7. Under Beskrivning lägger du in en mening som beskriver innehållet i dataresursen. Dataresursen innehåller world-wide taxi trip data som lagras i en mängd olika butiker, inklusive Azure Synapse Analytics och Azure Data Lake Storage.

  8. Under Användningsvillkor anger du en uppsättning villkor som du vill att datakonsumenten ska följa. Några exempel är "Distribuera inte dessa data utanför din organisation" eller "Referera till juridiskt avtal".

    Skärmbild från Azure Portal av dataresursinformationen i Skickade resurser.

  9. Välj Fortsätt.

  10. Välj Lägg till datauppsättningar

    Skärmbild från Azure Portal av knappen Lägg till datauppsättning i dataresursen i skickade resurser.

  11. Välj Azure Synapse Analytics för att välja en tabell från Azure Synapse Analytics som dina ADF-transformeringar landade i.

  12. Du får ett skript att köra innan du kan fortsätta. Skriptet som tillhandahålls skapar en användare i SQL-databasen så att Azure Data Share MSI kan autentisera för dess räkning.

    Viktigt!

    Innan du kör skriptet måste du ange dig själv som Active Directory-administratör för den logiska SQL-servern i Azure SQL Database.

  13. Öppna en ny flik och gå till Azure Portal. Kopiera skriptet som tillhandahålls för att skapa en användare i databasen som du vill dela data från. Gör detta genom att logga in på EDW-databasen med hjälp av Azure Portal Query-redigeraren med hjälp av Microsoft Entra-autentisering. Du måste ändra användaren i följande exempelskript:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Växla tillbaka till Azure Data Share där du lade till datauppsättningar i din dataresurs.

  15. Välj EDW och välj sedan AggregatedTaxiData för tabellen.

  16. Välj Lägg till datauppsättning

    Nu har vi en SQL-tabell som ingår i vår datauppsättning. Därefter lägger vi till ytterligare datauppsättningar från Azure Data Lake Storage.

  17. Välj Lägg till datauppsättning och välj Azure Data Lake Storage Gen2

    Skärmbild från Azure Portal för att lägga till en ADLS Gen2-datauppsättning.

  18. Välj Nästa

  19. Expandera wwtaxidata. Expandera Boston Taxi Data. Du kan dela ned till filnivå.

  20. Välj mappen Boston Taxi Data för att lägga till hela mappen i dataresursen.

  21. Välj Lägg till datauppsättningar

  22. Granska de datauppsättningar som har lagts till. Du bör ha en SQL-tabell och en ADLS Gen2-mapp tillagd i dataresursen.

  23. Välj Fortsätt

  24. På den här skärmen kan du lägga till mottagare i din dataresurs. Mottagarna som du lägger till får inbjudningar till din dataresurs. I den här labbuppgiften måste du lägga till två e-postadresser:

    1. E-postadressen för den Azure-prenumeration du befinner dig i.

      Skärmbild från Azure Portal av dataresursen lägger till mottagare.

    2. Lägg till den fiktiva datakonsumenten med namnet janedoe@fabrikam.com.

  25. På den här skärmen kan du konfigurera en inställning för ögonblicksbilder för datakonsumenten. Detta gör att de kan ta emot regelbundna uppdateringar av dina data med ett intervall som definieras av dig.

  26. Kontrollera schemat för ögonblicksbilder och konfigurera en uppdatering per timme av dina data med hjälp av listrutan Upprepning .

  27. Välj Skapa.

    Nu har du en aktiv dataresurs. Låt oss granska vad du kan se som en dataprovider när du skapar en dataresurs.

  28. Välj den dataresurs som du skapade med titeln DataProvider. Du kan navigera till den genom att välja Skickade resurser i dataresurs.

  29. Välj enligt schemat för ögonblicksbilder. Du kan inaktivera schemat för ögonblicksbilder om du vill.

  30. Välj sedan fliken Datauppsättningar . Du kan lägga till ytterligare datauppsättningar i den här dataresursen när den har skapats.

  31. Välj fliken Dela prenumerationer . Det finns inga resursprenumerationer ännu eftersom datakonsumenten ännu inte har accepterat din inbjudan.

  32. Gå till fliken Inbjudningar . Här visas en lista över väntande inbjudningar.

    Skärmbild från Azure Portal av Väntande inbjudningar.

  33. Välj inbjudan till janedoe@fabrikam.com. Välj Ta bort. Om mottagaren ännu inte har accepterat inbjudan kommer de inte längre att kunna göra det.

  34. Välj fliken Historik . Ingenting visas ännu eftersom datakonsumenten ännu inte har accepterat din inbjudan och utlöst en ögonblicksbild.

Ta emot data (datakonsumentflöde)

Nu när vi har granskat vår dataresurs är vi redo att byta kontext och bära vår konsumenthatt för data.

Nu bör du ha en Azure Data Share-inbjudan i inkorgen från Microsoft Azure. Starta Outlook Web Access (outlook.com) och logga in med de autentiseringsuppgifter som angetts för din Azure-prenumeration.

I e-postmeddelandet som du borde ha fått väljer du "Visa inbjudan >". Nu ska du simulera datakonsumentupplevelsen när du accepterar en inbjudan från dataleverantörer till deras dataresurs.

Skärmbild från Outlook av en e-postinbjudan.

Du kan uppmanas att välja en prenumeration. Se till att du väljer den prenumeration som du har arbetat i för det här labbet.

  1. Välj på inbjudan med titeln DataProvider.

  2. På den här inbjudningsskärmen ser du olika detaljer om dataresursen som du konfigurerade tidigare som dataprovider. Granska informationen och godkänn användningsvillkoren om det tillhandahålls.

  3. Välj den prenumeration och resursgrupp som redan finns för labbet.

  4. För Dataresurskonto väljer du DataConsumer. Du kan också skapa ett nytt dataresurskonto.

  5. Bredvid Namnet på den mottagna resursen ser du att standardresursnamnet är det namn som angavs av dataprovidern. Ge resursen ett eget namn som beskriver de data som du ska ta emot, t.ex . TaxiDataShare.

    Skärmbild från sidans Azure Portal till Acceptera och konfigurera en dataresurs.

  6. Du kan välja att Acceptera och konfigurera nu eller Acceptera och konfigurera senare. Om du väljer att acceptera och konfigurera nu anger du ett lagringskonto där alla data ska kopieras. Om du väljer att acceptera och konfigurera senare kommer datauppsättningarna i resursen att avmappas och du måste mappa dem manuellt. Vi kommer att välja det senare.

  7. Välj Acceptera och konfigurera senare.

    När du konfigurerar det här alternativet skapas en resursprenumeration, men det finns ingen plats för data att landa eftersom inget mål har mappats.

    Konfigurera sedan datamängdsmappningar för dataresursen.

  8. Välj den mottagna resursen (det namn som du angav i steg 5).

    Ögonblicksbilden av utlösaren är nedtonad men resursen är Aktiv.

  9. Välj fliken Datauppsättningar . Varje datauppsättning är Avmappad, vilket innebär att den inte har något mål att kopiera data till.

    Skärmbild från Azure Portal av ommappade datauppsättningar.

  10. Välj tabellen Azure Synapse Analytics och välj sedan + Mappa till mål.

  11. Välj listrutan Måldatatyp till höger på skärmen.

    Du kan mappa SQL-data till en mängd olika datalager. I det här fallet mappas vi till en Azure SQL Database.

    Skärmbild från Azure Portal av mappningsdatauppsättningar till målet.

    (Valfritt) Välj Azure Data Lake Storage Gen2 som måldatatyp.

    (Valfritt) Välj det prenumerations-, resursgrupp- och lagringskonto som du har arbetat i.

    (Valfritt) Du kan välja att ta emot data till din datasjö i csv- eller parquet-format.

  12. Bredvid Måldatatyp väljer du Azure SQL Database.

  13. Välj det prenumerations-, resursgrupp- och lagringskonto som du har arbetat i.

    Skärmbild från Azure Portal av mappningsdatauppsättningar till en Azure SQL Database-måldatabas.

  14. Innan du kan fortsätta måste du skapa en ny användare i SQL Server genom att köra det angivna skriptet. Kopiera först skriptet som tillhandahålls till Urklipp.

  15. Öppna en ny Azure Portal flik. Stäng inte din befintliga flik eftersom du behöver komma tillbaka till den om en stund.

  16. På den nya fliken som du öppnade går du till SQL-databaser.

  17. Välj SQL-databasen (det bör bara finnas en i din prenumeration). Var försiktig så att du inte väljer informationslagret.

  18. Välj Frågeredigeraren (förhandsversion)

  19. Använd Microsoft Entra-autentisering för att logga in på frågeredigeraren.

  20. Kör frågan som tillhandahålls i dataresursen (kopieras till Urklipp i steg 14).

    Med det här kommandot kan Azure Data Share-tjänsten använda hanterade identiteter för Azure Services för att autentisera till SQL Server för att kunna kopiera data till den.

  21. Gå tillbaka till den ursprungliga fliken och välj Mappa till mål.

  22. Välj sedan mappen Azure Data Lake Storage Gen2 som ingår i datauppsättningen och mappa den till ett Azure Blob Storage-konto.

    Skärmbild från Azure Portal av mappningsdatauppsättningar till en Azure Blob Storage-mål.

    När alla datauppsättningar har mappats är du nu redo att börja ta emot data från dataprovidern.

    Skärmbild från Azure Portal av mottagna resurser som mappats.

  23. Välj detaljer.

    Ögonblicksbilden av utlösaren är inte längre nedtonad eftersom dataresursen nu har mål att kopiera till.

  24. Välj Utlösarögonblicksbild –> Fullständig kopia.

    Skärmbild från Azure Portal av utlösarögonblicksbilden, fullständigt kopieringsalternativ.

    Detta börjar kopiera data till ditt nya dataresurskonto. I ett verkligt scenario skulle dessa data komma från en tredje part.

    Det tar cirka 3–5 minuter för data att stöta på dem. Du kan övervaka förloppet genom att välja på fliken Historik .

    Medan du väntar går du till den ursprungliga dataresursen (DataProvider) och visar status för fliken Dela prenumerationer och historik . Det finns nu en aktiv prenumeration, och som dataprovider kan du även övervaka när datakonsumenten har börjat ta emot data som delas med dem.

  25. Gå tillbaka till datakonsumentens dataresurs. När statusen för utlösaren har lyckats navigerar du till SQL-måldatabasen och datasjön för att se att data har landat i respektive lager.

Grattis, du har slutfört labbet!