Delen via


Gegevensintegratie met behulp van Azure Data Factory en Azure Data Share

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Als klanten hun moderne datawarehouse- en analyseprojecten starten, hebben ze niet alleen meer gegevens nodig, maar ook meer inzicht in hun gegevens. Deze workshop gaat dieper in op hoe verbeteringen aan Azure Data Factory en Azure Data Share gegevensintegratie en -beheer in Azure vereenvoudigen.

Van het inschakelen van codevrije ETL/ELT tot het creëren van een uitgebreide weergave van uw gegevens, verbeteringen in Azure Data Factory stellen uw data engineers in staat om meer gegevens en dus meer waarde toe te voegen aan uw onderneming. Met Azure Data Share kunt u zaken doen met zakelijke delen op een beheerde manier.

In deze workshop gebruikt u Azure Data Factory (ADF) om gegevens van Azure SQL Database op te nemen in Azure Data Lake Storage Gen2 (ADLS Gen2). Zodra u de gegevens in het lake hebt geland, transformeert u deze via toewijzingsgegevensstromen, de systeemeigen transformatieservice van data factory en sinkt u deze in Azure Synapse Analytics. Vervolgens deelt u de tabel met getransformeerde gegevens, samen met enkele extra gegevens met behulp van Azure Data Share.

De gegevens die in dit lab worden gebruikt, zijn gegevens van New York City-taxi. Als u deze wilt importeren in uw database in SQL Database, moet u het taxi-data bacpac-bestand downloaden. Selecteer de optie Onbewerkt bestand downloaden in GitHub.

Vereisten

Uw Azure Data Factory-omgeving instellen

In deze sectie leert u hoe u toegang krijgt tot de Azure Data Factory-gebruikerservaring (ADF UX) vanuit Azure Portal. Eenmaal in de ADF UX configureert u drie gekoppelde service voor elk van de gegevensarchieven die we gebruiken: Azure SQL Database, ADLS Gen2 en Azure Synapse Analytics.

Definieer in gekoppelde Azure Data Factory-services de verbindingsgegevens met externe resources. Azure Data Factory ondersteunt momenteel meer dan 85 connectors.

Open de Azure Data Factory UX

  1. Open de Azure-portal in Microsoft Edge of Google Chrome.

  2. Zoek met behulp van de zoekbalk boven aan de pagina naar 'Data Factory's'.

  3. Selecteer uw data factory-resource om de resources in het linkerdeelvenster te openen.

    Schermopname van azure Portal van een overzichtspagina voor data factory's.

  4. Selecteer Azure Data Factory Studio openen. De Data Factory Studio is ook rechtstreeks toegankelijk op adf.azure.com.

    Schermopname van de startpagina van Azure Data Factory in Azure Portal.

  5. U wordt omgeleid naar de startpagina van ADF in Azure Portal. Deze pagina bevat quickstarts, instructievideo's en koppelingen naar zelfstudies voor meer informatie over data factory-concepten. Als u wilt beginnen met ontwerpen, selecteert u het potloodpictogram in de linkerzijbalk.

    Schermopname van Azure Portal van Portal configureren.

Een gekoppelde Azure SQL Database-service maken

  1. Als u een gekoppelde service wilt maken, selecteert u Hub beheren in de linkerzijbalk, selecteert u Gekoppelde services in het deelvenster Verbindingen en selecteert u Nieuw om een nieuwe gekoppelde service toe te voegen.

    Schermopname van Azure Portal van het maken van een nieuwe gekoppelde service.

  2. De eerste gekoppelde service die u configureert, is een Azure SQL Database. U kunt de zoekbalk gebruiken om de lijst met gegevensarchieven te filteren. Selecteer op de tegel Azure SQL Database en selecteer Doorgaan.

    Schermopname van Azure Portal van het maken van een nieuwe gekoppelde Azure SQL Database-service.

  3. Voer in het deelvenster SQL Database-configuratie 'SQLDB' in als de naam van de gekoppelde service. Voer uw aanmeldingsgegevens in om data factory verbinding te laten maken met uw database. Als u SQL-verificatie gebruikt, voert u de servernaam, de database, uw gebruikersnaam en wachtwoord in. U kunt controleren of uw verbindingsgegevens juist zijn door De verbinding testen te selecteren. Selecteer Maken nadat dit is voltooid.

    Schermopname van Azure Portal van het configureren van een nieuwe gekoppelde Azure SQL Database-service, met een geteste verbinding.

Een gekoppelde Azure Synapse Analytics-service maken

  1. Herhaal hetzelfde proces om een gekoppelde Azure Synapse Analytics-service toe te voegen. Selecteer Nieuw op het tabblad Verbindingen. Selecteer de tegel Azure Synapse Analytics en selecteer Doorgaan.

    Schermopname van Azure Portal van het maken van een nieuwe gekoppelde Azure Synapse Analytics-service.

  2. Voer in het deelvenster voor de configuratie van de gekoppelde service 'SQLDW' in als de naam van uw gekoppelde service. Voer uw aanmeldingsgegevens in om data factory verbinding te laten maken met uw database. Als u SQL-verificatie gebruikt, voert u de servernaam, de database, uw gebruikersnaam en wachtwoord in. U kunt controleren of uw verbindingsgegevens juist zijn door De verbinding testen te selecteren. Selecteer Maken nadat dit is voltooid.

    Schermopname van Azure Portal van het configureren van een nieuwe gekoppelde Azure Synapse Analytics-service met de naam SQLDW.

Een gekoppelde Azure Data Lake Storage Gen2-service maken

  1. De laatste gekoppelde service die nodig is voor dit lab is een Azure Data Lake Storage Gen2. Selecteer Nieuw op het tabblad Verbindingen. Selecteer de tegel Azure Data Lake Storage Gen2 en selecteer Doorgaan.

    Schermopname van Azure Portal van het maken van een nieuwe gekoppelde ADLS Gen2-service.

  2. Voer in het deelvenster Configuratie van gekoppelde service 'ADLSGen2' in als de naam van de gekoppelde service. Als u accountsleutelverificatie gebruikt, selecteert u uw ADLS Gen2-opslagaccount in de vervolgkeuzelijst Opslagaccountnaam . U kunt controleren of uw verbindingsgegevens juist zijn door De verbinding testen te selecteren. Selecteer Maken nadat dit is voltooid.

    Schermopname van Azure Portal van het configureren van een nieuwe gekoppelde ADLS Gen2-service.

Foutopsporingsmodus voor gegevensstromen inschakelen

In de sectie Gegevens transformeren met behulp van toewijzingsgegevensstroom bouwt u toewijzingsgegevensstromen. Een best practice voordat u toewijzingsgegevensstromen bouwt, is het inschakelen van de foutopsporingsmodus, waarmee u de transformatielogica in een paar seconden kunt testen op een actief Spark-cluster.

Als u foutopsporing wilt inschakelen, selecteert u de schuifregelaar voor foutopsporing in de bovenste balk van het gegevensstroomcanvas of pijplijncanvas wanneer u gegevensstroomactiviteiten hebt. Selecteer OK wanneer het bevestigingsdialoogvenster wordt weergegeven. Het cluster wordt in ongeveer 5 tot 7 minuten gestart. Ga verder met het opnemen van gegevens uit Azure SQL Database in ADLS Gen2 met behulp van de kopieeractiviteit terwijl deze wordt geïnitialiseerd.

Schermopname van Azure Portal van de pagina's Factory-resources, met de knop voor foutopsporing van gegevensstromen ingeschakeld.

Schermopname van waar de schuifregelaar voor foutopsporing van gegevensstromen zich bevindt nadat een object is gemaakt.

Gegevens opnemen met behulp van de kopieeractiviteit

In deze sectie maakt u een pijplijn met een kopieeractiviteit die één tabel uit een Azure SQL Database opneemt in een ADLS Gen2-opslagaccount. U leert hoe u een pijplijn toevoegt, een gegevensset configureert en fouten in een pijplijn opstakt via de ADF UX. Het configuratiepatroon dat wordt gebruikt in deze zelfstudie, kan worden toegepast op het kopiëren van een relationeel gegevensarchief naar een gegevensarchief op basis van bestanden.

In Azure Data Factory is een pijplijn een logische groep activiteiten die samen een taak uitvoeren. Een activiteit definieert een bewerking die op uw gegevens moet worden uitgevoerd. Een gegevensset wijst naar de gegevens die u wilt gebruiken in een gekoppelde service.

Een pijplijn met kopieeractiviteit maken

  1. Selecteer in het deelvenster Factory-resources het pluspictogram om het nieuwe resourcemenu te openen. Selecteer Pijplijn.

    Schermopname van Azure Portal van het maken van een nieuwe pijplijn.

  2. Geef op het tabblad Algemeen van het pijplijncanvas een beschrijvende naam op voor de pijplijn, zoals 'IngestAndTransformTaxiData'.

    Schermopname van Azure Portal van het nieuwe gegevensobject Opnemen en Taxi transformeren.

  3. Open in het deelvenster Activiteiten van het pijplijncanvas de accordion Verplaatsen en transformeren en sleep de activiteit Gegevens kopiëren naar het canvas. Geef de kopieeractiviteit een beschrijvende naam zoals 'IngestIntoADLS'.

    Schermopname van Azure Portal van het toevoegen van een stap voor het kopiëren van gegevens.

Azure SQL DB-brongegevensset configureren

  1. Selecteer op het tabblad Bron van de kopieeractiviteit. Als u een nieuwe gegevensset wilt maken, selecteert u Nieuw. Uw bron is de tabel dbo.TripData in de gekoppelde service SQLDB die eerder is geconfigureerd.

    Schermopname van Azure Portal van het maken van een nieuwe gegevensset in de optie Gegevensbron kopiëren.

  2. Zoek naar Azure SQL Database en selecteer Doorgaan.

    Schermopname van Azure Portal van het maken van een nieuwe gegevensset in Azure SQL Database.

  3. Roep de gegevensset 'TripData' aan. Selecteer 'SQLDB' als uw gekoppelde service. Selecteer de tabelnaam in de vervolgkeuzelijst tabelnaam dbo.TripData . Importeer het schema Uit verbinding/archief. Wanneer u klaar bent, selecteert u OK.

    Schermopname van Azure Portal van de eigenschappenpagina van het maken van een nieuwe gegevensset in Azure SQL Database.

U hebt uw eerste brongegevensset gemaakt. Zorg ervoor dat in de broninstellingen de standaardwaarde Tabel is geselecteerd in het veld Query gebruiken.

ADLS Gen 2-sinkgegevensset configureren

  1. Selecteer op het tabblad Sink van de kopieeractiviteit. Als u een nieuwe gegevensset wilt maken, selecteert u Nieuw.

    Schermopname van Azure Portal van het maken van een nieuwe gegevensset in de optie Gegevenssink kopiëren.

  2. Zoek naar Azure Data Lake Storage Gen2 en selecteer Doorgaan.

    Schermopname van Azure Portal voor het maken van nieuwe gegevens in ADLS Gen2.

  3. Selecteer in het deelvenster Opmaak selecteren de optie DelimitedText terwijl u naar een CSV-bestand schrijft. Selecteer Doorgaan.

    Schermopname van Azure Portal van de indelingspagina bij het maken van een nieuwe gegevens in ADLS Gen2.

  4. Noem uw sinkgegevensset 'TripDataCSV'. Selecteer 'ADLSGen2' als uw gekoppelde service. Voer in waar u uw CSV-bestand wilt schrijven. U kunt bijvoorbeeld uw gegevens schrijven naar het bestand trip-data.csv in container staging-container. Stel Eerste rij als header in op waar als u wilt dat uw uitvoergegevens headers bevatten. Omdat er nog geen bestand in de bestemming bestaat, stelt u Importschema in op Geen. Wanneer u klaar bent, selecteert u OK.

    Schermopname van Azure Portal van de eigenschappenpagina van het maken van nieuwe gegevens in ADLS Gen2.

De kopieeractiviteit testen met het uitvoeren van een pijplijnfoutopsporing

  1. Als u wilt controleren of uw kopieeractiviteit correct werkt, selecteert u Fouten opsporen boven aan het pijplijncanvas om een foutopsporingsuitvoering uit te voeren. Met een foutopsporingsuitvoering kunt u de pijplijn end-to-end testen of tot een onderbrekingspunt voordat u deze naar de data factory-service publiceert.

    Schermopname van azure Portal van de knop voor foutopsporing.

  2. Als u de foutopsporingsuitvoering wilt controleren, gaat u naar het tabblad Uitvoer van het pijplijncanvas. Het bewakingsscherm wordt elke 20 seconden automatisch vernieuwd of wanneer u de knop Vernieuwen handmatig selecteert. De kopieeractiviteit heeft een speciale bewakingsweergave die toegankelijk is door het brilpictogram in de kolom Acties te selecteren.

    Schermopname van Azure Portal van de knop Bewaking.

  3. De controleweergave voor kopiëren bevat de uitvoeringsdetails en prestatiekenmerken van de activiteit. U kunt informatie bekijken zoals gelezen/geschreven gegevens, gelezen/geschreven rijen, gelezen/geschreven bestanden en doorvoer. Als u alles correct hebt geconfigureerd, ziet u 49.999 rijen die in één bestand in uw ADLS-sink zijn geschreven.

    Schermopname van Azure Portal van de prestatiedetails van de weergave voor het kopiëren van bewaking.

  4. Voordat u verdergaat met de volgende sectie, wordt u aangeraden uw wijzigingen naar de data factory-service te publiceren door Alles publiceren te selecteren in de bovenste balk van de fabriek. Hoewel dit niet wordt besproken in dit lab, ondersteunt Azure Data Factory volledige git-integratie. Git-integratie biedt versiebeheer, iteratief opslaan in een opslagplaats en samenwerking op een data factory. Zie voor meer informatie broncodebeheer in Azure Data Factory.

    Schermopname van Azure Portal van de knop Alles publiceren.

Gegevens transformeren met toewijzingsgegevensstroom

Nu u gegevens hebt gekopieerd naar Azure Data Lake Storage, is het tijd om die gegevens samen te voegen en samen te voegen in een datawarehouse. We gebruiken de toewijzingsgegevensstroom, de visueel ontworpen transformatieservice van Azure Data Factory. Met toewijzingsgegevensstromen kunnen gebruikers transformatielogica codevrij ontwikkelen en uitvoeren op Spark-clusters die worden beheerd door de ADF-service.

De gegevensstroom die in deze stap is gemaakt, voegt de gegevensset TripDataCSV die in de vorige sectie is gemaakt samen met een tabel dbo.TripFares die is opgeslagen in SQLDB op basis van vier sleutelkolommen. Vervolgens worden de gegevens geaggregeerd op basis van kolom payment_type om het gemiddelde van bepaalde velden te berekenen en worden ze geschreven naar een Azure Synapse Analytics-tabel.

Een gegevensstroomactiviteit toevoegen aan uw pijplijn

  1. Open in het deelvenster Activiteiten van het pijplijncanvas de accordion Verplaatsen en transformeren en sleep de activiteit Gegevensstroom naar het canvas.

    Schermopname van Azure Portal van de optie gegevensstroom in het menu Verplaatsen en transformeren.

  2. Selecteer in het zijdeelvenster dat wordt geopend Nieuwe gegevensstroom maken en kies Toewijzingsgegevensstroom. Selecteer OK.

    Schermopname van Azure Portal van het toevoegen van een nieuwe toewijzingsgegevensstroom.

  3. U wordt omgeleid naar het gegevensstroomcanvas waar u uw transformatielogica bouwt. Geef op het tabblad Algemeen uw gegevensstroom de naam 'JoinAndAggregateData'.

    Schermopname van Azure Portal van de stroom Join and Aggregate Data.

CSV-bron voor reisgegevens configureren

  1. Het eerste wat u moet doen is uw twee brontransformaties configureren. De eerste bron verwijst naar de gegevensset 'TripDataCSV' DelimitedText. Als u een brontransformatie wilt toevoegen, selecteert u het vak Bron toevoegen op het canvas.

    Schermopname van Azure Portal van de knop Bron toevoegen in een nieuwe gegevensstroom.

  2. Geef uw bron de naam TripDataCSV en selecteer de gegevensset TripDataCSV in de vervolgkeuzelijst bron. U hebt in eerste instantie geen schema geïmporteerd bij het maken van deze gegevensset omdat er geen gegevens waren. Aangezien trip-data.csv dit nu bestaat, selecteert u Bewerken om naar het tabblad Instellingen van de gegevensset te gaan.

    Schermopname van Azure Portal van de knop Brongegevensset bewerken in de opties voor de gegevensstroom.

  3. Ga naar het tabblad Schema en selecteer Schema importeren. Selecteer Uit verbinding/archief om rechtstreeks vanuit het bestandsarchief te importeren. Er moeten 14 kolommen van het type tekenreeks worden weergegeven.

    Schermopname van Azure Portal van de selectie van de schemabron.

  4. Ga terug naar de gegevensstroom 'JoinAndAggregateData'. Als uw foutopsporingscluster is gestart (aangegeven met een groene cirkel naast de schuifregelaar voor foutopsporing), kunt u een momentopname van de gegevens op het tabblad Gegevensvoorbeeld ophalen. Selecteer Vernieuwen om een voorbeeld van gegevens op te halen.

    Schermopname van Azure Portal van de preview-versie van de gegevensstroom.

Notitie

De gegevenspreview schrijft geen gegevens.

Uw rittarieven configureren voor SQL Database-bron

  1. De tweede bron die u toevoegt aan punten in de SQL Database-tabel dbo.TripFares. Onder de bron 'TripDataCSV' bevindt zich nog een vak Bron toevoegen. Selecteer deze om een nieuwe brontransformatie toe te voegen.

    Schermopname van Azure Portal van het toevoegen van een andere gegevensbron aan een gegevensstroom.

  2. Geef deze bron de naam 'TripFaresSQL'. Selecteer Nieuw naast het veld brongegevensset om een nieuwe SQL Database-gegevensset te maken.

    Schermopname van Azure Portal van de nieuwe brongegevensset in een andere stap voor het kopiëren van gegevens in de gegevensstroom.

  3. Selecteer de tegel Azure SQL Database en selecteer Doorgaan. Mogelijk ziet u dat veel van de connectors in data factory niet worden ondersteund in de toewijzingsgegevensstroom. Als u gegevens uit een van deze bronnen wilt transformeren, neemt u deze op in een ondersteunde bron met behulp van de kopieeractiviteit.

    Schermopname van Azure Portal van het toevoegen van een nieuwe Azure SQL Database-gegevensset aan de gegevensstroom.

  4. Roep de gegevensset 'TripFares' aan. Selecteer 'SQLDB' als uw gekoppelde service. Selecteer de tabelnaam in de vervolgkeuzelijst tabelnaam dbo.TripFares . Importeer het schema Uit verbinding/archief. Wanneer u klaar bent, selecteert u OK.

    Schermopname van Azure Portal van de eigenschappen van het toevoegen van een nieuwe Azure SQL Database-gegevensset aan de gegevensstroom.

  5. Als u uw gegevens wilt controleren, haalt u een gegevenspreview op in het tabblad Gegevenspreview.

    Schermopname van Azure Portal van de voorbeeldweergave van gegevens van een andere gegevensbron in de gegevensstroom.

Inner join TripDataCSV en TripFaresSQL

  1. Als u een nieuwe transformatie wilt toevoegen, selecteert u het pluspictogram in de rechterbenedenhoek van TripDataCSV. Onder Meerdere invoeren/uitvoeren selecteert u Samenvoegen.

    Schermopname van Azure Portal van de knop Join in gegevensbronnen in een gegevensstroom.

  2. Geef uw join-transformatie de naam 'InnerJoinWithTripFares'. Selecteer TripFaresSQL in de vervolgkeuzelijst voor de juiste stroom. Selecteer Inner als join-type. Raadpleegt Join-typen voor meer informatie over de verschillende join-typen in toewijzingsgegevensstroom.

    Selecteer in de vervolgkeuzelijst Joinvoorwaarden welke kolommen u wilt vergelijken vanuit elke stream. Als u een extra joinvoorwaarde wilt toevoegen, selecteert u het pluspictogram naast een bestaande voorwaarde. Standaard worden alle join-voorwaarden gecombineerd met een AND-operator, wat betekent dat aan alle voorwaarden moet worden voldaan voor een overeenkomst. In dit lab willen we overeenkomsten met kolommen medallion, hack_license, vendor_id en pickup_datetime

    Schermopname van de Azure-portal met instellingen voor gegevensstroomdeelname.

  3. Controleer of u 25 kolommen hebt samengevoegd met een gegevenspreview.

    Schermopname van Azure Portal van de gegevensvoorbeeld van een gegevensstroom met gekoppelde gegevensbronnen.

Aggregatie per payment_type

  1. Nadat u de jointransformatie hebt voltooid, voegt u een statistische transformatie toe door het pluspictogram naast InnerJoinWithTripFares te selecteren. Kies Aggregeren onder Schemawijzigingsfunctie.

    Schermopname van Azure Portal van de knop Nieuwe aggregaties.

  2. Geef uw geaggregeerde transformatie de naam 'AggregateByPaymentType'. Selecteer payment_type als de kolom Groeperen op.

    Schermopname van azure Portal met statistische instellingen.

  3. Ga naar het tabblad Aggregaties . Geef twee aggregaties op:

    • De gemiddelde tarief gegroepeerd op betalingstype
    • De totale reisafstand gegroepeerd op betalingstype

    Eerst maakt u de gemiddelde tariefexpressie. Voer 'average_fare' in het tekstvak Een kolom toevoegen of selecteren in.

    Schermopname van Azure Portal van de optie Gegroepeerd op in geaggregeerde instellingen.

  4. Als u een aggregatie-expressie wilt invoeren, selecteert u het blauwe vak met het label Enter-expressie, waarmee de opbouwfunctie voor gegevensstroomexpressies wordt geopend, een hulpprogramma dat wordt gebruikt om expressies voor gegevensstromen visueel te maken met behulp van invoerschema, ingebouwde functies en bewerkingen en door de gebruiker gedefinieerde parameters. Zie de Documentatie voor opbouwfunctie van expressies voor meer informatie over de mogelijkheden van de opbouwfunctie voor expressies.

    Als u het gemiddelde tarief wilt ophalen, gebruikt u de avg() aggregatiefunctie om de kolom total_amount te aggregeren met een geheel getal met toInteger(). In de taal van de gegevensstroomexpressie wordt dit gedefinieerd als avg(toInteger(total_amount)). Selecteer Opslaan en voltooien wanneer u klaar bent.

    Schermopname van Azure Portal van visual expression Builder met een statistische functie avg(toInteger(total_amount)).

  5. Als u een extra aggregatie-expressie wilt toevoegen, selecteert u het pluspictogram naast average_fare. Selecteer Kolom toevoegen.

    Schermopname van Azure Portal van de knop Kolom toevoegen in de geaggregeerde instellingen gegroepeerd op optie.

  6. Voer 'total_trip_distance' in het tekstvak Een kolom toevoegen of selecteren in. Open zoals in de laatste stap de opbouwfunctie voor expressies om de expressie in te voeren.

    Als u de totale reisafstand wilt ophalen, gebruikt u de sum() aggregatiefunctie om de kolom trip_distance te aggregeren met een geheel getal met toInteger(). In de taal van de gegevensstroomexpressie wordt dit gedefinieerd als sum(toInteger(trip_distance)). Selecteer Opslaan en voltooien wanneer u klaar bent.

    Schermopname van Azure Portal van twee kolommen in de geaggregeerde instellingen gegroepeerd op optie.

  7. Test uw transformatielogica op het tabblad Gegevensvoorbeeld . Zoals u kunt zien, zijn er minder rijen en kolommen dan eerder. Alleen de drie kolommen voor groeperen op en aggregatie die in deze transformatie zijn gedefinieerd, gaan verder. Aangezien het voorbeeld slechts vijf groepen betalingstypen bevat, worden er slechts vijf rijen gegenereerd.

    Schermopname van Azure Portal van de preview van samengevoegde gegevens.

Uw Azure Synapse Analytics-sink configureren

  1. Nu we onze transformatielogica hebben voltooid, zijn we klaar om onze gegevens in een Azure Synapse Analytics-tabel op te nemen. Voeg een sink-transformatie toe in het gedeelte Bestemming.

    Schermopname van Azure Portal van de knop Sink toevoegen in de gegevensstroom.

  2. Geef uw sink de naam 'SQLDWSink'. Selecteer Nieuw naast het veld sinkgegevensset om een nieuwe Azure Synapse Analytics-gegevensset te maken.

    Schermopname van Azure Portal van een nieuwe knop sinkgegevensset in de sink-instellingen.

  3. Selecteer de tegel Azure Synapse Analytics en selecteer Doorgaan.

    Schermopname van Azure Portal van een nieuwe Azure Synapse Analytics-gegevensset voor een nieuwe gegevenssink.

  4. Roep de gegevensset 'AggregatedTaxiData' aan. Selecteer 'SQLDW' als uw gekoppelde service. Selecteer Nieuwe tabel maken en geef de nieuwe tabel dbo.AggregateTaxiDataeen naam. Wanneer u klaar bent, selecteert u OK.

    Schermopname van Azure Portal van het maken van een nieuwe tabel voor de gegevenssink.

  5. Ga naar het tabblad Instellingen van de sink. Omdat we een nieuwe tabel maken, moeten we de tabel opnieuw maken selecteren onder de tabelactie. Schakel de selectie Fasering inschakelen uit. Hiermee schakelt u in of we rijen per rij of in batch invoegen.

    Schermopname van Azure Portal met instellingen voor gegevenssink, de optie Tabel opnieuw maken.

U hebt uw gegevensstroom gemaakt. Nu is het tijd om deze uit te voeren in een pijplijnactiviteit.

End-to-end-foutopsporing voor uw pijplijn

  1. Ga terug naar het tabblad voor de pijplijn IngestAndTransformData. U ziet een groen vakje op de kopieeractiviteit 'IngestIntoADLS'. Sleep het naar de gegevensstroomactiviteit 'JoinAndAggregateData'. Hiermee maakt u een 'bij gelukt', waardoor de gegevensstroomactiviteit alleen wordt uitgevoerd als de kopie is geslaagd.

    Schermopname van Azure Portal van een groene succespijplijn.

  2. Net als voor de kopieeractiviteit selecteert u Debug om een foutopsporingsuitvoering uit te voeren. Voor foutopsporingsuitvoeringen gebruikt de gegevensstroomactiviteit het actieve foutopsporingscluster in plaats van een nieuw cluster in te stellen. Het uitvoeren van deze pijplijn duurt iets langer dan een minuut.

    Schermopname van Azure Portal van de knop voor foutopsporing van gegevensstromen voor de pijplijn voor geslaagde bewerkingen.

  3. Net als bij de kopieeractiviteit heeft de gegevensstroom een speciale controleweergave die na voltooiing van de activiteit via het brilpictogram kan worden geopend.

    Schermopname van Azure Portal van de uitvoermonitor op een pijplijn.

  4. In de controleweergave kunt u een vereenvoudigde gegevensstroomgrafiek bekijken, samen met de uitvoeringstijden en rijen bij elke uitvoeringsfase. Als alles goed is uitgevoerd, hebt u 49.999 rijen samengevoegd tot vijf rijen in deze activiteit.

    Schermopname van Azure Portal van de details van de uitvoermonitor in een pijplijn.

  5. U kunt een transformatie selecteren om aanvullende informatie te krijgen over de uitvoering, zoals partitioneringsgegevens en nieuwe/bijgewerkte/verwijderde kolommen.

    Schermopname van Azure Portal met streamgegevens op de pijplijnuitvoermonitor.

U hebt nu het gedeelte data factory van dit lab voltooid. Publiceer uw resources als u deze wilt uitvoeren met triggers. U hebt een pijplijn uitgevoerd die gegevens van Azure SQL Database heeft opgenomen naar Azure Data Lake Storage met behulp van de kopieeractiviteit en vervolgens hebt u deze gegevens samengevoegd in een Azure Synapse Analytics. U kunt controleren of de gegevens zijn geschreven door de SQL Server zelf te bekijken.

Gegevens delen met Azure Data Share

In deze sectie leert u hoe u een nieuwe gegevensshare instelt met behulp van Azure Portal. Dit omvat het maken van een nieuwe gegevensshare die gegevenssets uit Azure Data Lake Storage Gen2 en Azure Synapse Analytics bevat. Vervolgens configureert u een schema voor momentopnamen, zodat de gegevensgebruikers een optie hebben om de gegevens die met hen worden gedeeld automatisch te vernieuwen. Vervolgens nodigt u ontvangers uit voor uw gegevensshare.

Zodra u een gegevensshare hebt gemaakt, schakelt u over van rol en wordt u de gegevensgebruiker. Als gegevensgebruiker loopt u door de stroom van het accepteren van een gegevensshare-uitnodiging, het configureren van de locatie waar de gegevens moeten worden ontvangen en het toewijzen van gegevenssets aan verschillende opslaglocaties. Vervolgens activeert u een momentopname, waarmee de gegevens die met u worden gedeeld, worden gekopieerd naar de opgegeven bestemming.

Gegevens delen (gegevensproviderstroom)

  1. Open de Azure-portal in Microsoft Edge of Google Chrome.

  2. Zoek op Gegevensshares in de zoekbalk bovenaan de pagina

    Schermopname van Azure Portal van het zoeken naar gegevensshares in de zoekbalk van Azure Portal.

  3. Selecteer het gegevensshare-account met 'Provider' in de naam. Bijvoorbeeld DataProvider0102.

  4. Selecteer Beginnen met het delen van uw gegevens

    Schermopname van Azure Portal van het begin met het delen van uw gegevensknop.

  5. Selecteer +Maken om te beginnen met het configureren van de nieuwe gegevensshare.

  6. Geef een gewenste naam op onder Sharenaam. Dit is de sharenaam die wordt weergegeven aan uw gegevensgebruiker. Zorg er dus voor dat u een beschrijvende naam opgeeft, zoals TaxiData.

  7. Onder Beschrijving voert u een zin in waarmee de inhoud van de gegevensshare wordt beschreven. De gegevensshare bevat wereldwijde taxiritgegevens die zijn opgeslagen in verschillende winkels, waaronder Azure Synapse Analytics en Azure Data Lake Storage.

  8. Geef onder Gebruiksvoorwaarden een set voorwaarden op waaraan uw gegevensgebruiker moet voldoen. Enkele voorbeelden zijn 'Deze gegevens niet distribueren buiten uw organisatie' of 'Raadpleeg de juridische overeenkomst'.

    Schermopname van Azure Portal van de details van de gegevensshare in Verzonden shares.

  9. Selecteer Doorgaan.

  10. Selecteer Gegevenssets toevoegen

    Schermopname van Azure Portal van de knop Gegevensset toevoegen in de gegevensshare in verzonden shares.

  11. Selecteer Azure Synapse Analytics om een tabel te selecteren uit Azure Synapse Analytics waarin uw ADF-transformaties terecht zijn gekomen.

  12. U krijgt een script dat moet worden uitgevoerd voordat u verder kunt gaan. Met het geboden script wordt een gebruiker gemaakt in de SQL-database zodat de Azure Data Share MSI kan verifiëren namens de gebruiker.

    Belangrijk

    Voordat u het script uitvoert, moet u uzelf instellen als Active Directory-beheerder voor de logische SQL-server van de Azure SQL Database.

  13. Open een nieuw tabblad en ga naar de Azure-portal. Kopieer het geleverde script om een gebruiker te maken in de database waarvan u gegevens wilt delen. Doe dit door u aan te melden bij de EDW-database met behulp van de Query-editor van Azure Portal, met behulp van Microsoft Entra-verificatie. U moet de gebruiker wijzigen in het volgende voorbeeldscript:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Ga terug naar de Azure Data Share waar u gegevenssets aan uw gegevensshare hebt toegevoegd.

  15. Selecteer EDW en selecteer vervolgens AggregatedTaxiData voor de tabel.

  16. Selecteer Gegevensset toevoegen

    We hebben nu een SQL-tabel die deel uitmaakt van de gegevensset. Vervolgens voegen we extra gegevenssets toe vanuit Azure Data Lake Storage.

  17. Selecteer Gegevensset toevoegen en Selecteer Azure Data Lake Storage Gen2

    Schermopname van Azure Portal van het toevoegen van een ADLS Gen2-gegevensset.

  18. Selecteer Volgende

  19. Vouw wwtaxidata uit. Vouw Boston-taxigegevens uit. U kunt het bestandsniveau omlaag delen.

  20. Selecteer de map Boston-taxigegevens om de volledige map toe te voegen aan uw gegevensshare.

  21. Selecteer Gegevenssets toevoegen

  22. Controleer de gegevenssets die zijn toegevoegd. U moet een SQL-tabel en een ADLS Gen2-map aan uw gegevensshare hebben toegevoegd.

  23. Selecteer Doorgaan

  24. In dit scherm kunt u ontvangers toevoegen aan uw gegevensshare. De ontvangers die u toevoegt, ontvangen uitnodigingen voor uw gegevensshare. Voor dit lab moet u twee e-mailadressen toevoegen:

    1. Het e-mailadres van het Azure-abonnement dat u gebruikt.

      Schermopname van Azure Portal van de gegevensshare ontvangers toevoegen.

    2. Voeg de fictieve gegevensgebruiker met de naam janedoe@fabrikam.comtoe.

  25. In dit scherm kunt u een momentopname-instelling voor uw gegevensgebruiker configureren. Hierdoor kunnen ze regelmatig updates van uw gegevens ontvangen met een interval dat door u is gedefinieerd.

  26. Controleer het schema voor momentopnamen en configureer een uurlijks vernieuwen van uw gegevens met behulp van de vervolgkeuzelijst Terugkeerpatroon .

  27. Selecteer Maken.

    U hebt nu een actieve gegevensshare. Hiermee kunt u zien wat u ziet als een gegevensprovider wanneer u een gegevensshare maakt.

  28. Selecteer de gegevensshare die u hebt gemaakt met de naam DataProvider. U kunt hiernaar navigeren door Verzonden shares te selecteren in Gegevensshare.

  29. Selecteer op schema voor momentopnamen. U kunt indien gewenst het schema voor momentopnamen uitschakelen.

  30. Selecteer vervolgens het tabblad Gegevenssets . U kunt extra gegevenssets toevoegen aan deze gegevensshare nadat deze is gemaakt.

  31. Selecteer het tabblad Abonnementen delen . Er zijn nog geen shareabonnementen omdat uw gegevensgebruiker uw uitnodiging nog niet heeft geaccepteerd.

  32. Ga naar het tabblad Uitnodigingen . Hier ziet u een lijst met uitnodigingen die in behandeling zijn.

    Schermopname van Azure Portal van Uitnodigingen in behandeling.

  33. Selecteer de uitnodiging voor janedoe@fabrikam.com. Selecteer Verwijderen. Als uw ontvanger de uitnodiging nog niet heeft geaccepteerd, kan hij of zij dat ook niet meer doen.

  34. Selecteer het tabblad Geschiedenis . Er wordt nog niets weergegeven omdat uw gegevensgebruiker uw uitnodiging nog niet heeft geaccepteerd en een momentopname heeft geactiveerd.

Gegevens ontvangen (gegevensverbruikerstroom)

Nu we onze gegevensshare hebben bekeken, zijn we klaar voor een andere context en te schakelen naar de rol van gegevensgebruiker.

U hebt nu een uitnodiging voor een Azure Data Share in uw postvak in ontvangen van Microsoft Azure. Start Outlook Web Access (outlook.com) en meld u aan met de referenties die zijn opgegeven voor uw Azure-abonnement.

Selecteer in het e-mailbericht dat u had moeten ontvangen de optie 'Uitnodiging weergeven >'. Op dit moment gaat u de ervaring van de gegevensgebruiker simuleren wanneer u een uitnodiging van gegevensprovider voor zijn of haar gegevensshare accepteert.

Schermopname van Outlook van een e-mailuitnodiging.

Mogelijk wordt u gevraagd om een abonnement te selecteren. Zorg ervoor dat u het abonnement selecteert waarmee u werkt voor dit lab.

  1. Selecteer de uitnodiging met de titel DataProvider.

  2. In dit uitnodigingsscherm ziet u verschillende details over de gegevensshare die u eerder hebt geconfigureerd als gegevensprovider. Bekijk de details en accepteer de gebruiksrechtsvoorwaarden indien van toepassing.

  3. Selecteer het Abonnement en de Resourcegroep die al bestaan voor uw lab.

  4. Voor Gegevensshare-account selecteert u DataConsumer. U kunt ook een nieuwe gegevensshare-account maken.

  5. Naast de naam van ontvangen share ziet u dat de standaardsharenaam de naam is die is opgegeven door de gegevensprovider. Geef de share een beschrijvende naam die de gegevens beschrijft die u op het punt staat te ontvangen, bijvoorbeeld TaxiDataShare.

    Schermopname van Azure Portal van de pagina voor het accepteren en configureren van een gegevensshare.

  6. U kunt kiezen voor Nu accepteren en configureren of Later accepteren en configureren. Als u ervoor kiest om nu te accepteren en te configureren, geeft u een opslagaccount op waarin alle gegevens moeten worden gekopieerd. Als u ervoor kiest om later te accepteren en te configureren, worden de gegevenssets in de share niet toegewezen en moet u ze handmatig toewijzen. We zullen hier later voor kiezen.

  7. Selecteer Later accepteren en configureren.

    Wanneer u deze optie configureert, wordt er een shareabonnement gemaakt, maar is er nergens waar de gegevens terechtkomen omdat er geen bestemming is toegewezen.

    Configureer vervolgens gegevenssettoewijzingen voor de gegevensshare.

  8. Selecteer de Ontvangen share (de naam die u in stap 5 hebt opgegeven).

    Trigger voor momentopname wordt grijs weergegeven, maar de share is actief.

  9. Selecteer het tabblad Gegevenssets . Elke gegevensset is niet toegewezen, wat betekent dat er geen bestemming is om gegevens naar te kopiëren.

    Schermopname van Azure Portal met niet-toegewezen gegevenssets.

  10. Selecteer de Azure Synapse Analytics-tabel en selecteer vervolgens +Toewijzen aan doel.

  11. Selecteer aan de rechterkant van het scherm de vervolgkeuzelijst Doelgegevenstype .

    U kunt de SQL-gegevens toewijzen aan een breed scala aan gegevensarchieven. In dit geval wijzen we toe aan een Azure SQL Database.

    Schermopname van Azure Portal van kaartgegevenssets naar doel.

    (Optioneel) Selecteer Azure Data Lake Storage Gen2 als het doelgegevenstype.

    (Optioneel) Selecteer het abonnement, de resourcegroep en het opslagaccount waarin u werkt.

    (Optioneel) U kunt ervoor kiezen om de gegevens in uw data lake te ontvangen in de CSV- of Parquet-indeling.

  12. Selecteer Azure SQL Database naast Doelgegevenstype.

  13. Selecteer het abonnement, de resourcegroep en het opslagaccount waarin u werkt.

    Schermopname van Azure Portal van kaartgegevenssets naar een Azure SQL-doeldatabase.

  14. Voordat u kunt doorgaan, moet u een nieuwe gebruiker maken in de SQL Server door het geleverde script uit te voeren. Kopieer eerst het geleverde script naar het klembord.

  15. Open een nieuw azure-portaltabblad. Sluit het bestaande tabblad niet, want u moet er even naar terugkeren.

  16. Ga in het nieuwe tabblad dat u hebt geopend naar SQL-databases.

  17. Selecteer de SQL-database (er mag er zich slechts één in uw abonnement bevinden). Pas op dat u de datawarehouse niet selecteert.

  18. Selecteer Query-editor (preview)

  19. Gebruik Microsoft Entra-verificatie om u aan te melden bij de Query-editor.

  20. Voer de query uit die wordt geboden in de gegevensshare (gekopieerd naar het klembord in stap 14).

    Met deze opdracht geeft u de Azure Data Share-service de mogelijkheid om beheerde identiteiten te gebruiken voor Azure-Services om te verifiëren of de SQL Server gegevens kan kopiëren.

  21. Ga terug naar het oorspronkelijke tabblad en selecteer Toewijzen aan doel.

  22. Selecteer vervolgens de Map Azure Data Lake Storage Gen2 die deel uitmaakt van de gegevensset en wijs deze toe aan een Azure Blob Storage-account.

    Schermopname van Azure Portal van kaartgegevenssets naar een Azure Blob Storage-doel.

    Als alle gegevenssets zijn toegewezen, bent u er klaar voor om gegevens te ontvangen van de gegevensprovider.

    Schermopname van Azure Portal van ontvangen shares die zijn toegewezen.

  23. Details selecteren.

    Momentopname activeren wordt niet meer grijs weergegeven, omdat de gegevensshare nu bestemmingen heeft om naar te kopiëren.

  24. Selecteer Momentopname activeren -> Volledige kopie.

    Schermopname van Azure Portal van de triggermomentopname, optie voor volledig kopiëren.

    Hiermee worden gegevens gekopieerd naar uw nieuwe datashare-account. In een praktijkscenario zijn deze gegevens afkomstig van derden.

    Het duurt ongeveer 3-5 minuten voordat de gegevens zijn tegengekomen. U kunt de voortgang controleren door op het tabblad Geschiedenis te selecteren.

    Terwijl u wacht, gaat u naar de oorspronkelijke gegevensshare (DataProvider) en bekijkt u de status van het tabblad Abonnementen en geschiedenis delen. Er is nu een actief abonnement en als gegevensprovider kunt u ook controleren wanneer de gegevensgebruiker is begonnen met het ontvangen van de gegevens die met hen zijn gedeeld.

  25. Ga terug naar de gegevensshare van de gegevensgebruiker. Zodra de status van de trigger is geslaagd, gaat u naar de doel-SQL-database en data lake om te zien dat de gegevens in de respectieve archieven zijn terechtgekomen.

Gefeliciteerd, u hebt het lab voltooid.