Quickstart: Gegevens transformeren met toewijzingsgegevensstromen

Artikel
12/11/2024

In deze quickstart gebruikt u Azure Synapse Analytics om een pijplijn te maken waarmee gegevens worden getransformeerd van een ADLS Gen2-bron (Azure Data Lake Storage Gen2) naar een ADLS Gen2-sink met behulp van toewijzingsgegevensstroom. Het configuratiepatroon in deze quickstart kan worden uitgebreid bij het transformeren van gegevens met behulp van toewijzingsgegevensstroom

In deze quickstart voert u de volgende stappen uit:

Maak een pijplijn met een Gegevensstroom-activiteit in Azure Synapse Analytics.
Bouw een toewijzingsgegevensstroom met vier transformaties.
De uitvoering van de pijplijn testen.
Een Gegevensstroom-activiteit bewaken

Vereisten

Azure-abonnement: Als u geen Azure-abonnement hebt, maakt u een gratis Azure-account voordat u begint.
Azure Synapse-werkruimte: Maak een Synapse-werkruimte met behulp van Azure Portal aan de hand van de instructies in quickstart: Een Synapse-werkruimte maken.
Azure-opslagaccount: U gebruikt ADLS-opslag als bron - en sinkgegevensarchieven . Als u geen opslagaccount hebt, raadpleegt u het artikel Een opslagaccount maken om een account te maken.

Het bestand dat we in deze zelfstudie transformeren, is MoviesDB.csv, die hier te vinden is. Als u het bestand wilt ophalen uit GitHub, kopieert u de inhoud naar een teksteditor van uw keuze om lokaal op te slaan als een .csv-bestand. Zie Blobs uploaden met Azure Portal om het bestand te uploaden naar uw opslagaccount. De voorbeelden verwijzen naar een container met de naam sample-data.

Ga naar Synapse Studio

Wanneer uw Azure Synapse-werkruimte is gemaakt, kunt u Synapse Studio op twee manieren openen:

Open de Synapse-werkruimte in de Azure-portal. Selecteer Openen op de kaart Synapse Studio openen onder Aan de slag.
Open Azure Synapse Analytics en meld u aan bij uw werkruimte.

In deze quickstart wordt de werkruimte met de naam 'adftest2020' als voorbeeld gebruikt. Er wordt automatisch naar de startpagina van Synapse Studio genavigeerd.

Startpagina van Synapse Studio

Een pijplijn maken met een Gegevensstroom-activiteit

Een pijplijn bevat de logische stroom voor het uitvoeren van een reeks activiteiten. In deze sectie maakt u een pijplijn die een Gegevensstroom activiteit bevat.

Ga naar het tabblad Integreren . Selecteer het pluspictogram naast de kop van de pijplijnen en selecteer Pijplijn.
Voer op de pagina Eigenschappen-instellingen van de pijplijn TransformMovies in als naam.
Sleep onder Verplaatsen en transformeren in het deelvenster Activiteiten de gegevensstroom naar het pijplijncanvas.
Selecteer in het pop-upvenster Gegevensstroom toevoegen de optie Nieuwe gegevensstroom maken -> Gegevensstroom. Selecteer OK wanneer u gereed bent.
Geef uw gegevensstroom de naam TransformMovies op de pagina Eigenschappen .

Transformatielogica bouwen in het gegevensstroomcanvas

Zodra u uw Gegevensstroom hebt gemaakt, wordt u automatisch naar het gegevensstroomcanvas verzonden. In deze stap bouwt u een gegevensstroom die de MoviesDB.csv in ADLS-opslag gebruikt en de gemiddelde classificatie van comedies van 1910 tot 2000 samenvoegt. Vervolgens schrijft u dit bestand terug naar de ADLS-opslag.

Schuif boven het gegevensstroomcanvas de schuifregelaar voor foutopsporing van gegevensstromen aan. Met de foutopsporingsmodus kunt u interactieve transformatielogica testen op een live Spark-cluster. Gegevensstroom clusters 5-7 minuten duren en gebruikers worden aangeraden eerst foutopsporing in te schakelen als ze van plan zijn Gegevensstroom ontwikkeling uit te voeren. Zie De foutopsporingsmodus voor meer informatie.
Voeg in het gegevensstroomcanvas een bron toe door op het vak Bron toevoegen te klikken.
Noem uw bron MoviesDB. Selecteer Nieuw om een nieuwe brongegevensset te maken.
Kies Azure Data Lake Storage Gen2. Selecteer Doorgaan.
Kies DelimitedText. Selecteer Doorgaan.
Noem uw gegevensset MoviesDB. Kies Nieuw in de vervolgkeuzelijst gekoppelde service.
Geef in het scherm voor het maken van de gekoppelde service de ADLS Gen2-gekoppelde ADLSGen2-naam en geef uw verificatiemethode op. Voer vervolgens uw verbindingsreferenties in. In deze quickstart gebruiken we accountsleutel om verbinding te maken met ons opslagaccount. U kunt testverbinding selecteren om te controleren of uw referenties correct zijn ingevoerd. Selecteer Maken nadat dit is voltooid.
Wanneer u weer terug bent in het scherm voor het maken van de gegevensset, voert u in het veld Bestandspad de locatie van het bestand in. In deze quickstart bevindt het bestand 'MoviesDB.csv' zich in de container 'sample-data'. Als het bestand kopteksten bevat, controleert u de eerste rij als koptekst. Selecteer Uit verbinding/archief om het headerschema rechtstreeks vanuit het bestand in de opslag te importeren. Selecteer OK wanneer u gereed bent.
Als uw foutopsporingscluster is gestart, gaat u naar het tabblad Gegevensvoorbeeld van de brontransformatie en selecteert u Vernieuwen om een momentopname van de gegevens op te halen. U kunt de voorbeeldweergave van gegevens gebruiken om te controleren of uw transformatie juist is geconfigureerd.
Selecteer naast het bronknooppunt op het canvas van de gegevensstroom het pluspictogram om een nieuwe transformatie toe te voegen. De eerste transformatie die u toevoegt, is een filter.
Geef de filtertransformatie de naam FilterYears. Schakel het expressievak naast Filteren in om de opbouwfunctie voor expressies te openen. Hier geeft u de filtervoorwaarde op.
Met de opbouwfunctie voor expressies voor gegevensstromen kunt u interactief expressies bouwen die u in verschillende transformaties kunt gebruiken. Expressies kunnen ingebouwde functies, kolommen uit het invoerschema en door de gebruiker gedefinieerde parameters bevatten. Zie Gegevensstroom opbouwfunctie voor expressies voor meer informatie over het bouwen van expressies.

In deze quickstart wilt u films filteren van genrekomedie die tussen de jaren 1910 en 2000 uitkwam. Naarmate het jaar momenteel een tekenreeks is, moet u deze converteren naar een geheel getal met behulp van de toInteger() functie. Gebruik de operatoren groter dan of gelijk aan (>=) en kleiner dan of gelijk aan (<=) om te vergelijken met letterlijke jaarwaarden 1910 en 200. Deze expressies samenvoegen met de && operator (en). De expressie komt als volgt te werk:

toInteger(year) >= 1910 && toInteger(year) <= 2000

Als u wilt zoeken welke films komedies zijn, kunt u de rlike() functie gebruiken om patroon 'Komedie' te vinden in de kolomgenres. rlike De expressie samenvoegen met de jaarvergelijking om het volgende te verkrijgen:

toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

Als u een foutopsporingscluster actief hebt, kunt u uw logica controleren door op Vernieuwen te klikken om expressie-uitvoer weer te geven in vergelijking met de gebruikte invoer. Er is meer dan één juist antwoord op hoe u deze logica kunt uitvoeren met behulp van de expressietaal voor gegevensstromen.

Selecteer Opslaan en Voltooien zodra u klaar bent met uw expressie.
Haal een voorbeeld van gegevens op om te controleren of het filter correct werkt.
De volgende transformatie die u toevoegt, is een statistische transformatie onder Schema-modifier.
Geef uw statistische transformatie de naam AggregateComedyRatings. Selecteer op het tabblad Groeperen op jaar in de vervolgkeuzelijst om de aggregaties te groeperen op het jaar dat de film uitkwam.
Ga naar het tabblad Aggregaties . Geef in het linkertekstvak de statistische kolom AverageComedyRating een naam. Selecteer het juiste expressievak om de statistische expressie in te voeren via de opbouwfunctie voor expressies.
Gebruik de avg() statistische functie om het gemiddelde van kolomclassificatie op te halen. Omdat Waardering een tekenreeks is en avg() een numerieke invoer inneemt, moeten we de waarde via de toInteger() functie converteren naar een getal. Deze expressie ziet er als volgt uit:

avg(toInteger(Rating))

Selecteer Opslaan en Voltooien wanneer u klaar bent.
Ga naar het tabblad Gegevensvoorbeeld om de transformatie-uitvoer weer te geven. U ziet dat er slechts twee kolommen zijn, jaar en AverageComedyRating.
Vervolgens wilt u een Sink-transformatie toevoegen onder Bestemming.
Geef uw sink een naam. Selecteer Nieuw om uw sinkgegevensset te maken.
Kies Azure Data Lake Storage Gen2. Selecteer Doorgaan.
Kies DelimitedText. Selecteer Doorgaan.
Noem uw sinkgegevensset MoviesSink. Kies voor de gekoppelde service de gekoppelde ADLS Gen2-service die u in stap 7 hebt gemaakt. Voer een uitvoermap in waarnaar u uw gegevens wilt schrijven. In deze quickstart schrijven we naar map 'output' in container 'sample-data'. De map hoeft niet van tevoren te bestaan en kan dynamisch worden gemaakt. Stel eerste rij in als kop waar en selecteer Geen voor importschema. Selecteer OK wanneer u gereed bent.

Nu u klaar bent met het bouwen van uw gegevensstroom. U bent klaar om deze uit te voeren in uw pijplijn.

De Gegevensstroom uitvoeren en bewaken

U kunt fouten in een pijplijn opsporen voordat u deze publiceert. In deze stap gaat u een foutopsporingsuitvoering van de gegevensstroompijplijn activeren. Hoewel gegevensvoorbeeld geen gegevens schrijft, schrijft een foutopsporingsuitvoering gegevens naar uw sinkbestemming.

Ga naar het pijplijncanvas. Selecteer Foutopsporing om een foutopsporingsuitvoering te activeren.
Pijplijnopsporing van Gegevensstroom activiteiten maakt gebruik van het actieve foutopsporingscluster, maar het duurt nog minstens een minuut om te initialiseren. U kunt de voortgang bijhouden via het tabblad Uitvoer . Zodra de uitvoering is voltooid, selecteert u het brilpictogram om het bewakingsvenster te openen.
In het bewakingsvenster ziet u het aantal rijen en de tijd die in elke transformatiestap is besteed.
Selecteer een transformatie om gedetailleerde informatie over de kolommen en partitionering van de gegevens op te halen.

Als u deze quickstart correct hebt gevolgd, moet u 83 rijen en 2 kolommen in uw sinkmap hebben geschreven. U kunt de gegevens controleren door uw blobopslag te controleren.

Volgende stappen

Ga naar de volgende artikelen voor meer informatie over ondersteuning voor Azure Synapse Analytics:

Overzicht van de expressietaal Voor pijplijn- en activiteitentoewijzingsgegevensstromen

Delen via