Quickstart: Uw eerste gegevensstroom maken om gegevens op te halen en te transformeren
Gegevensstromen zijn een selfservicetechnologie voor gegevensvoorbereiding in de cloud. In dit artikel maakt u uw eerste gegevensstroom, haalt u gegevens op voor uw gegevensstroom, transformeert u de gegevens en publiceert u de gegevensstroom.
Vereisten
De volgende vereisten zijn vereist voordat u begint:
- Een Microsoft Fabric-tenantaccount met een actief abonnement. Maak een gratis account.
- Zorg ervoor dat u een werkruimte met Microsoft Fabric hebt: Maak een werkruimte.
Een gegevensstroom maken
In deze sectie maakt u uw eerste gegevensstroom.
Schakel over naar de data factory-ervaring .
Navigeer naar uw Microsoft Fabric-werkruimte.
Selecteer Nieuw en selecteer vervolgens Gegevensstroom Gen2.
Gegevens ophalen
Laten we wat gegevens ophalen. In dit voorbeeld krijgt u gegevens van een OData-service. Gebruik de volgende stappen om gegevens in uw gegevensstroom op te halen.
Selecteer Gegevens ophalen in de gegevensstroomeditor en selecteer vervolgens Meer.
Selecteer meer weergeven in Gegevensbron kiezen.
Selecteer in Nieuwe bron Andere>OData als gegevensbron.
Voer de URL
https://services.odata.org/v4/northwind/northwind.svc/
in en selecteer vervolgens Volgende.Selecteer de tabellen Orders en Klanten en selecteer vervolgens Maken.
Meer informatie over de ervaring en functionaliteit voor het ophalen van gegevens vindt u in Het overzicht van gegevens ophalen.
Transformaties toepassen en publiceren
U hebt nu uw gegevens in uw eerste gegevensstroom geladen, gefeliciteerd! Nu is het tijd om een aantal transformaties toe te passen om deze gegevens naar de gewenste vorm te brengen.
U gaat deze taak uitvoeren vanuit de Power Query-editor. U vindt een gedetailleerd overzicht van de Power Query-editor op de gebruikersinterface van Power Query.
Volg deze stappen om transformaties toe te passen en te publiceren:
Zorg ervoor dat de hulpprogramma's voor gegevensprofilering zijn ingeschakeld door te navigeren naar algemene opties voor startopties>>.
Zorg er ook voor dat u de diagramweergave hebt ingeschakeld met behulp van de opties onder het tabblad Weergave op het lint van de Power Query-editor of door het pictogram van de diagramweergave rechtsonder in het Power Query-venster te selecteren.
In de tabel Orders berekent u het totale aantal orders per klant. Als u dit doel wilt bereiken, selecteert u de kolom CustomerID in het gegevensvoorbeeld en selecteert u Groeperen op onder het tabblad Transformeren op het lint.
U voert het aantal rijen uit als de aggregatie binnen Group By. Meer informatie over de mogelijkheden van Group By vindt u in Groeperen of samenvatten van rijen.
Nadat we gegevens in de tabel Orders hebben gegroepeerd, krijgen we een tabel met twee kolommen met CustomerID en Count als de kolommen.
Vervolgens wilt u gegevens uit de tabel Klanten combineren met het aantal orders per klant. Als u gegevens wilt combineren, selecteert u de query Klanten in de diagramweergave en gebruikt u het menu '⋮' om de samenvoegquery's als nieuwe transformatie te openen.
Configureer de samenvoegbewerking, zoals wordt weergegeven in de volgende schermopname door CustomerID te selecteren als de overeenkomende kolom in beide tabellen. Selecteer vervolgens OK.
Schermopname van het venster Samenvoegen, met de linkertabel voor samenvoegen ingesteld op de tabel Klanten en de rechtertabel voor samenvoegen ingesteld op de tabel Orders. De kolom CustomerID is geselecteerd voor de tabellen Klanten en Orders. Het Join Kind is ook ingesteld op Left outer. Alle andere selecties worden ingesteld op de standaardwaarde.
Wanneer u de samenvoegquery's uitvoert als nieuwe bewerking, krijgt u een nieuwe query met alle kolommen uit de tabel Klanten en één kolom met geneste gegevens uit de tabel Orders.
In dit voorbeeld bent u alleen geïnteresseerd in een subset kolommen in de tabel Klanten. U selecteert deze kolommen met behulp van de schemaweergave. Schakel de schemaweergave in de wisselknop in de rechterbenedenhoek van de gegevensstroomeditor in.
De schemaweergave biedt een gerichte weergave in de schemagegevens van een tabel, inclusief kolomnamen en gegevenstypen. De schemaweergave bevat een set hulpprogramma's voor schema's die beschikbaar zijn via een contextueel linttabblad. In dit scenario selecteert u de kolommen CustomerID, CompanyName en Orders (2), selecteert u vervolgens de knop Kolommen verwijderen en selecteert u vervolgens Andere kolommen verwijderen op het tabblad Hulpmiddelen voor schema .
De kolom Orders (2) bevat geneste informatie die het resultaat is van de samenvoegbewerking die u een paar stappen geleden hebt uitgevoerd. Ga nu terug naar de gegevensweergave door de knop Gegevensweergave weergeven te selecteren naast de knop Schemaweergave weergeven in de rechterbenedenhoek van de gebruikersinterface. Gebruik vervolgens de transformatie Kolom uitvouwen in de kolomkop Orders (2) om de kolom Aantal te selecteren.
Als laatste bewerking wilt u uw klanten rangschikken op basis van hun aantal orders. Selecteer de kolom Aantal en selecteer vervolgens de knop Kolom rangschikken onder het tabblad Kolom toevoegen op het lint.
Behoud de standaardinstellingen in rangschikkingskolom. Selecteer vervolgens OK om deze transformatie toe te passen.
Wijzig nu de naam van de resulterende query als Gerangschikte klanten met behulp van het deelvenster Query-instellingen aan de rechterkant van het scherm.
U bent klaar met het transformeren en combineren van uw gegevens. U configureert nu de uitvoerbestemmingsinstellingen. Selecteer Gegevensbestemming kiezen onderaan het deelvenster Query-instellingen.
Voor deze stap kunt u een uitvoer voor uw lakehouse configureren als u er een hebt, of deze stap overslaan als u dat niet doet. In deze ervaring kunt u het doel lakehouse en de tabel voor uw queryresultaten configureren, naast de updatemethode (Toevoegen of Vervangen).
Uw gegevensstroom is nu gereed om te worden gepubliceerd. Controleer de query's in de diagramweergave en selecteer Publiceren.
U keert nu terug naar de werkruimte. Een spinnerpictogram naast de naam van uw gegevensstroom geeft aan dat de publicatie wordt uitgevoerd. Zodra de publicatie is voltooid, kunt u de gegevensstroom vernieuwen.
Belangrijk
Wanneer de eerste Dataflow Gen2 wordt gemaakt in een werkruimte, worden Lakehouse- en Warehouse-items ingericht samen met hun gerelateerde SQL-analyse-eindpunt en semantische modellen. Deze items worden gedeeld door alle gegevensstromen in de werkruimte en zijn vereist voor gebruik van Dataflow Gen2, mogen niet worden verwijderd en zijn niet bedoeld om rechtstreeks door gebruikers te worden gebruikt. De items zijn een implementatiedetail van Dataflow Gen2. De items zijn niet zichtbaar in de werkruimte, maar zijn mogelijk toegankelijk in andere ervaringen, zoals het Notebook- en SQL Analytics-eindpunt, Lakehouse en Warehouse. U kunt de items herkennen door hun voorvoegsel in de naam. Het voorvoegsel van de items is 'DataflowsStaging'.
Selecteer in uw werkruimte het pictogram Vernieuwen plannen .
Schakel de geplande vernieuwing in, selecteer Nog een keer toevoegen en configureer de vernieuwing, zoals wordt weergegeven in de volgende schermopname.
Schermopname van de geplande vernieuwingsopties, waarbij geplande vernieuwing is ingeschakeld, de vernieuwingsfrequentie is ingesteld op Dagelijks, de tijdzone ingesteld op gecoördineerde universele tijd en de tijd ingesteld op 4:00 uur. De aan-knop, de nieuwe tijdselectie toevoegen, de eigenaar van de gegevensstroom en de knop Toepassen worden allemaal benadrukt.
Resources opschonen
Als u deze gegevensstroom niet wilt blijven gebruiken, verwijdert u de gegevensstroom met behulp van de volgende stappen:
Navigeer naar uw Microsoft Fabric-werkruimte.
Selecteer het verticale beletselteken naast de naam van de gegevensstroom en selecteer vervolgens Verwijderen.
Selecteer Verwijderen om het verwijderen van uw gegevensstroom te bevestigen.
Gerelateerde inhoud
De gegevensstroom in dit voorbeeld laat zien hoe u gegevens laadt en transformeert in Dataflow Gen2. U hebt geleerd hoe u:
- Maak een Gegevensstroom Gen2.
- Gegevens transformeren.
- Configureer doelinstellingen voor getransformeerde gegevens.
- Voer uw gegevenspijplijn uit en plan deze.
Ga naar het volgende artikel voor meer informatie over het maken van uw eerste gegevenspijplijn.