Delen via


Module 2: Gegevens transformeren met een gegevensstroom in Data Factory

Deze module duurt ongeveer 25 minuten om een gegevensstroom te maken, transformaties toe te passen en de onbewerkte gegevens uit de tabel Brons naar een Gold Lakehouse-tabel te verplaatsen.

Nu de onbewerkte gegevens uit de laatste module in uw Bronze Lakehouse-tabel zijn geladen, kunt u die gegevens voorbereiden en verrijken door deze te combineren met een andere tabel met kortingen voor elke leverancier en hun reizen gedurende een bepaalde dag. Deze laatste Gold Lakehouse-tabel wordt geladen en klaar voor gebruik.

De stappen op hoog niveau in de gegevensstroom zijn als volgt:

  • Haal onbewerkte gegevens op uit de Lakehouse-tabel die is gemaakt door de Copy-activiteit in module 1: Een pijplijn maken met Data Factory.
  • Transformeer de gegevens die zijn geïmporteerd uit de Lakehouse-tabel.
  • Verbinding maken naar een CSV-bestand met kortingsgegevens.
  • Transformeer de kortingengegevens.
  • Combineer ritten en kortingengegevens.
  • Laad de uitvoerquery in de Tabel Gold Lakehouse.

Gegevens ophalen uit een Lakehouse-tabel

  1. Selecteer in de zijbalk Maken en vervolgens Dataflow Gen2 om een nieuwe gegevensstroom gen2 te maken. Screenshot showing the Fabric Create page with the Dataflow Gen2 button highlighted.

  2. Selecteer In het menu nieuwe gegevensstroom de optie Gegevens ophalen en vervolgens Meer....

    Screenshot showing the Dataflow menu with Get data button highlighted and the More... option highlighted from its menu.

  3. Zoek en selecteer de Lakehouse-connector .

    Screenshot showing the selection of the Lakehouse data source from the Choose data source menu.

  4. Het dialoogvenster Verbinding maken naar gegevensbron wordt weergegeven en er wordt automatisch een nieuwe verbinding voor u gemaakt op basis van de momenteel aangemelde gebruiker. Selecteer Volgende.

    Screenshot showing the configuration of the data source settings for your new Lakehouse with your current signed in user, and the Next button selected.

  5. Het dialoogvenster Gegevens kiezen wordt weergegeven. Gebruik het navigatiedeelvenster om het Lakehouse te zoeken dat u in de vorige module voor de bestemming hebt gemaakt en selecteer de Tutorial_Lakehouse gegevenstabel.

    Screenshot showing the Lakehouse browser with the workspace, lakehouse, and table created with the Copy activity in module 1.

  6. (Optioneel) Zodra uw canvas is gevuld met de gegevens, kunt u kolomprofielgegevens instellen, omdat dit handig is voor gegevensprofilering. U kunt de juiste transformatie toepassen en de juiste gegevenswaarden erop toepassen.

    Hiervoor selecteert u Opties in het lintvenster, selecteert u vervolgens de eerste drie opties onder het kolomprofiel en selecteert u VERVOLGENS OK.

    Screenshot showing the column options selection for your data.

De gegevens transformeren die zijn geïmporteerd uit Lakehouse

  1. Selecteer het gegevenstypepictogram in de kolomkop van de tweede kolom, IpepPickupDatetime, om een vervolgkeuzelijst weer te geven en selecteer het gegevenstype in het menu om de kolom te converteren van het type Datum/tijd naar datum . Screenshot showing the selection of the Date data type for the IpepPickupDatetime column.

  2. (Optioneel) Selecteer op het tabblad Start van het lint de optie Kolommen kiezen in de groep Kolommen beheren.

    Screenshot showing the Choose columns button on the Home tab of the dataflow editor.

  3. (Optioneel) Schakel in het dialoogvenster Kolommen kiezen enkele kolommen uit die hier worden vermeld en selecteer VERVOLGENS OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Screenshot showing the Choose columns dialog with the identified columns deselected.

  4. Selecteer het filter en de sorteerkeuzemenu van de kolom StoreAndFwdFlag . (Als u een waarschuwing zietLijst kan onvolledig zijn, selecteer Meer laden om alle gegevens weer te geven.)

    Screenshot showing the filter and sort dialog for the column.

  5. Selecteer 'Y' om alleen rijen weer te geven waarop een korting is toegepast en selecteer vervolgens OK.

    Screenshot showing the values filter with only 'Y' selected.

  6. Selecteer het kolomsorteer- en filterkeuzemenu IpepPickupDatetime , selecteer vervolgens Datumfilters en kies het filter Between... dat is opgegeven voor datum- en datum/tijdtypen.

    Screenshot showing the selection of the Date filters option in the column sort and format dropdown.

  7. Selecteer in het dialoogvenster Rijen filteren datums tussen 1 januari 2015 en 31 januari 2015 en selecteer VERVOLGENS OK.

    Screenshot showing the selection of the dates in January 2015.

Verbinding maken naar een CSV-bestand met kortingsgegevens

Nu, met de gegevens van de reizen ter plaatse, willen we de gegevens laden die de respectieve kortingen voor elke dag en VendorID bevatten, en de gegevens voorbereiden voordat deze worden gecombineerd met de gegevens van de trips.

  1. Selecteer op het tabblad Start in het menu van de gegevensstroomeditor de optie Gegevens ophalen en kies vervolgens Tekst/CSV.

    Screenshot showing the selection of the Get data menu from the Home tab, with Text/CSV highlighted.

  2. Geef in het dialoogvenster Verbinding maken voor gegevensbron de volgende details op:

    • Bestandspad of URL - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Verificatietype - Anoniem

    Selecteer Volgende.

    Screenshot showing the Text/CSV settings for the connection.

  3. Selecteer Maken in het dialoogvenster Voorbeeldbestandsgegevens.

    Screenshot showing the Preview file data dialog with the Create button highlighted.

De kortingsgegevens transformeren

  1. Als u de gegevens bekijkt, zien we dat de kopteksten in de eerste rij voorkomen. Promoveren naar kopteksten door het contextmenu van de tabel linksboven in het rastergebied van het voorbeeld te selecteren om de eerste rij als kopteksten te selecteren.

    Screenshot showing the selection of the Use first row as headers option from the table context menu.

    Notitie

    Nadat u de kopteksten hebt gepromoot, ziet u een nieuwe stap die is toegevoegd aan het deelvenster Toegepaste stappen boven aan de gegevensstroomeditor voor de gegevenstypen van uw kolommen.

  2. Klik met de rechtermuisknop op de kolom VendorID en selecteer in het contextmenu dat wordt weergegeven de optie Andere kolommen opheffen. Hiermee kunt u kolommen transformeren in kenmerk-waardeparen, waarbij kolommen rijen worden.

    Screenshot showing the context menu for the VendorID column with the Unpivot other columns selection highlighted.

  3. Als de tabel niet is gepivoted, wijzigt u de naam van de kolommen Kenmerk en Waarde door erop te dubbelklikken en Kenmerk te wijzigen in Datum en Waarde in Korting.

    Screenshot showing the table columns after renaming Attribute to Date and Value to Discount.

  4. Wijzig het gegevenstype van de kolom Datum door het gegevenstypemenu links van de kolomnaam te selecteren en Datum te kiezen.

    Screenshot showing the selection of the Date data type for the Date column.

  5. Selecteer de kolom Korting en selecteer vervolgens het tabblad Transformeren in het menu. Selecteer de kolom Getal en selecteer vervolgens Standaard numerieke transformaties in het submenu en kies Delen.

    Screenshot showing the selection of the Divide option to transform data in the Discount column.

  6. Voer in het dialoogvenster Delen de waarde 100 in.

    Screenshot showing the Divide dialog with the value 100 entered and the OK button highlighted.

Reis- en kortingengegevens combineren

De volgende stap bestaat uit het combineren van beide tabellen in één tabel met de korting die moet worden toegepast op de reis en het aangepaste totaal.

  1. Schakel eerst de knop Diagramweergave in, zodat u beide query's kunt zien.

    Screenshot showing the Diagram view toggle button with both queries created in this tutorial displayed.

  2. Selecteer de nyc_taxi-query en selecteer op het tabblad Start het menu Combineren en kies Query's samenvoegen en voeg query's als nieuw toe.

    Screenshot showing the Merge queries as new selection for the nyc_taxi query.

  3. Selecteer in het dialoogvenster Samenvoegen de optie Gegenereerd-NYC-Taxi-Green-Kortingen in de vervolgkeuzelijst Rechts voor samenvoeging en selecteer vervolgens het pictogram 'gloeilamp' in de rechterbovenhoek van het dialoogvenster om de voorgestelde toewijzing van kolommen tussen de twee tabellen weer te geven.

    Screenshot showing the configuration of the Merge dialog with suggested column mappings displayed.

    Kies elk van de twee voorgestelde kolomtoewijzingen, één voor één, en wijs de vendorID en datumkolommen uit beide tabellen toe. Wanneer beide toewijzingen worden toegevoegd, worden de overeenkomende kolomkoppen in elke tabel gemarkeerd.

  4. Er wordt een bericht weergegeven waarin u wordt gevraagd gegevens uit meerdere gegevensbronnen te combineren om de resultaten te bekijken. Selecteer OK in het dialoogvenster Samenvoegen .

    Screenshot showing the request to approve combining data from multiple data sources, with the OK button highlighted.

  5. In het tabelgebied ziet u in eerste instantie een waarschuwing dat de evaluatie is geannuleerd omdat het combineren van gegevens uit meerdere bronnen gegevens van de ene bron naar de andere kan onthullen. Selecteer Doorgaan als de mogelijkheid om gegevens weer te geven in orde is. Selecteer Doorgaan om de gecombineerde gegevens weer te geven.

    Screenshot showing the warning about combining data from multiple data sources with the Continue button highlighted.

  6. U ziet hoe een nieuwe query is gemaakt in de diagramweergave met de relatie van de nieuwe samenvoegquery met de twee query's die u eerder hebt gemaakt. Als u naar het tabelvenster van de editor kijkt, schuift u naar de rechterkant van de lijst met samenvoegquerykolommen om een nieuwe kolom met tabelwaarden weer te geven. Dit is de kolom Gegenereerde NYC Taxi-Green-Kortingen en het type is [Tabel]. In de kolomkop ziet u een pictogram met twee pijlen die in tegenovergestelde richtingen gaan, zodat u kolommen in de tabel kunt selecteren. Deselecteer alle kolommen behalve Korting en selecteer VERVOLGENS OK.

    Screenshot showing the merged query with the column selection menu displayed for the newly generated column Generated-NYC-Taxi-Green-Discounts.

  7. Met de kortingswaarde nu op rijniveau kunnen we een nieuwe kolom maken om het totale bedrag na korting te berekenen. Hiervoor selecteert u het tabblad Kolom toevoegen boven aan de editor en kiest u Aangepaste kolom in de groep Algemeen.

    Screenshot showing the Add custom column button highlighted on the General section of the Add column tab.

  8. In het dialoogvenster Aangepaste kolom kunt u de Power Query-formuletaal (ook wel M genoemd) gebruiken om te definiëren hoe de nieuwe kolom moet worden berekend. Voer TotalAfterDiscount in voor de nieuwe kolomnaam, selecteer Valuta voor het gegevenstype en geef de volgende M-expressie op voor de formule aangepaste kolom:

    if [totalAmount] > 0 then [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    Selecteer vervolgens OK.

    Screenshot showing the Custom column configuration screen with the New column name, Data type and Custom column formula highlighted.

  9. Selecteer de kolom TotalAfterDiscount en selecteer vervolgens het tabblad Transformeren boven aan het editorvenster. Selecteer in de kolomgroep Getal de vervolgkeuzelijst Afronden en kies Vervolgens Afronden....

    Screenshot showing the Round... option on the Transform tab of the editor window.

  10. Voer in het dialoogvenster Ronde 2 in voor het aantal decimalen en selecteer VERVOLGENS OK.

    Screenshot showing the Round dialog with 2 for the number of decimal places and the OK button highlighted.

  11. Wijzig het gegevenstype van de IpepPickupDatetime van Date to Date/Time.

    Screenshot showing the selection of the Date/Time data type for the IpepPickupDatetime column.

  12. Vouw ten slotte het deelvenster Query-instellingen uit vanaf de rechterkant van de editor als deze nog niet is uitgevouwen en wijzig de naam van de query van Samenvoegen in Uitvoer.

    Screenshot showing the renaming of the query from Merge to Output.

De uitvoerquery laden in een tabel in Lakehouse

Nu de uitvoerquery volledig is voorbereid en met gegevens die klaar zijn voor uitvoer, kunnen we de uitvoerbestemming voor de query definiëren.

  1. Selecteer de uitvoerquery die u eerder hebt gemaakt. Selecteer vervolgens het tabblad Start in de editor en voeg gegevensbestemming toe vanuit de groep Query om een Lakehouse-bestemming te selecteren.

    Screenshot showing the Add data destination button with Lakehouse highlighted.

  2. In het dialoogvenster Verbinding maken naar gegevensbestemming moet uw verbinding al zijn geselecteerd. Selecteer Volgende om door te gaan.

  3. Blader in het dialoogvenster Doeldoel kiezen naar het Lakehouse waar u de gegevens wilt laden en geef de nieuwe tabel een naam nyc_taxi_with_discounts en selecteer vervolgens opnieuw Volgende .

    Screenshot showing the Choose destination target dialog with Table name nyc_taxi_with_discounts.

  4. Laat in het dialoogvenster Doelinstellingen kiezen de standaardmethode Vervangen staan, controleer of uw kolommen correct zijn toegewezen en selecteer Instellingen opslaan.

    Screenshot showing the Choose destination settings dialog with the Save settings button highlighted.

  5. Controleer in het hoofdvenster van de editor of u de uitvoerbestemming ziet in het deelvenster Query-instellingen voor de uitvoertabel en selecteer Vervolgens Publiceren.

    Belangrijk

    Wanneer de eerste Dataflow Gen2 wordt gemaakt in een werkruimte, worden Lakehouse- en Warehouse-items ingericht samen met hun gerelateerde SQL-analyse-eindpunt en semantische modellen. Deze items worden gedeeld door alle gegevensstromen in de werkruimte en zijn vereist voor gebruik van Dataflow Gen2, mogen niet worden verwijderd en zijn niet bedoeld om rechtstreeks door gebruikers te worden gebruikt. De items zijn een implementatiedetail van Dataflow Gen2. De items zijn niet zichtbaar in de werkruimte, maar zijn mogelijk toegankelijk in andere ervaringen, zoals notebook, SQL-eindpunt, Lakehouse en Warehouse. U kunt de items herkennen door hun voorvoegsel in de naam. Het voorvoegsel van de items is 'DataflowsStaging'.

  6. (Optioneel) Op de werkruimtepagina kunt u de naam van de gegevensstroom wijzigen door het beletselteken rechts van de naam van de gegevensstroom te selecteren die wordt weergegeven nadat u de rij hebt geselecteerd en Eigenschappen hebt gekozen.

    Screenshot showing the Properties option selected on the menu for a dataflow where it can be renamed.

  7. Selecteer het vernieuwingspictogram voor de gegevensstroom nadat u de rij hebt geselecteerd. Als u klaar bent, ziet u dat de nieuwe Lakehouse-tabel is gemaakt zoals geconfigureerd in de doelinstellingen voor gegevens .

    Screenshot showing the selection of the refresh button to refresh the dataflow.

  8. Controleer uw Lakehouse om de nieuwe tabel weer te geven die daar is geladen.

In deze tweede module voor onze end-to-end-zelfstudie voor uw eerste gegevensintegratie met behulp van Data Factory in Microsoft Fabric hebt u geleerd hoe u het volgende kunt doen:

  • Maak een nieuwe Gegevensstroom Gen2.
  • Voorbeeldgegevens importeren en transformeren.
  • Tekst/CSV-gegevens importeren en transformeren.
  • Voeg gegevens uit beide gegevensbronnen samen in een nieuwe query.
  • Gegevens transformeren en nieuwe kolommen genereren in een query.
  • Configureer een uitvoerdoelbron voor een query.
  • Wijzig de naam van uw nieuwe gegevensstroom en vernieuw deze.

Ga nu verder met de volgende sectie om uw gegevenspijplijn te integreren.