Quickstart: Gegevens verplaatsen en transformeren met gegevensstromen en gegevenspijplijnen
In deze zelfstudie ontdekt u hoe de gegevensstroom en gegevenspijplijnervaring een krachtige en uitgebreide Data Factory-oplossing kunnen maken.
Vereisten
U moet aan de volgende vereisten voldoen om aan de slag te gaan:
- Een tenantaccount met een actief abonnement. Maak een gratis account.
- Zorg ervoor dat u een werkruimte met Microsoft Fabric hebt: maak een werkruimte die niet de standaard mijn werkruimte is.
- Een Azure SQL-database met tabelgegevens.
- Een Blob Storage-account.
Gegevensstromen vergeleken met pijplijnen
Met gegevensstromen Gen2 kunt u gebruikmaken van een interface met weinig code en 300+ gegevens- en AI-transformaties, zodat u gegevens eenvoudig kunt opschonen, voorbereiden en transformeren met meer flexibiliteit dan elk ander hulpprogramma. Met gegevenspijplijnen zijn uitgebreide out-of-the-box mogelijkheden voor gegevensindeling mogelijk om flexibele gegevenswerkstromen op te stellen die voldoen aan de behoeften van uw bedrijf. In een pijplijn kunt u logische groeperingen maken van activiteiten die een taak uitvoeren, waaronder het aanroepen van een gegevensstroom voor het opschonen en voorbereiden van uw gegevens. Hoewel er sprake is van een aantal functionaliteitsovergangen tussen de twee, is de keuze voor een specifiek scenario afhankelijk van of u de volledige rijkdom van pijplijnen nodig hebt of de eenvoudigere maar beperktere mogelijkheden van gegevensstromen kunt gebruiken. Raadpleeg de handleiding voor beslissingen over fabric voor meer informatie
Gegevens transformeren met gegevensstromen
Volg deze stappen om uw gegevensstroom in te stellen.
Stap 1: Een gegevensstroom maken
Kies uw werkruimte met fabric en selecteer vervolgens Nieuw. Selecteer vervolgens Dataflow Gen2.
Het venster gegevensstroomeditor wordt weergegeven. Selecteer de kaart Importeren uit SQL Server .
Stap 2: Gegevens ophalen
Voer in het Verbinding maken volgende dialoogvenster naar de gegevensbron de details in om verbinding te maken met uw Azure SQL-database en selecteer vervolgens Volgende. In dit voorbeeld gebruikt u de AdventureWorksLT-voorbeelddatabase die is geconfigureerd bij het instellen van de Azure SQL-database in de vereisten.
Selecteer de gegevens die u wilt transformeren en selecteer vervolgens Maken. Voor deze quickstart selecteert u SalesLT.Customer in de voorbeeldgegevens van AdventureWorksLT die zijn opgegeven voor Azure SQL DB en vervolgens de knop Gerelateerde tabellen selecteren om automatisch twee andere gerelateerde tabellen op te nemen.
Stap 3: uw gegevens transformeren
Als deze optie niet is geselecteerd, selecteert u de knop Diagramweergave op de statusbalk onder aan de pagina of selecteert u de diagramweergave onder aan de pagina of selecteert u de diagramweergave onder aan het menu Beeld boven aan de Power Query-editor. Met een van deze opties kunt u de diagramweergave in- of uitschakelen.
Klik met de rechtermuisknop op uw SalesLT-klantquery of selecteer het verticale beletselteken rechts van de query en selecteer query's samenvoegen.
Configureer de samenvoeging door de tabel SalesLTOrderHeader te selecteren als de rechtertabel voor de samenvoegbewerking, de kolom CustomerID uit elke tabel als de joinkolom en Left outer als jointype. Selecteer vervolgens OK om de samenvoegquery toe te voegen.
Selecteer de knop Gegevensbestemming toevoegen, die eruitziet als een databasesymbool met een pijl erboven, vanuit de nieuwe samenvoegquery die u zojuist hebt gemaakt. Selecteer vervolgens Azure SQL-database als doeltype.
Geef de details op voor uw Azure SQL-databaseverbinding waar de samenvoegquery moet worden gepubliceerd. In dit voorbeeld kunt u ook de AdventureWorksLT-database gebruiken die we als gegevensbron voor de bestemming hebben gebruikt.
Kies een database om de gegevens op te slaan en geef een tabelnaam op en selecteer Vervolgens.
U kunt de standaardinstellingen in het dialoogvenster Doelinstellingen kiezen laten en gewoon Instellingen opslaan selecteren zonder hier wijzigingen aan te brengen.
Selecteer Publiceren op de pagina van de gegevensstroomeditor om de gegevensstroom te publiceren.
Gegevens verplaatsen met gegevenspijplijnen
Nu u een Gegevensstroom Gen2 hebt gemaakt, kunt u ermee werken in een pijplijn. In dit voorbeeld kopieert u de gegevens die zijn gegenereerd op basis van de gegevensstroom in tekstindeling in een Azure Blob Storage-account.
Stap 1: Een nieuwe gegevenspijplijn maken
Selecteer Nieuw in uw werkruimte en selecteer vervolgens Gegevenspijplijn.
Geef uw pijplijn een naam en selecteer Vervolgens Maken.
Stap 2: Uw gegevensstroom configureren
Voeg een nieuwe gegevensstroomactiviteit toe aan uw gegevenspijplijn door Gegevensstroom te selecteren op het tabblad Activiteiten.
Selecteer de gegevensstroom op het pijplijncanvas en klik vervolgens op het tabblad Instellingen. Kies de gegevensstroom die u eerder hebt gemaakt in de vervolgkeuzelijst.
Selecteer Opslaan en voer vervolgens uit om de gegevensstroom uit te voeren om de samengevoegde querytabel in te vullen die u in de vorige stap hebt ontworpen.
Stap 3: De kopieerassistent gebruiken om een kopieeractiviteit toe te voegen
Selecteer Gegevens kopiëren op het canvas om het hulpprogramma Copy Assistant te openen om aan de slag te gaan. Of selecteer Kopieerassistent gebruiken in de vervolgkeuzelijst Gegevens kopiëren onder het tabblad Activiteiten op het lint.
Kies uw gegevensbron door een gegevensbrontype te selecteren. In deze zelfstudie gebruikt u de Azure SQL Database die u eerder hebt gebruikt toen u de gegevensstroom maakte om een nieuwe samenvoegquery te genereren. Schuif omlaag onder de voorbeeldgegevensaanbiedingen en selecteer het tabblad Azure en vervolgens Azure SQL Database. Selecteer vervolgens Volgende om door te gaan.
Maak een verbinding met uw gegevensbron door nieuwe verbinding maken te selecteren. Vul de vereiste verbindingsgegevens in het deelvenster in en voer AdventureWorksLT in voor de database, waar we de samenvoegquery in de gegevensstroom hebben gegenereerd. Selecteer Volgende.
Selecteer de tabel die u eerder hebt gegenereerd in de gegevensstroomstap en selecteer vervolgens Volgende.
Kies Azure Blob Storage voor uw bestemming en selecteer vervolgens Volgende.
Maak een verbinding met uw bestemming door nieuwe verbinding maken te selecteren. Geef de details voor uw verbinding op en selecteer vervolgens Volgende.
Selecteer uw mappad en geef een bestandsnaam op en selecteer vervolgens Volgende.
Selecteer Volgende opnieuw om de standaardbestandsindeling, kolomscheidingsteken, rijscheidingsteken en compressietype te accepteren, eventueel inclusief een koptekst.
Voltooi uw instellingen. Controleer en selecteer Vervolgens Opslaan en uitvoeren om het proces te voltooien.
Stap 5: Uw gegevenspijplijn ontwerpen en opslaan om gegevens uit te voeren en te laden
Als u de kopieeractiviteit wilt uitvoeren na de gegevensstroomactiviteit , sleept u van Geslaagd op de gegevensstroomactiviteit naar de kopieeractiviteit . De kopieeractiviteit wordt alleen uitgevoerd nadat de gegevensstroomactiviteit is geslaagd.
Selecteer Opslaan om uw gegevenspijplijn op te slaan. Selecteer Vervolgens Uitvoeren om uw gegevenspijplijn uit te voeren en uw gegevens te laden.
Pijplijnuitvoering plannen
Zodra u klaar bent met het ontwikkelen en testen van uw pijplijn, kunt u plannen dat deze automatisch wordt uitgevoerd.
Selecteer Planning op het tabblad Start van het venster pijplijneditor.
Configureer de planning naar behoefte. In het voorbeeld wordt de pijplijn gepland om dagelijks om 18:00 uur tot het einde van het jaar uit te voeren.
Gerelateerde inhoud
In dit voorbeeld ziet u hoe u een Gegevensstroom Gen2 maakt en configureert om een samenvoegquery te maken en op te slaan in een Azure SQL-database en vervolgens gegevens uit de database kopieert naar een tekstbestand in Azure Blob Storage. U hebt geleerd hoe u:
- Een gegevensstroom maken.
- Gegevens transformeren met de gegevensstroom.
- Maak een gegevenspijplijn met behulp van de gegevensstroom.
- De uitvoering van stappen in de pijplijn orden.
- Gegevens kopiëren met de Copy Assistant.
- Voer uw gegevenspijplijn uit en plan deze.
Ga vervolgens verder voor meer informatie over het bewaken van uw pijplijnuitvoeringen.