Wat is data-engineering in Microsoft Fabric?

Artikel
01/27/2025

Met data engineering in Microsoft Fabric kunnen gebruikers infrastructuren en systemen ontwerpen, bouwen en onderhouden waarmee hun organisaties grote hoeveelheden gegevens kunnen verzamelen, opslaan, verwerken en analyseren.

Microsoft Fabric biedt verschillende mogelijkheden voor data engineering om ervoor te zorgen dat uw gegevens eenvoudig toegankelijk, goed georganiseerd en van hoge kwaliteit zijn. Op de startpagina van data engineering kunt u het volgende doen:

Uw gegevens maken en beheren met behulp van een lakehouse
Pijplijnen ontwerpen om gegevens naar uw lakehouse te kopiëren
Spark-taakdefinities gebruiken om batch-/streamingtaak naar Spark-cluster te verzenden
Notebooks gebruiken om code te schrijven voor gegevensopname, voorbereiding en transformatie

Lakehouse

Lakehouses zijn gegevensarchitecturen waarmee organisaties gestructureerde en ongestructureerde gegevens op één locatie kunnen opslaan en beheren, met behulp van verschillende hulpprogramma's en frameworks om die gegevens te verwerken en te analyseren. Deze hulpprogramma's en frameworks kunnen query's en analyses op basis van SQL bevatten, evenals machine learning en andere geavanceerde analysetechnieken.

Apache Spark-taakdefinitie

Spark-taakdefinities zijn een reeks instructies waarmee wordt gedefinieerd hoe een taak in een Spark-cluster moet worden uitgevoerd. Het bevat informatie zoals de invoer- en uitvoergegevensbronnen, de transformaties en de configuratie-instellingen voor de Spark-toepassing. Met spark-taakdefinitie kunt u batch-/streamingtaak verzenden naar Een Spark-cluster, verschillende transformatielogica toepassen op de gegevens die worden gehost op uw lakehouse, samen met veel andere dingen.

Schrift

Notebooks zijn een interactieve computeromgeving waarmee gebruikers documenten kunnen maken en delen die live code, vergelijkingen, visualisaties en verhaaltekst bevatten. Ze stellen gebruikers in staat om code te schrijven en uit te voeren in verschillende programmeertalen, waaronder Python, R en Scala. U kunt notebooks gebruiken voor gegevensopname, voorbereiding, analyse en andere gegevensgerelateerde taken.

Gegevenspijplijn

Gegevenspijplijnen zijn een reeks stappen waarmee gegevens uit de onbewerkte vorm kunnen worden verzameld, verwerkt en getransformeerd tot een indeling die u kunt gebruiken voor analyse en besluitvorming. Ze zijn een essentieel onderdeel van data engineering, omdat ze een manier bieden om gegevens van de bron naar de bestemming te verplaatsen op een betrouwbare, schaalbare en efficiënte manier.

U kunt Data Engineering in Microsoft Fabric gratis gebruiken wanneer u zich registreert voor de Fabric-proefversie. U kunt ook een Microsoft Fabric-capaciteit kopen of een gereserveerde Fabric-capaciteit

Aan de slag met Data Engineering:

Zie Wat is een lakehouse in Microsoft Fabric voor meer informatie over lakehouses?
Om aan de slag te gaan met een lakehouse, zie Een lakehouse maken in Microsoft Fabric.
Zie Wat is een Apache Spark-taakdefinitie?
Zie Een Apache Spark-taakdefinitie maken in Fabricom aan de slag te gaan met een Apache Spark-taakdefinitie.
Voor meer informatie over notitieblokken, zie Schrijf en voer het notebookuit.
Zie Gegevens kopiëren met behulp van kopieeractiviteitom aan de slag te gaan met pijplijnkopieactiviteit.

Delen via

Wat is data-engineering in Microsoft Fabric?

Lakehouse

Apache Spark-taakdefinitie

Schrift

Gegevenspijplijn

Feedback

Aanvullende resources

Delen via

Wat is data-engineering in Microsoft Fabric?

Lakehouse

Apache Spark-taakdefinitie

Schrift

Gegevenspijplijn

Verwante inhoud

Feedback

Aanvullende resources