Medal medal architecture beschrijven
Data lakehouses in Fabric zijn gebaseerd op de Delta Lake-indeling, die systeemeigen ONDERSTEUNING biedt voor ACID-transacties (Atomicity, Consistency, Isolation, Duurzaamheid). Binnen dit kader is de medalsight-architectuur een aanbevolen patroon voor gegevensontwerp dat wordt gebruikt om gegevens in een lakehouse logisch te organiseren. Het is erop gericht om de gegevenskwaliteit te verbeteren tijdens het doorlopen van verschillende lagen. De architectuur heeft doorgaans drie lagen: brons (onbewerkt), zilver (gevalideerd) en goud (verrijkt), die elk hogere niveaus van gegevenskwaliteit vertegenwoordigen. Sommige mensen noemen het ook een 'multihop'-architectuur, wat betekent dat gegevens naar behoefte tussen lagen kunnen worden verplaatst.
Deze architectuur zorgt ervoor dat gegevens betrouwbaar en consistent zijn wanneer deze verschillende controles en wijzigingen doorlopen. Het garandeert ook dat de gegevens veilig worden opgeslagen op een manier die het gemakkelijker en sneller maakt om te analyseren.
De medal organization-architectuur vormt een aanvulling op andere methoden voor gegevensorganisatie, in plaats van ze te vervangen. U kunt de medaille-architectuur beschouwen als het framework voor het opschonen van gegevens, in plaats van een gegevensarchitectuur of -model. Het zorgt voor compatibiliteit en flexibiliteit voor bedrijven om de voordelen naast bestaande gegevensmodellen te gebruiken, zodat u gegevensoplossingen kunt aanpassen en expertise kunt behouden terwijl u zich blijft aanpassen in het steeds veranderende gegevenslandschap.
De indeling van de medal intune-architectuur begrijpen
Bronslaag
De brons- of onbewerkte laag van de medaille-architectuur is de eerste laag van het lakehouse. Het is de landingszone voor alle gegevens, ongeacht of deze gestructureerd, semigestructureerd of ongestructureerd zijn. De gegevens worden opgeslagen in de oorspronkelijke indeling en er worden geen wijzigingen aangebracht.
Zilveren laag
De zilveren of gevalideerde laag is de tweede laag van het lakehouse. Hier valideert en verfijnt u uw gegevens. Typische activiteiten in de zilveren laag omvatten het combineren en samenvoegen van gegevens en het afdwingen van regels voor gegevensvalidatie, zoals het verwijderen van null's en ontdubbeling. De zilveren laag kan worden beschouwd als een centrale opslagplaats in een organisatie of team, waarbij gegevens worden opgeslagen in een consistente indeling en toegankelijk zijn voor meerdere teams. In de zilveren laag schoont u uw gegevens voldoende op, zodat alles op één plek is en klaar is om te worden verfijnd en gemodelleerd in de gouden laag.
Gouden laag
De goud- of verrijkte laag is de derde laag van het lakehouse. In de gouden laag worden gegevens verder verfijnd om te voldoen aan specifieke bedrijfs- en analysebehoeften. Dit kan betrekking hebben op het aggregeren van gegevens naar een bepaalde granulariteit, zoals dagelijks of elk uur, of het verrijken van gegevens met externe informatie. Zodra de gegevens de gouden fase bereiken, is deze klaar voor gebruik door downstreamteams, waaronder analyses, gegevenswetenschap of MLOps.
Uw medal medal architecture aanpassen
Afhankelijk van de specifieke use case van uw organisatie hebt u mogelijk meer lagen nodig. U hebt bijvoorbeeld een extra 'onbewerkte' laag voor landingsgegevens in een specifieke indeling voordat deze wordt getransformeerd in de bronslaag. Of misschien hebt u een 'platina'-laag voor gegevens die verder zijn verfijnd en verrijkt voor een specifieke use case. Ongeacht de namen en het aantal lagen, is de medalmware-architectuur flexibel en kan worden afgestemd op de specifieke vereisten van uw organisatie.
Gegevens verplaatsen tussen lagen in Fabric
Het verplaatsen van gegevens over medaillelaags verfijnt, organiseert en bereidt deze voor op downstreamgegevensactiviteiten. In Het Lakehouse van Fabric is er meer dan één manier om gegevens tussen lagen te verplaatsen, zodat u de methode kunt kiezen die geschikt is voor uw team.
Er zijn enkele dingen die u moet overwegen bij het bepalen hoe u gegevens over lagen verplaatst en transformeert.
- Met hoeveel gegevens werkt u?
- Hoe complex zijn de transformaties die u moet maken?
- Hoe vaak moet u gegevens verplaatsen tussen lagen?
- Met welke hulpprogramma's bent u het meest vertrouwd?
Inzicht in het verschil tussen gegevenstransformatie en gegevensindeling helpt u bij het selecteren van de juiste hulpprogramma's voor de taak in Fabric.
Gegevenstransformatie omvat het wijzigen van de structuur of inhoud van gegevens om te voldoen aan specifieke vereisten. Hulpprogramma's voor gegevenstransformatie in Fabric zijn onder andere Gegevensstromen (Gen2) en notebooks. Gegevensstromen zijn een uitstekende optie voor kleinere semantische modellen en eenvoudige transformaties. Notebooks zijn een betere optie voor grotere semantische modellen en complexere transformaties. Met notebooks kunt u uw getransformeerde gegevens ook opslaan als een beheerde Delta-tabel in lakehouse, klaar voor rapportage.
Gegevensindeling verwijst naar de coördinatie en het beheer van meerdere gegevensgerelateerde processen, zodat ze samenwerken om een gewenst resultaat te bereiken. Het primaire hulpprogramma voor gegevensindeling in Fabric is pijplijnen. Een pijplijn is een reeks stappen waarmee gegevens van de ene plaats naar de andere worden verplaatst, in dit geval van de ene laag van de medalsight-architectuur naar de volgende. Pijplijnen kunnen worden geautomatiseerd om te worden uitgevoerd volgens een schema of geactiveerd door een gebeurtenis.