Analytische gegevensarchieven verkennen
Er zijn twee veelvoorkomende typen analytische gegevensopslag.
Datawarehouses
Een datawarehouse is een relationele database waarin de gegevens worden opgeslagen in een schema dat is geoptimaliseerd voor gegevensanalyse in plaats van transactionele workloads. Normaal gesproken worden de gegevens uit een transactioneel archief omgezet in een schema waarin numerieke waarden worden opgeslagen in centrale feitentabellen , die zijn gerelateerd aan een of meer dimensietabellen die entiteiten vertegenwoordigen waarmee de gegevens kunnen worden samengevoegd. Een feitentabel kan bijvoorbeeld verkoopordergegevens bevatten, die kunnen worden geaggregeerd op basis van klant-, product-, winkel- en tijddimensies (zodat u bijvoorbeeld eenvoudig de maandelijkse totale omzet per product per winkel kunt vinden). Dit soort feiten- en dimensietabelschema wordt een stervormig schema genoemd, hoewel dit vaak wordt uitgebreid tot een sneeuwvlokschema door extra tabellen toe te voegen die betrekking hebben op de dimensietabellen om dimensionale hiërarchieën weer te geven (bijvoorbeeld product kan gerelateerd zijn aan productcategorieën). Een datawarehouse is een uitstekende keuze wanneer u transactionele gegevens hebt die kunnen worden ingedeeld in een gestructureerd schema met tabellen en u SQL wilt gebruiken om er query's op uit te voeren.
Data lakes
Een data lake is een bestandsopslag, meestal op een gedistribueerd bestandssysteem voor toegang tot gegevens met hoge prestaties. Technologieën zoals Spark of Hadoop worden vaak gebruikt om query's op de opgeslagen bestanden te verwerken en gegevens te retourneren voor rapportage en analyse. Deze systemen passen vaak een schema-on-read-benadering toe om tabellaire schema's te definiëren op semi-gestructureerde gegevensbestanden op het moment waarop de gegevens worden gelezen voor analyse, zonder beperkingen toe te passen wanneer ze worden opgeslagen. Data lakes zijn ideaal voor het ondersteunen van een combinatie van gestructureerde, semi-gestructureerde en zelfs ongestructureerde gegevens die u wilt analyseren zonder dat schema afdwinging nodig is wanneer de gegevens naar het archief worden geschreven.
Hybride benaderingen
U kunt een hybride benadering gebruiken die functies van data lakes en datawarehouses combineert in een data lakehouse. De onbewerkte gegevens worden opgeslagen als bestanden in een data lake en microsoft Fabric SQL-analyse-eindpunten maken ze beschikbaar als tabellen, die kunnen worden opgevraagd met BEHULP van SQL. Wanneer u een Lakehouse maakt met Microsoft Fabric, wordt automatisch een SQL-analyse-eindpunt gemaakt. Data Lakehouses zijn een relatief nieuwe benadering in Spark-systemen en worden ingeschakeld via technologieën zoals Delta Lake. Hiermee worden relationele opslagmogelijkheden toegevoegd aan Spark, zodat u tabellen kunt definiëren die schema's en transactionele consistentie afdwingen, batchgewijs geladen en streaminggegevensbronnen ondersteunen en een SQL-API bieden voor het uitvoeren van query's.
Azure-services voor analytische archieven
In Azure zijn er verschillende services die u kunt gebruiken om een grootschalige analytische opslag te implementeren, waaronder:
Microsoft Fabric is een geïntegreerde end-to-end oplossing voor grootschalige gegevensanalyses. Het combineert meerdere technologieën en mogelijkheden, zodat u de gegevensintegriteit en betrouwbaarheid van een schaalbaar, op SQL Server gebaseerd relationeel datawarehouse met hoge prestaties kunt combineren met de flexibiliteit van een data lake en opensource Apache Spark. Het bevat ook systeemeigen ondersteuning voor logboek- en telemetrieanalyses met Microsoft Fabric Realtime Intelligence, evenals ingebouwde gegevenspijplijnen voor gegevensopname en -transformatie. Elke Microsoft Fabric-productervaring heeft een eigen thuis, bijvoorbeeld de Data Factory Home. In elke fabric-startpagina worden de items weergegeven die u maakt en die u mag gebruiken vanuit alle werkruimten die u opent. Microsoft Fabric is een uitstekende keuze als u één geïntegreerde analyseoplossing wilt maken.
Azure Databricks is een Azure-implementatie van het populaire Databricks-platform. Databricks is een uitgebreide oplossing voor gegevensanalyse die is gebouwd op Apache Spark en biedt systeemeigen SQL-mogelijkheden en spark-clusters die zijn geoptimaliseerd voor workloads voor gegevensanalyse en gegevenswetenschap. Databricks biedt een interactieve gebruikersinterface waarmee het systeem kan worden beheerd en gegevens kunnen worden verkend in interactieve notebooks. Vanwege het algemene gebruik op meerdere cloudplatforms kunt u overwegen Om Azure Databricks te gebruiken als uw analytische opslag als u bestaande expertise met het platform wilt gebruiken of als u in een omgeving met meerdere clouds wilt werken of een cloudoverdraagbare oplossing wilt ondersteunen.
Notitie
Elk van deze services kan worden beschouwd als een analytische gegevensopslag, in de zin dat ze een schema en interface bieden waarmee de gegevens kunnen worden opgevraagd. In veel gevallen worden de gegevens echter daadwerkelijk opgeslagen in een data lake en wordt de service gebruikt om de gegevens te verwerken en query's uit te voeren. Sommige oplossingen kunnen zelfs het gebruik van deze services combineren. Een opnameproces van ELT (extraheren, laden en transformeren ) kan gegevens naar de data lake kopiëren en vervolgens een van deze services gebruiken om de gegevens te transformeren en een andere om er een query op uit te voeren. Een pijplijn kan bijvoorbeeld een notebook gebruiken dat wordt uitgevoerd in Azure Databricks om een grote hoeveelheid gegevens in de data lake te verwerken en deze vervolgens in tabellen in een Microsoft Fabric Warehouse te laden.