Architectuur voor datawarehousing beschrijven

Voltooid

De architectuur voor grootschalige gegevensanalyse kan variƫren, net als de specifieke technologieƫn die worden gebruikt om deze te implementeren; maar in het algemeen zijn de volgende elementen opgenomen:

Diagram met gegevensopname en -verwerking, een analytische gegevensopslag, een analytische gegevensmodel en gegevensvisualisatie.

  1. Gegevensopname en -verwerking : gegevens uit een of meer transactionele gegevensarchieven, bestanden, realtime streams of andere bronnen worden geladen in een data lake of een relationeel datawarehouse. De belastingsbewerking omvat meestal een ETL-proces (extraheren, transformeren en laden ) of ELT-proces (EXTRAHEREN, laden en transformeren ) waarin de gegevens worden opgeschoond, gefilterd en geherstructureerd voor analyse. In ETL-processen worden de gegevens getransformeerd voordat ze in een analytische opslag worden geladen, terwijl in een ELT-proces de gegevens naar het archief worden gekopieerd en vervolgens worden getransformeerd. In beide gevallen is de resulterende gegevensstructuur geoptimaliseerd voor analytische query's. De gegevensverwerking wordt vaak uitgevoerd door gedistribueerde systemen die grote hoeveelheden gegevens parallel kunnen verwerken met behulp van clusters met meerdere knooppunten. Gegevensopname omvat zowel batchverwerking van statische gegevens als realtime verwerking van streaminggegevens.
  2. Analytische gegevensopslag: gegevensarchieven voor grootschalige analyses omvatten relationele datawarehouses, data lakes op basis van een bestandssysteem en hybride architecturen die functies van datawarehouses en data lakes combineren (ook wel data lakehouses of lake-databases genoemd). We bespreken deze later uitgebreider.
  3. Analytische gegevensmodel : hoewel gegevensanalisten en gegevenswetenschappers rechtstreeks met de gegevens in de analytische gegevensopslag kunnen werken, is het gebruikelijk om een of meer gegevensmodellen te maken die de gegevens vooraf aggregeren om rapporten, dashboards en interactieve visualisaties gemakkelijker te maken. Deze gegevensmodellen worden vaak beschreven als kubussen, waarin numerieke gegevenswaarden worden samengevoegd in een of meer dimensies (bijvoorbeeld om de totale verkoop per product en regio te bepalen). Het model bevat de relaties tussen gegevenswaarden en dimensionale entiteiten ter ondersteuning van analyse 'inzoomen/inzoomen'.
  4. Gegevensvisualisatie : gegevensanalisten gebruiken gegevens uit analytische modellen en rechtstreeks vanuit analytische archieven om rapporten, dashboards en andere visualisaties te maken. Daarnaast kunnen gebruikers in een organisatie die mogelijk geen technologieprofessionals zijn selfservicegegevensanalyse en -rapportage uitvoeren. De visualisaties uit de gegevens tonen trends, vergelijkingen en KPI's (Key Performance Indicators) voor een bedrijf of andere organisatie en kunnen de vorm aannemen van afgedrukte rapporten, grafieken en grafieken in documenten of PowerPoint-presentaties, webdashboards en interactieve omgevingen waarin gebruikers gegevens visueel kunnen verkennen.