Dimenzionální modelování ve službě Microsoft Fabric Warehouse
Platí pro:✅ Koncový bod sql Analytics a sklad v Microsoft Fabric
Tento článek je první v řadě o dimenzionálním modelování uvnitř skladu. Poskytuje praktické pokyny pro Warehouse v Microsoft Fabric, což je prostředí, které podporuje mnoho funkcí T-SQL, jako je vytváření tabulek a správa dat v tabulkách. Takže máte úplnou kontrolu nad vytvářením dimenzionálních tabulek modelu a jejich načítáním s daty.
Poznámka:
V tomto článku se termín datový sklad týká podnikového datového skladu, který poskytuje komplexní integraci důležitých dat v rámci organizace. Naproti tomu samostatný termínový sklad odkazuje na sklad Infrastruktury, což je nabídka relační databáze SaaS (software jako služba), kterou můžete použít k implementaci datového skladu. Pro přehlednost se v tomto článku uvádí jako Fabric Warehouse.
Tip
Pokud jste nezkušení s dimenzionálním modelováním, zvažte, že tato série článků je vaším prvním krokem. Účelem není poskytnout kompletní diskuzi o návrhu dimenzionálního modelování. Další informace najdete přímo na široce přijímaný publikovaný obsah, například The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (3. vydání, 2013) od Ralph Kimball a dalších.
Návrh hvězdicového schématu
Hvězdicové schéma je technika návrhu dimenzionálního modelování přijatá relačními datovými sklady. Jedná se o doporučený přístup k návrhu, který je potřeba vzít při vytváření skladu Fabric. Hvězdicové schéma se skládá z tabulek faktů a tabulek dimenzí.
- Tabulky dimenzí popisují entity, které jsou relevantní pro vaši organizaci a požadavky na analýzu. Obecně představují věci, které modelujete. Můžou to být produkty, lidé, místa nebo jakýkoliv jiný koncept, včetně data a času. Další informace a osvědčené postupy návrhu najdete v tabulkách dimenzí v této řadě.
- Tabulky faktů ukládají měření přidružená k pozorováním nebo událostem. Můžou ukládat prodejní objednávky, zůstatky zásob, směnné kurzy, teploty a další. Tabulky faktů obsahují klíče dimenzí společně s podrobnými hodnotami, které je možné agregovat. Další informace a osvědčené postupy návrhu najdete v tabulkách faktů v této řadě.
Návrh hvězdicového schématu je optimalizovaný pro analytické úlohy dotazů. Z tohoto důvodu se považuje za předpokladu pro podnikové sémantické modely Power BI. Analytické dotazy se zabývají filtrováním, seskupováním, řazením a souhrnem dat. Data faktů se shrnují v kontextu filtrů a seskupení souvisejících tabulek dimenzí.
Důvodem, proč se nazývá hvězdicové schéma, je to, že tabulka faktů tvoří střed hvězdy, zatímco související tabulky dimenzí tvoří body hvězdy.
Hvězdicové schéma často obsahuje více tabulek faktů, a proto více hvězdiček.
Dobře navržené hvězdicové schéma poskytuje dotazy s vysokým výkonem (relační) kvůli menšímu počtu spojení tabulek a vyšší pravděpodobnosti užitečných indexů. Hvězdicové schéma také často vyžaduje nízkou údržbu při vývoji návrhu datového skladu. Například přidání nového sloupce do tabulky dimenzí pro podporu analýzy pomocí nového atributu je relativně jednoduchá úloha, která se má provést. Jak přidáváme nová fakta a dimenze, jak se rozsah datového skladu vyvíjí.
Tabulky v dimenzionálním modelu se pravidelně aktualizují a načítají procesem extrakce, transformace a načítání (ETL). Tento proces synchronizuje data se zdrojovými systémy, které ukládají provozní data. Další informace naleznete v tématu Načtení tabulek v této řadě.
Dimenzionální modelování pro Power BI
U podnikových řešení se pro vytvoření sémantického modelu Power BI doporučuje dimenzionální model ve skladu Fabric. Nejen, že dimenzionální model podporuje sémantický model, ale také zdroj dat pro jiné zkušenosti, jako jsou modely strojového učení.
V konkrétních případech ale nemusí být nejlepším přístupem. Například samoobslužní analytici, kteří potřebují svobodu a flexibilitu, aby mohli rychle pracovat a bez závislosti na IT, můžou vytvářet sémantické modely, které se připojují přímo ke zdrojovým datům. V takových případech je teorie dimenzionálního modelování stále relevantní. Tato teorie pomáhá analytikům vytvářet intuitivní a efektivní modely a zároveň se vyhnout nutnosti vytvářet a načítat dimenzionální model v datovém skladu. Místo toho je možné vytvořit kvazidimenzionální model pomocí Power Query, který definuje logiku pro připojení a transformaci zdrojových dat pro vytvoření a načtení sémantických tabulek modelu. Další informace najdete v tématu Vysvětlení hvězdicového schématu a důležitosti pro Power BI.
Důležité
Když použijete Power Query k definování dimenzionálního modelu v sémantickém modelu, nemůžete spravovat historické změny, které by mohly být nezbytné k přesné analýze minulosti. Pokud je to požadavek, měli byste vytvořit datový sklad a umožnit pravidelným procesům ETL zaznamenávat a odpovídajícím způsobem ukládat změny dimenzí.
Plánování datového skladu
Měli byste přistupovat k vytvoření datového skladu a návrhu modelu dimenzí jako vážného a důležitého závazku. Je to proto, že datový sklad je základní součástí datové platformy. Měla by tvořit solidní základ, který podporuje analýzy a vytváření sestav – a proto rozhodování – pro celou organizaci.
Za tímto účelem by se váš datový sklad měl snažit ukládat kvalitní, vyhovující a historicky přesná data jako jedinou verzi pravdy. Měla by poskytovat srozumitelná a navigovatelná data s rychlým výkonem a vynucovat oprávnění, aby k správným datům měli přístup jenom ti správní lidé. Snažte se navrhnout datový sklad tak, aby byl odolný proti chybám, aby se přizpůsobil změnám při vývoji vašich požadavků.
Úspěšná implementace datového skladu závisí na dobrém plánování. Informace o strategických a taktických aspektech a položkách akcí, které vedou k úspěšnému přijetí prostředků infrastruktury a datového skladu, najdete v plánu přechodu na Microsoft Fabric.
Tip
Doporučujeme vytvořit iterativní sestavení podnikového datového skladu. Nejprve začněte nejdůležitějšími předměty a pak v průběhu času podle priority a zdrojů rozšiřte datový sklad o další předmětné oblasti.
Související obsah
V dalším článku této série se seznámíte s pokyny a osvědčenými postupy návrhu pro tabulky dimenzí.