Sdílet prostřednictvím


Osvědčené postupy pro vytváření dimenzionálního modelu pomocí toků dat

Návrh dimenzionálního modelu je jednou z nejběžnějších úloh, které můžete dělat s tokem dat. Tento článek popisuje některé z osvědčených postupů pro vytvoření dimenzionálního modelu pomocí toku dat.

Pracovní toky dat

Jedním z klíčových bodů v jakémkoli systému integrace dat je snížení počtu čtení ze zdrojového operačního systému. V tradiční architektuře integrace dat se toto snížení provádí vytvořením nové databáze označované jako pracovní databáze. Účelem pracovní databáze je načíst data tak, jak jsou ze zdroje dat, do pracovní databáze podle běžného plánu.

Zbývající integrace dat pak použije pracovní databázi jako zdroj pro další transformaci a převede ji na strukturu dimenzionálního modelu.

Doporučujeme postupovat podle stejného přístupu pomocí toků dat. Vytvořte sadu toků dat, které zodpovídají za pouhé načítání dat ze zdrojového systému (a jenom pro tabulky, které potřebujete). Výsledek se pak uloží do struktury úložiště toku dat (Azure Data Lake Storage nebo Dataverse). Tato změna zajišťuje, aby operace čtení ze zdrojového systému byla minimální.

Dále můžete vytvořit další toky dat, které zdrojují jejich data z pracovních toků dat. Mezi výhody tohoto přístupu patří:

  • Snížení počtu operací čtení ze zdrojového systému a snížení zatížení zdrojového systému v důsledku toho.
  • Snížení zatížení bran dat, pokud se používá místní zdroj dat.
  • Pokud se zdrojová systémová data změní, bude mít zprostředkující kopii dat pro účely odsouhlasení.
  • Vytvoření toků dat transformace nezávisle na zdroji

Pracovní toky dat.

Obrázek zdůrazňuje pracovní toky dat a přípravné úložiště a znázorňuje data, ke které se přistupuje ze zdroje dat přípravným tokem dat, a tabulky uložené v Cadavers nebo Azure Data Lake Storage. Tabulky se pak transformují spolu s dalšími toky dat, které se pak odesílají jako dotazy.

Transformace toků dat

Když transformační toky dat oddělíte od pracovních toků dat, transformace bude nezávislá na zdroji. Toto oddělení pomáhá, pokud migrujete zdrojový systém do nového systému. V takovém případě stačí změnit pracovní toky dat. Toky dat transformace budou pravděpodobně fungovat bez problémů, protože jsou zdrojové pouze z pracovních toků dat.

Toto oddělení také pomáhá v případě, že je připojení ke zdrojovému systému pomalé. Tok dat transformace nebude muset dlouho čekat, než získá záznamy procházející pomalým připojením ze zdrojového systému. Přípravný tok dat už tu část dokončil a data budou připravená pro transformační vrstvu.

Obrázek podobný předchozímu obrázku s výjimkou transformací se zvýrazní a data se odesílají do datového skladu.

Vícevrstvé architektury

Vícevrstvá architektura je architektura, ve které provádíte akce v samostatných vrstvách. Pracovní a transformační toky dat můžou být dvě vrstvy architektury toku dat s více vrstvami. Při pokusu o provedení akcí ve vrstvách se zajistí minimální požadovaná údržba. Když chcete něco změnit, stačí ho změnit ve vrstvě, ve které se nachází. Ostatní vrstvy by měly dál fungovat správně.

Následující obrázek znázorňuje vícevrstvé architektury pro toky dat, ve kterých se pak používají v sémantických modelech Power BI.

Obrázek s vícevrstvý architekturou, kde pracovní toky dat a toky transformací jsou v samostatných vrstvách.

Co nejvíce použijte počítanou tabulku.

Když použijete výsledek toku dat v jiném toku dat, používáte koncept počítané tabulky, což znamená získání dat z tabulky "již zpracovaných a uložených". Totéž se může stát uvnitř toku dat. Když odkazujete na tabulku z jiné tabulky, můžete použít vypočítanou tabulku. To je užitečné, když máte sadu transformací, které je potřeba provést v několika tabulkách, které se nazývají běžné transformace.

Obrázek znázorňující vypočítanou tabulku zdrojovou ze zdroje dat, která se používá ke zpracování běžných transformací

Na předchozím obrázku získá vypočítaná tabulka data přímo ze zdroje. V architektuře pracovních a transformačních toků dat je však pravděpodobné, že vypočítané tabulky pocházejí z pracovních toků dat.

Vypočítaná tabulka zdrojová z toků dat sloužící ke zpracování běžných transformací

Vytvoření hvězdicového schématu

Nejlepším dimenzionálním modelem je model hvězdicového schématu, který má rozměry a tabulky faktů navržené způsobem, jak minimalizovat dobu dotazování na data z modelu a také usnadňuje pochopení vizualizéru dat.

Není ideální přenést data do stejného rozložení operačního systému do systému BI. Tabulky dat by se měly přemodelovat. Některé tabulky by měly mít podobu tabulky dimenzí, která uchovává popisné informace. Některé tabulky by měly mít podobu tabulky faktů, aby se zachovala agregatable data. Nejlepším rozložením pro tabulky faktů a tabulky dimenzí, které se mají vytvořit, je hvězdicové schéma. Další informace: Vysvětlení hvězdicového schématu a důležitosti pro Power BI

Obrázek hvězdicového schématu znázorňující tabulku faktů obklopenou tabulkami dimenzí ve tvaru pěticípé hvězdy

Použití jedinečné hodnoty klíče pro dimenze

Při vytváření tabulek dimenzí se ujistěte, že máte klíč pro každou z nich. Tento klíč zajišťuje, že mezi dimenzemi nejsou žádné relace M:N (nebo "slabé"). Klíč můžete vytvořit použitím určité transformace, abyste měli jistotu, že sloupec nebo kombinace sloupců vrací jedinečné řádky v dimenzi. Pak se tato kombinace sloupců může označit jako klíč v tabulce v toku dat.

Označí sloupec jako hodnotu klíče.

Přírůstková aktualizace pro velké tabulky faktů

Tabulky faktů jsou vždy největšími tabulkami v dimenzionálním modelu. Doporučujeme snížit počet řádků přenesených pro tyto tabulky. Pokud máte velmi velkou tabulku faktů, ujistěte se, že pro tuto tabulku používáte přírůstkovou aktualizaci. Přírůstkovou aktualizaci je možné provést v sémantickém modelu Power BI a také v tabulkách toku dat.

Přírůstkovou aktualizaci můžete použít k aktualizaci pouze části dat, která se změnila. Existuje několik možností, jak zvolit, kterou část dat chcete aktualizovat a kterou část chcete zachovat. Další informace: Použití přírůstkové aktualizace s toky dat Power BI

Přírůstková aktualizace toků dat

Odkazování na vytváření dimenzí a tabulek faktů

Ve zdrojovém systému často máte tabulku, kterou používáte ke generování tabulek faktů i dimenzí v datovém skladu. Tyto tabulky jsou vhodnými kandidáty pro počítané tabulky a také přechodné toky dat. Společnou část procesu, jako je čištění dat a odebrání dalších řádků a sloupců, je možné provést jednou. Pomocí odkazu z výstupu těchto akcí můžete vytvořit tabulky dimenzí a faktů. Tento přístup použije počítanou tabulku pro běžné transformace.

Obrázek znázorňující dotaz Objednávky s odkazovou možností, která se používá k vytvoření nového dotazu s názvem Agregované objednávky