Scénáře použití Power BI: Pokročilá příprava dat
Poznámka:
Tento článek je součástí řady článků o plánování implementace Power BI. Tato série se zaměřuje především na prostředí Power BI v Rámci Microsoft Fabric. Úvod do série najdete v tématu Plánování implementace Power BI.
Příprava dat (někdy označovaná jako ETL, což je zkratka pro aktivity extrakce, transformace a načítání), často zahrnují velké úsilí. Doba, dovednost a úsilí spojené se shromažďováním, čištěním, kombinováním a rozšiřováním dat závisí na kvalitě a struktuře zdrojových dat.
Investice času a úsilí do centralizované přípravy dat pomáhá:
- Zvyšte opětovnou použitelnost a získejte maximální hodnotu z úsilí o přípravu dat.
- Vylepšete možnost poskytovat konzistentní data více týmům.
- Snižte úroveň úsilí vyžadovaného jinými tvůrci obsahu.
- Dosažení škálování a výkonu
Pokročilý scénář použití přípravy dat se rozšiřuje o scénář přípravy dat samoobslužných služeb. Pokročilá příprava dat se týká zvýšení opětovného využití toku dat více uživateli v různých týmech a pro různé případy použití.
Samostatné pracovní prostory uspořádané podle účelu toku dat jsou užitečné, když je výstup toku dat poskytován více sémantickým tvůrcům modelů, zejména pokud jsou v různých týmech v organizaci. Samostatné pracovní prostory jsou také užitečné pro správu rolí zabezpečení, když se lidé, kteří vytvářejí a spravují toky dat, liší od lidí, kteří je využívají.
Poznámka:
Scénář přípravy pokročilých dat je druhým scénářem přípravy dat. Tento scénář vychází z toho, co je možné provést s centralizovanými toky dat, jak je popsáno ve scénáři samoobslužné přípravy dat.
Pokročilý scénář přípravy dat je jedním ze scénářů samoobslužných BI. Centralizovaný člen týmu ale může techniky používat podobným způsobem jako ve scénáři spravované samoobslužné služby BI . Úplný seznam samoobslužných scénářů najdete v článku Scénáře použití Power BI.
V zájmu stručnosti se v tomto článku nezabýváme některými aspekty popsanými v tématu věnovaném spolupráci a doručování obsahu. Úplné pokrytí si nejprve přečtěte v těchto článcích.
Diagram scénáře
Tip
Doporučujeme, abyste si prostudovali scénář použití samoobslužné přípravy dat, pokud s ním nejste obeznámeni. Pokročilý scénář pro samoobslužnou přípravu dat vychází z daného scénáře.
Tento pokročilý scénář přípravy dat je zaměřený na:
- Použití samostatných toků dat na základě účelu: příprava, transformace nebo konečné. Doporučujeme použít kompozovatelné stavební bloky k získání většího opakovaného použití v různých kombinacích pro podporu konkrétních uživatelských požadavků. Kompozovatelné stavební bloky jsou popsány dále v tomto článku.
- Použití samostatných pracovních prostorů, které podporují tvůrce toků dat nebo uživatele toku dat. Modelátoři dat, kteří využívají toky dat, můžou být v různých týmech nebo mají různé případy použití.
- Použití propojených tabulek (označovaných také jako propojené entity), počítaných tabulek (označovaných také jako počítané entity) a vylepšeného výpočetního modulu.
Poznámka:
Někdy se termíny sémantický model a datový model používají zaměnitelně. Obecně platí, že z služba Power BI perspektivy se označuje jako sémantický model. Z pohledu vývoje se označuje jako datový model (nebo jako krátký model ). V tomto článku mají oba termíny stejný význam. Podobně má sémantický tvůrce modelu a modelátor dat stejný význam.
Následující diagram znázorňuje základní přehled nejběžnějších uživatelských akcí a komponent Power BI, které podporují pokročilý scénář přípravy dat.
Tip
Diagram scénáře doporučujeme stáhnout, pokud ho chcete vložit do prezentace, dokumentace nebo blogového příspěvku – nebo ho vytisknout jako plakát na zdi. Vzhledem k tomu, že se jedná o obrázek SVG (Scalable Vector Graphics), můžete ho škálovat nahoru nebo dolů bez ztráty kvality.
Diagram scénáře znázorňuje následující akce uživatele, nástroje a funkce:
Položka | Popis |
---|---|
Tvůrce toku dat vyvíjí kolekci tabulek v rámci toku dat. U toku dat, který je určený k opakovanému použití, je běžný (ale nevyžaduje se), že tvůrce patří do centralizovaného týmu, který podporuje uživatele napříč hranicemi organizace (například IT, enterprise BI nebo Center of Excellence). | |
Tok dat se připojuje k datům z jednoho nebo více zdrojů dat. | |
Některé zdroje dat můžou vyžadovat místní bránu dat nebo bránu virtuální sítě pro aktualizaci dat, například ty, které se nacházejí v privátní síti organizace. Tyto brány se používají k vytváření toku dat v Power Query Online i k aktualizaci toku dat. | |
Všechny zahrnuté pracovní prostory mají režim licence nastavený na kapacitu Fabric, kapacitu Premium, Premium na uživatele nebo embedded. Tyto režimy licencí umožňují používat propojené tabulky a počítané tabulky napříč pracovními prostory, které jsou v tomto scénáři povinné. | |
Tvůrci toků dat vyvíjejí toky dat pomocí Power Query Online, což je webová verze Power Query. | |
Pracovní tok dat se vytvoří v pracovním prostoru vyhrazeném pro centralizovanou správu toků dat. Pracovní tok dat zkopíruje nezpracovaná data tak, jak jsou ze zdroje. Několik transformací, pokud existuje, se použijí. | |
Tok dat transformace (označovaný také jako vyčištěný tok dat) se vytvoří ve stejném pracovním prostoru. Zdroj dat pomocí propojených tabulek do přípravného toku dat. Počítané tabulky zahrnují kroky transformace, které připraví, vyčistí a transformují data. | |
Tvůrci toků dat mají přístup ke správě obsahu v pracovním prostoru vyhrazeném pro centralizovanou správu toků dat. | |
Existuje jeden nebo více dalších pracovních prostorů, které mají poskytovat přístup k poslednímu toku dat, který do datových modelů dodává data připravená pro produkční prostředí. | |
Konečný tok dat se vytvoří v pracovním prostoru, který je dostupný pro modelátory dat. Zdroj dat pomocí propojených tabulek do toku dat transformace. Vypočítané tabulky představují připravený výstup, který je viditelný pro modelátory dat, kteří mají udělenou roli čtenáře pracovního prostoru. | |
Sémantické tvůrce modelu (kteří využívají výstup toku dat) mají přístup k pracovnímu prostoru, který obsahuje konečný výstup toku dat. Tvůrci toku dat mají také přístup ke správě a publikování obsahu v pracovním prostoru (není znázorněno v diagramu scénáře). | |
Sémantický model tvůrci používají konečný tok dat jako zdroj dat při vývoji datového modelu v Power BI Desktopu. Jakmile je tvůrce sémantického modelu připravený, publikuje soubor Power BI Desktopu (.pbix), který obsahuje datový model do služba Power BI (není znázorněný v diagramu scénáře). | |
Správci prostředků infrastruktury spravují nastavení na portálu pro správu. | |
Na portálu pro správu můžou správci Power BI nastavit připojení Azure k ukládání dat toku dat do svého účtu Azure Data Lake Storage Gen2 (ADLS Gen2 ). Nastavení zahrnuje přiřazení účtu úložiště na úrovni tenanta a povolení oprávnění úložiště na úrovni pracovního prostoru. | |
Toky dat ve výchozím nastavení ukládají data pomocí interního úložiště spravovaného služba Power BI. Volitelně je možné výstup dat tokem dat uložit do účtu ADLS Gen2 organizace. | |
Správci prostředků infrastruktury dohlížejí na aktivitu na portálu Fabric a monitorují je. |
Klíčové body
Tady je několik klíčových bodů, které je potřeba zdůraznit o scénáři pokročilé přípravy dat.
Datové toky
Tok dat se skládá z kolekce tabulek (označovaných také jako entity). Každá tabulka je definována dotazem, který obsahuje kroky přípravy dat potřebné k načtení tabulky s daty. Veškerá práce na vytvoření toku dat se provádí v Power Query Online. Tok dat můžete vytvořit v několika produktech, včetně Power Apps, Dynamics 365 Customer Insights a Power BI.
Poznámka:
Toky dat nemůžete vytvářet v osobním pracovním prostoru v služba Power BI.
Typy toků dat
Použití kompozovatelných stavebních bloků je princip návrhu, který umožňuje spravovat, nasazovat a zabezpečit systémové komponenty a pak je používat v různých kombinacích. Vytvoření modulárních, samostatných toků dat, které jsou specifické pro daný účel, je osvědčeným postupem. Pomáhají dosáhnout opětovného použití dat a podnikového škálování. Modulární toky dat se také snadněji spravují a testují.
V diagramu scénáře se zobrazují tři typy toků dat: přípravný tok dat, tok dat transformace a konečný tok dat.
Pracovní tok dat
Pracovní tok dat (někdy označovaný jako tok dat pro extrakci dat) kopíruje nezpracovaná data tak, jak jsou ze zdroje. Nezpracovaná data extrahovaná s minimální transformací znamená, že toky dat podřízené transformace (popsané dále) můžou jako zdroj použít pracovní tok dat. Tato modularita je užitečná v těchto případech:
- Přístup ke zdroji dat je omezený na úzké časové intervaly nebo několik uživatelů.
- Dočasná konzistence je požadovaná k zajištění toho, aby všechny podřízené toky dat (a související sémantické modely) doručovaly data extrahovaná ze zdroje dat současně.
- Snížení počtu dotazů odeslaných do zdroje dat je nezbytné z důvodu omezení zdrojového systému nebo jeho schopnosti podporovat analytické dotazy.
- Kopie zdrojových dat je užitečná pro procesy odsouhlasení a ověření kvality dat.
Tok dat transformace
Tok dat transformace (někdy označovaný jako vyčištěný tok dat) získává svá data z propojených tabulek, které se připojují k pracovnímu toku dat. Osvědčeným postupem je oddělit transformace od procesu extrakce dat.
Tok dat transformace zahrnuje všechny kroky transformace potřebné k přípravě a změně struktury dat. V této vrstvě se ale stále zaměřujeme na opětovnou použitelnost, aby se zajistilo, že tok dat je vhodný pro více případů použití a účelů.
Konečný tok dat
Konečný tok dat představuje připravený výstup. Na základě případu použití a účelu můžou nastat některé další transformace. Pro analýzu je upřednostňovaným návrhem konečného toku dat tabulka hvězdicového schématu (dimenze nebo fakta).
Počítané tabulky jsou viditelné pro modelátory dat, kterým je udělena role prohlížeče pracovních prostorů. Tento typ tabulky je popsán v níže uvedených typech tabulek toku dat.
Poznámka:
Datová jezera mají často zóny, jako je bronz, stříbro a zlato. Tři typy toků dat představují podobný vzor návrhu. Pokud chcete učinit co nejlepší rozhodnutí o architektuře dat, zamyslete se nad tím, kdo bude data udržovat, očekávané použití dat a úroveň dovedností vyžadovanou lidmi, kteří k datům přistupují.
Pracovní prostory pro toky dat
Pokud byste měli vytvořit všechny toky dat v jednom pracovním prostoru, výrazně by omezila rozsah opakovaného použití. Použití jednoho pracovního prostoru také omezuje možnosti zabezpečení, které jsou k dispozici při podpoře více typů uživatelů napříč týmy nebo pro různé případy použití. Doporučujeme používat více pracovních prostorů. Poskytují lepší flexibilitu, když potřebujete podporovat samoobslužné tvůrce z různých oblastí organizace.
Mezi dva typy pracovních prostorů zobrazených v diagramu scénáře patří:
- Pracovní prostor 1: Ukládá centrálně spravované toky dat (někdy označované jako back-endový pracovní prostor). Obsahuje pracovní i transformační toky dat, protože jsou spravovány stejnými lidmi. Tvůrci toků dat často pocházejí z centralizovaného týmu, jako je IT, BI nebo Center of Excellence. Měly by být přiřazeny roli správce pracovního prostoru, člena nebo přispěvatele.
- Pracovní prostor 2: Ukládá a doručuje konečný výstup toku dat příjemcům dat (někdy označovaný jako pracovní prostor uživatele). Sémantická tvůrci modelů jsou často samoobslužní analytici, power uživatelé nebo datoví inženýři občanů. Měly by být přiřazeny k roli prohlížeče pracovního prostoru, protože potřebují jenom využívat výstup konečného toku dat. Pokud chcete podporovat sémantické tvůrce modelů z různých oblastí organizace, můžete vytvořit mnoho pracovních prostorů, jako je tato, na základě případů použití a potřeb zabezpečení.
Tip
Doporučujeme zkontrolovat způsoby, jak podporovat sémantické tvůrce modelů, jak je popsáno ve scénáři použití samoobslužné přípravy dat. Je důležité si uvědomit, že sémantické tvůrce modelů můžou v Power BI Desktopu dál využívat všechny funkce Power Query. Můžou se rozhodnout přidat kroky dotazu pro další transformaci dat toku dat nebo sloučení výstupu toku dat s jinými zdroji.
Typy tabulek toku dat
V diagramu scénáře jsou znázorněny tři typy tabulek toku dat (označované také jako entity).
- Standardní tabulka: Dotazuje externí zdroj dat, například databázi. V diagramu scénáře jsou standardní tabulky znázorněné v přípravném toku dat.
- Propojená tabulka: Odkazuje na tabulku z jiného toku dat. Propojená tabulka nezdvojuje data. Místo toho umožňuje opakované použití standardní tabulky vícekrát pro více účelů. Propojené tabulky nejsou viditelné pro čtenáře pracovního prostoru, protože dědí oprávnění z původního toku dat. V diagramu scénáře jsou propojené tabulky znázorněny dvakrát:
- V toku dat transformace pro přístup k datům v přípravném toku dat.
- V posledním toku dat pro přístup k datům v toku dat transformace.
- Vypočítaná tabulka: Provádí další výpočty pomocí jiného toku dat jako zdroje. Počítané tabulky umožňují přizpůsobit výstup podle potřeby pro jednotlivé případy použití. V diagramu scénáře jsou vypočítané tabulky znázorněny dvakrát:
- V toku dat transformace pro provádění běžných transformací.
- V posledním toku dat pro doručování výstupu tvůrcům sémantických modelů. Vzhledem k tomu, že vypočítané tabulky znovu uchovávají data (po aktualizaci toku dat), mají modelátoři dat přístup k vypočítaným tabulkám v konečném toku dat. V tomto případě by měli mít modelátoři dat udělený přístup s rolí prohlížeče pracovního prostoru.
Poznámka:
Existuje mnoho technik návrhu, vzorů a osvědčených postupů , které můžou přebírat toky dat od samoobslužných po podnikové. Toky dat v pracovním prostoru, který má nastavený režim licence na Premium na uživatele nebo kapacitu Premium, můžou využívat pokročilé funkce. Propojené tabulky a počítané tabulky (označované také jako entity) jsou dvě pokročilé funkce, které jsou nezbytné pro zvýšení použitelnosti toků dat.
Vylepšený výpočetní modul
Vylepšený výpočetní modul je pokročilá funkce dostupná v Power BI Premium.
Důležité
Někdy se tento článek týká Power BI Premium nebo jejích předplatných kapacity (SKU P). Mějte na paměti, že Microsoft v současné době konsoliduje možnosti nákupu a vyřazuje Power BI Premium na skladové položky kapacity. Místo toho by měli noví a stávající zákazníci zvážit nákup předplatných kapacity Fabric (SKU F).
Další informace najdete v tématu Důležité aktualizace týkající se licencování Power BI Premium a nejčastějších dotazů k Power BI Premium.
Vylepšený výpočetní modul zlepšuje výkon propojených tabulek (ve stejném pracovním prostoru), na který odkazuje (odkaz na) tok dat. Pokud chcete získat maximální výhodu z vylepšeného výpočetního modulu:
- Rozdělte pracovní a transformační toky dat.
- Ke ukládání pracovních a transformačních toků dat použijte stejný pracovní prostor.
- Použijte složité operace, které se můžou dotazovat v rané fázi kroků dotazu. Stanovení priority skládacích operací může pomoct dosáhnout nejlepšího výkonu aktualizace.
- Pomocí přírůstkové aktualizace můžete zkrátit dobu trvání aktualizace a spotřebu prostředků.
- Proveďte testování včas a často během fáze vývoje.
Aktualizace toku dat a sémantického modelu
Tok dat je zdrojem dat pro sémantické modely. Ve většině případů se používá několik plánů aktualizace dat: jeden pro každý tok dat a jeden pro každý sémantický model. Alternativně je možné použít DirectQuery z sémantického modelu k toku dat, který vyžaduje Power BI Premium a vylepšený výpočetní modul (není znázorněný v diagramu scénáře).
Azure Data Lake Storage Gen2
Účet ADLS Gen2 je konkrétní typ účtu úložiště Azure, který má povolený hierarchický obor názvů . ADLS Gen2 má výhody výkonu, správy a zabezpečení pro provozní analytické úlohy. Toky dat Power BI ve výchozím nastavení používají interní úložiště, což je integrovaný účet Data Lake spravovaný služba Power BI. Organizace si můžou volitelně přinést vlastní datové jezero připojením k účtu ADLS Gen2 ve své organizaci.
Tady jsou některé výhody použití vlastního datového jezera:
- Uživatelé (nebo procesy) mají přímý přístup k datům toku dat uloženým v datovém jezeře. To je užitečné, když se tok dat znovu použije mimo Power BI. Azure Data Factory může například přistupovat k datům toku dat.
- Další nástroje nebo systémy můžou spravovat data v datovém jezeře. V tomto případě může Power BI data využívat místo správy (není znázorněno v diagramu scénáře).
Při použití propojených tabulek nebo počítaných tabulek se ujistěte, že je každý pracovní prostor přiřazený ke stejnému účtu úložiště ADLS Gen2.
Poznámka:
Data toku dat v ADLS Gen2 se ukládají v kontejneru specifickém pro Power BI. Tento kontejner je znázorněný v diagramu scénáře použití samoobslužné přípravy dat.
Nastavení portálu pro správu
Na portálu pro správu existují dvě důležitá nastavení:
- Připojení Azure: Část Připojení Azure na portálu pro správu obsahuje nastavení pro nastavení připojení k účtu ADLS Gen2. Toto nastavení umožňuje správci Power BI používat do toků dat vlastní datové jezero . Po nakonfigurování můžou pracovní prostory používat tento účet Data Lake pro úložiště.
- Úložiště na úrovni pracovního prostoru: Správce Power BI může nastavit oprávnění úložiště na úrovni pracovního prostoru. Pokud je tato možnost povolená, umožňuje správcům pracovního prostoru používat jiný účet úložiště, který je nastavený na úrovni tenanta. Povolení tohoto nastavení je užitečné pro decentralizované organizační jednotky, které spravují vlastní datové jezero v Azure.
Nastavení brány
Místní brána dat se obvykle vyžaduje pro připojení ke zdrojům dat, které se nacházejí v privátní síti organizace nebo virtuální síti.
Brána dat se vyžaduje v případě, že:
- Vytvoření toku dat v Power Query Online, který se připojuje k privátním datům organizace
- Aktualizace toku dat, který se připojuje k privátním datům organizace
Tip
Toky dat vyžadují centralizovanou bránu dat ve standardním režimu. Brána v osobním režimu není při práci s toky dat podporovaná.
Dohled nad systémem
Protokol aktivit zaznamenává aktivity uživatelů, ke kterým dochází v služba Power BI. Správci Power BI můžou použít data protokolu aktivit shromážděná k provádění auditování , aby jim pomohli porozumět vzorům využití a přijetí. Protokol aktivit je také cenný pro podporu úsilí o zásady správného řízení, auditů zabezpečení a požadavků na dodržování předpisů. V pokročilém scénáři přípravy dat jsou data protokolu aktivit užitečná ke sledování správy a používání toků dat.
Související obsah
Další užitečné scénáře, které vám pomůžou s rozhodováním o implementaci Power BI, najdete v článku o scénářích použití Power BI.