Sdílet prostřednictvím


Scénáře použití Power BI: Samoobslužná příprava dat

Poznámka:

Tento článek je součástí řady článků o plánování implementace Power BI. Tato série se zaměřuje především na prostředí Power BI v Rámci Microsoft Fabric. Úvod do série najdete v tématu Plánování implementace Power BI.

Příprava dat (někdy označovaná jako ETL, což je zkratka pro extrakci, transformaci a načítání) často zahrnuje značné množství práce v závislosti na kvalitě a struktuře zdrojových dat. Scénář použití samoobslužné přípravy dat se zaměřuje na opětovnou použitelnost aktivit přípravy dat obchodními analytiky. Dosahuje tohoto cíle opětovného použití přemístěním práce přípravy dat z Power Query (v jednotlivých souborech Power BI Desktopu) do Power Query Online (pomocí toku dat Power BI). Centralizace logiky pomáhá dosáhnout jednoho zdroje pravdy a snižuje úroveň úsilí vyžadované jinými tvůrci obsahu.

Toky dat se vytvářejí pomocí Power Query Online v jednom z několika nástrojů: služba Power BI, Power Apps nebo Dynamics 365 Customer Insights. Tok dat vytvořený v Power BI se označuje jako tok analytických dat. Toky dat vytvořené v Power Apps můžou být jedním ze dvou typů: standardní nebo analytické. Tento scénář se týká jenom použití toku dat Power BI, který je vytvořený a spravovaný v rámci služba Power BI.

Poznámka:

Scénář samoobslužné přípravy dat je jedním ze scénářů samoobslužných bi. Úplný seznam samoobslužných scénářů najdete v článku Scénáře použití Power BI.

V zájmu stručnosti se v tomto článku nezabýváme některými aspekty popsanými v tématu věnovaném spolupráci a doručování obsahu. Úplné pokrytí si nejprve přečtěte v těchto článcích.

Diagram scénáře

Následující diagram znázorňuje základní přehled nejběžnějších uživatelských akcí a komponent Power BI, které podporují samoobslužnou přípravu dat. Primárním cílem je vytvoření toku dat v Power Query Online, který se stane zdrojem dat pro více sémantických modelů. Cílem je mnoho sémantických modelů využít přípravu dat, kterou tok dat provádí jednou.

Diagram znázorňuje samoobslužnou přípravu dat, která se týká toků dat pro centralizovanou práci čištění a transformace dat. Položky v diagramu jsou popsány v následující tabulce.

Tip

Diagram scénáře doporučujeme stáhnout, pokud ho chcete vložit do prezentace, dokumentace nebo blogového příspěvku – nebo ho vytisknout jako plakát na zdi. Vzhledem k tomu, že se jedná o obrázek SVG (Scalable Vector Graphics), můžete ho škálovat nahoru nebo dolů bez ztráty kvality.

Diagram scénáře znázorňuje následující akce uživatele, nástroje a funkce:

Položka Popis
Položka 1. Tvůrce toku dat vyvíjí kolekci tabulek v toku dat Power BI. U toku dat, který je určený k opakovanému použití, je běžný (ale nevyžaduje) tok dat, který patří do centralizovaného týmu, který podporuje uživatele napříč hranicemi organizace (například IT, enterprise BI nebo Center of Excellence).
Položka 2. Tok dat se připojuje k datům z jednoho nebo více zdrojů dat.
Položka 3. Některé zdroje dat můžou vyžadovat místní bránu dat nebo bránu virtuální sítě pro aktualizaci dat, například ty, které se nacházejí v privátní síti organizace. Tyto brány se používají k vytváření toku dat v Power Query Online, což je webová verze Power Query a aktualizace toku dat.
Položka 4. Toky dat se vyvíjejí pomocí Power Query Online. Známé rozhraní Power Query v Power Query Online usnadňuje přechod z Power BI Desktopu.
Položka 5. Tok dat se uloží jako položka v pracovním prostoru vyhrazeném pro ukládání a zabezpečení toků dat. Plán aktualizace toku dat se vyžaduje k udržování aktuálních dat (není znázorněno v diagramu scénáře).
Položka 6. Tok dat je možné znovu použít jako zdroj dat tvůrci obsahu a další sémantické modely, které by se mohly nacházet v různých pracovních prostorech.
Položka 7. Sémantický model tvůrce vyvíjí nový datový model pomocí Power BI Desktopu. Sémantický tvůrce modelu může v Power BI Desktopu používat všechny funkce Power Query. Volitelně můžou použít další kroky dotazu k další transformaci dat toku dat nebo sloučení výstupu toku dat.
Položka 8. Jakmile je tvůrce sémantického modelu připravený, publikuje soubor Power BI Desktopu (.pbix), který obsahuje datový model, do služba Power BI. Aktualizace sémantického modelu se spravuje odděleně od toku dat (není znázorněno v diagramu scénáře).
Položka 9. Jiní autoři samoobslužných sémantických modelů můžou v Power BI Desktopu vytvářet nové datové modely pomocí toku dat jako zdroje dat.
Položka 10. Na portálu pro správu můžou správci Power BI nastavit připojení Azure k ukládání dat toku dat do svého účtu Azure Data Lake Storage Gen2 (ADLS Gen2). Nastavení zahrnuje přiřazení účtu úložiště na úrovni tenanta a povolení oprávnění úložiště na úrovni pracovního prostoru.
Položka 11. Správci Power BI spravují nastavení na portálu pro správu.
Položka 12. Toky dat ve výchozím nastavení ukládají data pomocí interního úložiště spravovaného služba Power BI. Volitelně je možné výstup dat tokem dat uložit do účtu ADLS Gen2 organizace. Tento typ úložiště se někdy nazývá Přineste si vlastní datové jezero. Výhodou ukládání dat toku dat v datovém jezeře je, že k datům je možné přistupovat a využívat je dalšími nástroji BI.
Položka 13. Data toku dat v ADLS Gen2 se ukládají v kontejneru specifickém pro Power BI, který se označuje jako systém souborů. V tomto kontejneru existuje složka pro každý pracovní prostor. Pro každý tok dat a pro každou tabulku se vytvoří podsložka. Power BI vygeneruje snímek při každé aktualizaci dat toku dat. Snímky jsou samopisné, které se skládají z metadat a datových souborů.
Položka 14. Správci Azure spravují oprávnění pro účet ADLS Gen2 organizace.
Položka 15. Správci Power BI sledují a monitorují aktivity v služba Power BI.

Tip

Doporučujeme také zkontrolovat scénář použití pokročilé přípravy dat. Vychází z konceptů zavedených v tomto scénáři.

Klíčové body

Tady je několik klíčových bodů, které je potřeba zdůraznit v případě samoobslužné přípravy dat.

Datové toky

Tok dat se skládá z kolekce tabulek (označovaných také jako entity). Veškerá práce na vytvoření toku dat se provádí v Power Query Online. Toky dat můžete vytvářet v několika produktech, včetně Power Apps, Dynamics 365 Customer Insights a Power BI.

Poznámka:

Toky dat nemůžete vytvářet v osobním pracovním prostoru v služba Power BI.

Podpora sémantických tvůrců modelů

Diagram scénáře znázorňuje použití toku dat Power BI k poskytování připravených dat ostatním tvůrcům samoobslužných sémantických modelů.

Poznámka:

Sémantický model používá tok dat jako zdroj dat. Sestava se nemůže připojit přímo k toku dat.

Tady jsou některé výhody používání toků dat Power BI:

  • Sémantický model tvůrci používají stejné známé rozhraní Power Query, které najdete v Power BI Desktopu.
  • Logika přípravy dat a transformace dat definovaná tokem dat se dá opakovaně použít, protože je centralizovaná.
  • Pokud jsou v toku dat provedeny změny logiky přípravy dat, nemusí vyžadovat aktualizaci závislých datových modelů. Odebrání nebo přejmenování sloupců nebo změna datových typů sloupců bude vyžadovat aktualizaci závislých datových modelů.
  • Předem připravená data je možné snadno zpřístupnit tvůrcům sémantických modelů Power BI. Opakované použití je zvláště užitečné pro běžně používané tabulky – zejména tabulky dimenzí, jako jsou datum, zákazník a produkt.
  • Úroveň úsilí, které tvůrci sémantických modelů vyžadují, je snížena, protože práce přípravy dat byla oddělena od práce modelování dat.
  • Méně sémantických tvůrců modelů potřebuje přímý přístup ke zdrojovým systémům. Zdrojové systémy můžou být složité pro dotazování a můžou vyžadovat specializovaná přístupová oprávnění.
  • Počet aktualizací spuštěných ve zdrojových systémech se snižuje, protože se sémantický model aktualizuje k tokům dat, a ne ke zdrojovým systémům, ze kterých toky dat extrahují data.
  • Data toku dat představují snímek v čase a podporují konzistenci při použití mnoha sémantických modelů.
  • Oddělení logiky přípravy dat do toků dat může pomoct zlepšit úspěch aktualizace sémantického modelu. Pokud se aktualizace toku dat nezdaří, sémantické modely se aktualizují pomocí poslední úspěšné aktualizace toku dat.

Tip

Tabulky toků dat můžete vytvářet pomocí principů návrhu hvězdicového schématu . Návrh hvězdicového schématu je vhodný pro vytváření sémantických modelů Power BI. Dále upřesněte výstup toku dat tak, aby používal popisné názvy a používaly konkrétní datové typy. Tyto techniky podporují konzistenci v závislých sémantických modelech a pomáhají snížit množství práce, kterou potřebují tvůrci sémantických modelů.

Flexibilita sémantických modelů

Když se tvůrce sémantického modelu připojí k toku dat v Power BI Desktopu, tvůrce se neomezuje na použití přesného výstupu toku dat. Stále mají k dispozici všechny funkce Power Query. Tato funkce je užitečná, pokud je vyžadována další příprava dat nebo data vyžadují další transformaci.

Pokročilé funkce toku dat

Existuje mnoho technik návrhu, vzorů a osvědčených postupů pro toky dat, které je můžou vzít od samoobslužných až po podnikové. Toky dat v pracovním prostoru, který má režim licence nastavený na Premium na uživatele, kapacitu Premium nebo kapacitu Fabric, můžou využívat pokročilé funkce.

Důležité

Někdy se tento článek týká Power BI Premium nebo jejích předplatných kapacity (SKU P). Mějte na paměti, že Microsoft v současné době konsoliduje možnosti nákupu a vyřazuje Power BI Premium na skladové položky kapacity. Místo toho by měli noví a stávající zákazníci zvážit nákup předplatných kapacity Fabric (SKU F).

Další informace najdete v tématu Důležité aktualizace týkající se licencování Power BI Premium a nejčastějších dotazů k Power BI Premium.

Poznámka:

Jednou z pokročilých funkcí je přírůstková aktualizace toků dat. I když přírůstková aktualizace sémantických modelů je funkce Power BI Pro, přírůstková aktualizace toků dat je funkce Premium.

Další informace o pokročilých funkcích toku dat najdete ve scénáři použití pokročilé přípravy dat.

Aktualizace toku dat a sémantického modelu

Jak jsme už zmínili, tok dat je zdrojem dat pro sémantické modely. Ve většině případů se používá několik plánů aktualizace dat: jeden pro tok dat a jeden pro každý sémantický model. Alternativně je možné použít DirectQuery ze sémantického modelu k toku dat, což je funkce Premium (není znázorněná v diagramu scénáře).

Azure Data Lake Storage Gen2

V Microsoft Azure je účet ADLS Gen2 konkrétním typem účtu Azure Storage, který má povolený hierarchický obor názvů . ADLS Gen2 má výhody výkonu, správy a zabezpečení pro provozní analytické úlohy. Toky dat Power BI ve výchozím nastavení používají interní úložiště, což je integrovaný účet Data Lake spravovaný služba Power BI. Volitelně můžou organizace používat vlastní datové jezero připojením k účtu ADLS Gen2 organizace.

Tady jsou některé výhody použití účtu data lake organizace:

  • Data uložená tokem dat Power BI mohou být (volitelně) přístupná z datového jezera jinými uživateli nebo procesy. To je užitečné, když se tok dat znovu použije mimo Power BI. K datům může například přistupovat služba Azure Data Factory.
  • Data v datovém jezeře můžou (volitelně) spravovat jiné nástroje nebo systémy. V tomto případě může Power BI data využívat místo správy (není znázorněno v diagramu scénáře).

Úložiště na úrovni tenanta

Část Připojení Azure na portálu pro správu obsahuje nastavení konfigurace připojení k účtu ADLS Gen2. Konfigurace tohoto nastavení umožňuje použít vlastní datové jezero. Po nastavení můžete pracovní prostory nastavit tak, aby používaly tento účet Data Lake.

Důležité

Nastavení připojení Azure neznamená, že všechny toky dat v tenantovi Power BI jsou ve výchozím nastavení uložené v tomto účtu. Aby bylo možné použít explicitní účet úložiště (místo interního úložiště), musí být každý pracovní prostor speciálně připojený.

Před vytvořením toků dat v pracovním prostoru je důležité nastavit připojení Azure pracovního prostoru. Stejný účet úložiště Azure se používá pro zálohy sémantických modelů Power BI.

Úložiště na úrovni pracovního prostoru

Správce Power BI může nakonfigurovat nastavení pro povolení oprávnění úložiště na úrovni pracovního prostoru (v části Připojení Azure na portálu pro správu). Pokud je toto nastavení povolené, umožní správcům pracovního prostoru používat jiný účet úložiště, než je účet definovaný na úrovni tenanta. Povolení tohoto nastavení je užitečné zejména pro decentralizované obchodní jednotky, které spravují vlastní datové jezero v Azure.

Poznámka:

Oprávnění úložiště na úrovni pracovního prostoru na portálu pro správu platí pro všechny pracovní prostory v tenantovi Power BI.

Formát Common Data Modelu

Data v účtu ADLS Gen2 jsou uložená ve struktuře CDM (Common Data Model). Struktura CDM je formát metadat, který určuje způsob ukládání schématu popisujícího sebe i data. Struktura CDM umožňuje sémantickou konzistenci ve formátu, který je standardizovaný pro sdílení dat napříč mnoha aplikacemi (není znázorněn v diagramu scénáře).

Publikování do samostatných pracovních prostorů

Existuje několik výhod publikování toku dat do pracovního prostoru , který je oddělený od místa, kde jsou uložené závislé sémantické modely. Jednou z výhod je přehled o tom, kdo zodpovídá za správu typů obsahu (pokud máte různé osoby, které zpracovávají různé odpovědnosti). Další výhodou je, že pro každý typ obsahu je možné přiřadit konkrétní oprávnění pracovního prostoru.

Poznámka:

Toky dat nemůžete vytvářet v osobním pracovním prostoru v služba Power BI.

Pokročilý scénář použití přípravy dat popisuje, jak nastavit více pracovních prostorů, aby poskytoval lepší flexibilitu při podpoře samoobslužných tvůrců na podnikové úrovni.

Nastavení brány

Místní brána dat se obvykle vyžaduje pro připojení ke zdrojům dat, které se nacházejí v privátní síti organizace nebo virtuální síti.

Brána dat se vyžaduje v případě, že:

  • Vytvoření toku dat v Power Query Online, který se připojuje k privátním datům organizace
  • Aktualizace toku dat, který se připojuje k privátním datům organizace

Tip

Toky dat vyžadují centralizovanou bránu dat ve standardním režimu. Brána v osobním režimu není při práci s toky dat podporovaná.

Dohled nad systémem

Protokol aktivit zaznamenává aktivity uživatelů, ke kterým dochází v služba Power BI. Správci Power BI můžou použít data protokolu aktivit shromážděná k provádění auditování , aby jim pomohli porozumět vzorům využití a přijetí. Protokol aktivit je také cenný pro podporu úsilí o zásady správného řízení, auditů zabezpečení a požadavků na dodržování předpisů. Při samoobslužné přípravě dat je obzvláště užitečné sledovat využití toků dat.

V dalším článku série se dozvíte o scénáři použití pokročilé přípravy dat.