Scenariusze użycia usługi Power BI: zaawansowane przygotowywanie danych
Uwaga
Ten artykuł stanowi część serii artykułów dotyczących planowania implementacji usługi Power BI. Ta seria koncentruje się głównie na środowisku usługi Power BI w usłudze Microsoft Fabric. Aby zapoznać się z wprowadzeniem do serii, zobacz Planowanie implementacji usługi Power BI.
Przygotowywanie danych (czasami określane jako ETL, czyli skrót od działań wyodrębniania, przekształcania i ładowania) często wiąże się z dużym nakładem pracy. Czas, umiejętność i wysiłek związany z zbieraniem, czyszczeniem, łączeniem i wzbogacaniem danych zależy od jakości i struktury danych źródłowych.
Inwestowanie czasu i nakładu pracy w scentralizowane przygotowywanie danych pomaga:
- Zwiększ możliwości ponownego zastosowania i zyskaj maksymalną wartość dzięki wysiłkom przygotowywania danych.
- Zwiększ możliwość zapewnienia spójnych danych wielu zespołom.
- Zmniejsz poziom nakładu pracy wymaganego przez innych twórców zawartości.
- Osiągnij skalę i wydajność.
Zaawansowany scenariusz użycia przygotowywania danych rozszerza się w scenariuszu samoobsługowego przygotowywania danych. Zaawansowane przygotowywanie danych polega na zwiększeniu ponownego użycia przepływu danych przez wielu użytkowników w różnych zespołach i w różnych przypadkach użycia.
Oddzielne obszary robocze uporządkowane według celu przepływu danych są przydatne, gdy dane wyjściowe przepływu danych są udostępniane wielu twórcom modeli semantycznych, zwłaszcza gdy znajdują się one w różnych zespołach w organizacji. Oddzielne obszary robocze są również przydatne do zarządzania rolami zabezpieczeń, gdy osoby, które tworzą przepływy danych i zarządzają nimi, różnią się od użytkowników.
Uwaga
Zaawansowany scenariusz przygotowywania danych jest drugim scenariuszem przygotowywania danych. Ten scenariusz opiera się na tym, co można zrobić za pomocą scentralizowanych przepływów danych zgodnie z opisem w scenariuszu samoobsługowego przygotowywania danych.
Zaawansowany scenariusz przygotowywania danych jest jednym ze scenariuszy samoobsługowej analizy biznesowej. Jednak scentralizowany członek zespołu może używać technik w podobny sposób do opisanych w zarządzanym scenariuszu samoobsługowej analizy biznesowej . Aby uzyskać pełną listę scenariuszy samoobsługi, zobacz artykuł Scenariusze użycia usługi Power BI.
W przypadku zwięzłości niektóre aspekty opisane w temacie dotyczącym współpracy i dostarczania zawartości nie zostały omówione w tym artykule. Aby uzyskać pełne pokrycie, najpierw przeczytaj te artykuły.
Diagram scenariusza
Napiwek
Zalecamy zapoznanie się ze scenariuszem użycia samoobsługowego przygotowywania danych, jeśli nie znasz go. Zaawansowany scenariusz samoobsługowego przygotowywania danych opiera się na tym scenariuszu.
Ten zaawansowany scenariusz przygotowywania danych koncentruje się na:
- Użycie oddzielnych przepływów danych na podstawie celu: przemieszczania, przekształcania lub finalnego. Zalecamy używanie komponowalnych bloków konstrukcyjnych w celu uzyskania większego ponownego użycia w różnych kombinacjach w celu obsługi określonych wymagań użytkownika. Bloki konstrukcyjne z możliwością kompilowania zostały opisane w dalszej części tego artykułu.
- Korzystanie z oddzielnych obszarów roboczych obsługujących twórców przepływów danych lub użytkowników przepływu danych. Osoby modelające dane, które korzystają z przepływów danych, mogą znajdować się w różnych zespołach i/lub mają różne przypadki użycia.
- Korzystanie z tabel połączonych (nazywanych również połączonymi jednostkami), tabel obliczeniowych (nazywanych również jednostkami obliczeniowymi) i ulepszonego aparatu obliczeniowego.
Uwaga
Czasami terminy semantyczne i model danych są używane zamiennie. Ogólnie rzecz biorąc, z perspektywy usługa Power BI, jest określany jako model semantyczny. Z perspektywy programowania jest on określany jako model danych (lub model w skrócie). W tym artykule oba terminy mają takie samo znaczenie. Podobnie semantyczny twórca modelu i modeler danych mają takie samo znaczenie.
Na poniższym diagramie przedstawiono ogólne omówienie najpopularniejszych akcji użytkownika i składników usługi Power BI, które obsługują zaawansowany scenariusz przygotowywania danych.
Napiwek
Zachęcamy do pobrania diagramu scenariusza, jeśli chcesz go osadzić w prezentacji, dokumentacji lub wpisie w blogu albo wydrukować go jako plakat na ścianie. Ponieważ jest to obraz skalowalnej grafiki wektorowej (SVG), można go skalować w górę lub w dół bez utraty jakości.
Diagram scenariusza przedstawia następujące akcje użytkownika, narzędzia i funkcje:
Produkt | Opis |
---|---|
Twórca przepływu danych opracowuje kolekcję tabel w przepływie danych. W przypadku przepływu danych przeznaczonego do ponownego użycia często (ale nie jest to wymagane), że twórca należy do scentralizowanego zespołu obsługującego użytkowników w granicach organizacji (takich jak IT, analiza biznesowa przedsiębiorstwa lub Centrum doskonałości). | |
Przepływ danych łączy się z danymi z co najmniej jednego źródła danych. | |
Niektóre źródła danych mogą wymagać lokalnej bramy danych lub bramy sieci wirtualnej na potrzeby odświeżania danych, takich jak te, które znajdują się w prywatnej sieci organizacyjnej. Te bramy są używane zarówno do tworzenia przepływu danych w usłudze Power Query Online, jak i odświeżania przepływu danych. | |
Wszystkie zaangażowane obszary robocze mają ustawiony tryb licencji na pojemność sieci szkieletowej, pojemność Premium, Premium na użytkownika lub osadzony. Te tryby licencji umożliwiają korzystanie z tabel połączonych i tabel obliczeniowych w obszarach roboczych, które są wymagane w tym scenariuszu. | |
Twórcy przepływów danych opracowują przepływy danych przy użyciu usługi Power Query Online, która jest internetową wersją dodatku Power Query. | |
Przejściowy przepływ danych jest tworzony w obszarze roboczym przeznaczonym do scentralizowanego zarządzania przepływami danych. Przejściowy przepływ danych kopiuje nieprzetworzone dane z źródła. Niewiele, jeśli istnieje, przekształcenia są stosowane. | |
Przepływ danych przekształcania (nazywany również oczyszczonym przepływem danych) jest tworzony w tym samym obszarze roboczym. Źródło danych przy użyciu tabel połączonych do przejściowego przepływu danych. Obliczone tabele obejmują kroki przekształcania, które umożliwiają przygotowanie, oczyszczenie i zmianę danych. | |
Twórcy przepływu danych mają dostęp do zarządzania zawartością w obszarze roboczym przeznaczonym do scentralizowanego zarządzania przepływami danych. | |
Istnieje co najmniej jeden inny obszar roboczy, który ma zapewnić dostęp do końcowego przepływu danych, który dostarcza dane gotowe do produkcji do modeli danych. | |
Końcowy przepływ danych jest tworzony w obszarze roboczym dostępnym dla osób modelujących dane. Źródła danych są używane przez tabele połączone do przepływu danych przekształcania. Obliczone tabele reprezentują przygotowane dane wyjściowe widoczne dla osób modelujących dane, którym przyznano rolę podglądu obszaru roboczego. | |
Twórcy modelu semantycznego (którzy korzystają z danych wyjściowych przepływu danych) mają dostęp do obszaru roboczego zawierającego końcowe dane wyjściowe przepływu danych. Twórcy przepływu danych mają również dostęp do zarządzania zawartością i publikowania jej w obszarze roboczym (nie przedstawiono na diagramie scenariusza). | |
Twórcy modelu semantycznego używają końcowego przepływu danych jako źródła danych podczas tworzenia modelu danych w programie Power BI Desktop. Gdy wszystko będzie gotowe, twórca semantycznego modelu publikuje plik programu Power BI Desktop (pbix), który zawiera model danych do usługa Power BI (nie przedstawiono na diagramie scenariusza). | |
Administratorzy sieci szkieletowej zarządzają ustawieniami w portalu administracyjnym. | |
W portalu administracyjnym administratorzy usługi Power BI mogą skonfigurować połączenia platformy Azure w celu przechowywania danych przepływu danych na koncie usługi Azure Data Lake Storage Gen2 (ADLS Gen2). Ustawienia obejmują przypisywanie konta magazynu na poziomie dzierżawy i włączanie uprawnień magazynu na poziomie obszaru roboczego. | |
Domyślnie przepływy danych przechowują dane przy użyciu magazynu wewnętrznego zarządzanego przez usługa Power BI. Opcjonalnie dane wyjściowe przepływu danych mogą być przechowywane na koncie usługi ADLS Gen2 organizacji. | |
Administratorzy sieci szkieletowej nadzorują i monitorują aktywność w portalu sieci szkieletowej. |
Kwestie kluczowe
Poniżej przedstawiono niektóre kluczowe kwestie, które należy podkreślić na temat zaawansowanego scenariusza przygotowywania danych.
Przepływy danych
Przepływ danych składa się z kolekcji tabel (nazywanych również jednostkami). Każda tabela jest definiowana przez zapytanie, które zawiera kroki przygotowywania danych wymagane do załadowania tabeli z danymi. Wszystkie prace nad utworzeniem przepływu danych są wykonywane w usłudze Power Query Online. Przepływ danych można utworzyć w wielu produktach, w tym w usługach Power Apps, Dynamics 365 Customer Insights i Power BI.
Uwaga
Nie można tworzyć przepływów danych w obszarze roboczym osobistym w usługa Power BI.
Typy przepływów danych
Użycie komponowalnych bloków konstrukcyjnych to zasada projektowania, która umożliwia zarządzanie, wdrażanie i zabezpieczanie składników systemu, a następnie używanie ich w różnych kombinacjach. Tworzenie modułowych, samodzielnych przepływów danych specyficznych dla określonego celu jest najlepszym rozwiązaniem. Pomagają one w osiągnięciu ponownego użycia danych i skali przedsiębiorstwa. Modułowe przepływy danych są również łatwiejsze do zarządzania i testowania.
Na diagramie scenariusza przedstawiono trzy typy przepływów danych: przejściowy przepływ danych, przepływ danych przekształcania i końcowy przepływ danych.
Przejściowy przepływ danych
Przejściowy przepływ danych (nazywany czasem przepływem danych wyodrębniania danych) kopiuje nieprzetworzone dane zgodnie ze źródłem. Wyodrębnienie danych pierwotnych z minimalną transformacją oznacza, że przepływy danych transformacji podrzędnej (opisane w dalszej części) mogą używać przejściowego przepływu danych jako źródła. Ta modułowość jest przydatna w następujących przypadkach:
- Dostęp do źródła danych jest ograniczony do wąskich okien czasowych i/lub do kilku użytkowników.
- Spójność czasowa jest wymagana, aby zapewnić, że wszystkie podrzędne przepływy danych (i powiązane modele semantyczne) dostarczają dane wyodrębnione ze źródła danych w tym samym czasie.
- Zmniejszenie liczby zapytań przesyłanych do źródła danych jest konieczne ze względu na ograniczenia systemu źródłowego lub możliwość obsługi zapytań analitycznych.
- Kopia danych źródłowych jest przydatna w przypadku procesów uzgodnień i weryfikacji jakości danych.
Przekształcanie przepływu danych
Przepływ danych przekształcania (nazywany czasem oczyszczonym przepływem danych) pobiera dane z połączonych tabel łączących się z przejściowym przepływem danych. Najlepszym rozwiązaniem jest oddzielenie przekształceń od procesu wyodrębniania danych.
Przepływ danych przekształcania obejmuje wszystkie kroki przekształcania wymagane do przygotowania i zmiany struktury danych. Jednak w tej warstwie nadal koncentruje się na możliwości ponownego użycia, aby zapewnić, że przepływ danych jest odpowiedni dla wielu przypadków użycia i celów.
Końcowy przepływ danych
Końcowy przepływ danych reprezentuje przygotowane dane wyjściowe. Niektóre dodatkowe przekształcenia mogą wystąpić na podstawie przypadku użycia i celu. W przypadku analizy tabela schematu gwiazdy (wymiar lub fakt) jest preferowanym projektem końcowego przepływu danych.
Obliczone tabele są widoczne dla modelowania danych, którym przyznano rolę przeglądarki obszaru roboczego. Ten typ tabeli jest opisany w poniższym temacie typów tabel przepływu danych.
Uwaga
Magazyny typu data lake często mają strefy, takie jak brąz, srebro i złoto. Trzy typy przepływów danych reprezentują podobny wzorzec projektu. Aby podejmować najlepsze możliwe decyzje dotyczące architektury danych, należy zastanowić się, kto będzie przechowywać dane, oczekiwane wykorzystanie danych oraz poziom umiejętności wymagany przez osoby, które uzyskują dostęp do danych.
Obszary robocze dla przepływów danych
Jeśli chcesz utworzyć wszystkie przepływy danych w jednym obszarze roboczym, znacznie ograniczyłoby to zakres możliwości ponownego korzystania. Użycie jednego obszaru roboczego ogranicza również opcje zabezpieczeń dostępne podczas obsługi wielu typów użytkowników w zespołach i/lub w różnych przypadkach użycia. Zalecamy używanie wielu obszarów roboczych. Zapewniają one lepszą elastyczność, gdy trzeba obsługiwać twórców samoobsługi z różnych obszarów organizacji.
Dwa typy obszarów roboczych pokazanych na diagramie scenariusza obejmują:
- Obszar roboczy 1: przechowuje centralnie zarządzane przepływy danych (czasami nazywane obszarem roboczym zaplecza). Zawiera on zarówno przepływy danych przemieszczania, jak i przekształcania, ponieważ są zarządzane przez te same osoby. Twórcy przepływów danych często pochodzą ze scentralizowanego zespołu, takiego jak IT, BI lub Centrum Doskonałości. Powinny być przypisane do roli administratora, członka lub współautora obszaru roboczego.
- Obszar roboczy 2: przechowuje i dostarcza końcowe dane wyjściowe przepływu danych użytkownikom danych (czasami nazywanym obszarem roboczym użytkownika). Twórcy modelu semantycznego są często analitykami samoobsługi, użytkownikami zasilania lub inżynierami danych obywateli. Powinny być przypisane do roli osoby przeglądanej obszaru roboczego, ponieważ muszą korzystać tylko z danych wyjściowych końcowego przepływu danych. Aby obsługiwać twórców modeli semantycznych z różnych obszarów organizacji, możesz utworzyć wiele obszarów roboczych, takich jak ten, na podstawie przypadków użycia i potrzeb związanych z zabezpieczeniami.
Napiwek
Zalecamy przejrzenie sposobów obsługi twórców modeli semantycznych zgodnie z opisem w scenariuszu użycia samoobsługowego przygotowywania danych. Ważne jest, aby zrozumieć, że twórcy semantycznych modeli mogą nadal korzystać z pełnych możliwości dodatku Power Query w programie Power BI Desktop. Mogą oni dodać kroki zapytania, aby jeszcze bardziej przekształcić dane przepływu danych lub scalić dane wyjściowe przepływu danych z innymi źródłami.
Typy tabel przepływu danych
Na diagramie scenariusza przedstawiono trzy typy tabel przepływu danych (znane również jako jednostki).
- Tabela Standardowa: wykonuje zapytania względem zewnętrznego źródła danych, takiego jak baza danych. Na diagramie scenariusza standardowe tabele są przedstawione w przejściowym przepływie danych.
- Tabela połączona: odwołuje się do tabeli z innego przepływu danych. Tabela połączona nie duplikuje danych. Zamiast tego umożliwia wielokrotne ponowne użycie standardowej tabeli w wielu celach. Połączone tabele nie są widoczne dla osób przeglądających obszar roboczy, ponieważ dziedziczą uprawnienia z oryginalnego przepływu danych. Na diagramie scenariusza tabele połączone są przedstawiane dwa razy:
- W przepływie danych przekształcania na potrzeby uzyskiwania dostępu do danych w przejściowym przepływie danych.
- W ostatnim przepływie danych na potrzeby uzyskiwania dostępu do danych w przepływie danych przekształcania.
- Tabela obliczana: wykonuje dodatkowe obliczenia przy użyciu innego przepływu danych jako źródła. Obliczone tabele umożliwiają dostosowywanie danych wyjściowych zgodnie z potrzebami dla poszczególnych przypadków użycia. Na diagramie scenariusza tabele obliczane są przedstawiane dwa razy:
- W przepływie danych przekształcania do wykonywania typowych przekształceń.
- W ostatnim przepływie danych do dostarczania danych wyjściowych twórcom modelu semantycznego. Ponieważ obliczone tabele ponownie utrwalają dane (po odświeżeniu przepływu danych), modelowanie danych może uzyskiwać dostęp do obliczonych tabel w końcowym przepływie danych. W takim przypadku osoby modelające dane powinny mieć dostęp z rolą podglądu obszaru roboczego.
Uwaga
Istnieje wiele technik projektowania, wzorców i najlepszych rozwiązań , które mogą pobierać przepływy danych z samoobsługi do gotowości przedsiębiorstwa. Ponadto przepływy danych w obszarze roboczym, który ma tryb licencji ustawiony na Premium na użytkownika lub pojemność Premium, mogą korzystać z zaawansowanych funkcji. Połączone tabele i obliczone tabele (znane również jako jednostki) to dwie zaawansowane funkcje, które są niezbędne do zwiększenia możliwości ponownego obsługi przepływów danych.
Ulepszony aparat obliczeniowy
Ulepszony aparat obliczeniowy to zaawansowana funkcja dostępna w usłudze Power BI Premium.
Ważne
Czasami w tym artykule opisano usługę Power BI Premium lub jej subskrypcje pojemności (jednostki SKU P). Należy pamiętać, że firma Microsoft obecnie konsoliduje opcje zakupu i cofnie usługę Power BI Premium na jednostki SKU pojemności. Nowi i istniejący klienci powinni rozważyć zakup subskrypcji pojemności sieci szkieletowej (jednostki SKU F).
Aby uzyskać więcej informacji, zobacz Ważne aktualizacje dostępne w licencjonowaniu usługi Power BI Premium i Power BI Premium — często zadawane pytania.
Ulepszony aparat obliczeniowy zwiększa wydajność połączonych tabel (w tym samym obszarze roboczym), które odwołują się (link do) przepływu danych. Aby uzyskać maksymalną korzyść z ulepszonego aparatu obliczeniowego:
- Podziel przepływy danych przemieszczania i przekształcania.
- Użyj tego samego obszaru roboczego, aby przechowywać przepływy danych przemieszczania i przekształcania.
- Zastosuj złożone operacje, które mogą składać zapytania na wczesnym etapie wykonywania zapytań. Ustalanie priorytetów operacji składanych może pomóc w osiągnięciu najlepszej wydajności odświeżania.
- Użyj odświeżania przyrostowego, aby skrócić czas trwania odświeżania i zużycie zasobów.
- Przeprowadzaj testy wcześnie i często w fazie opracowywania.
Odświeżanie przepływu danych i modelu semantycznego
Przepływ danych to źródło danych dla modeli semantycznych. W większości przypadków jest zaangażowanych wiele harmonogramów odświeżania danych: jeden dla każdego przepływu danych i jeden dla każdego modelu semantycznego. Alternatywnie można użyć trybu DirectQuery z modelu semantycznego do przepływu danych, który wymaga usługi Power BI Premium i ulepszonego aparatu obliczeniowego (nie pokazanego na diagramie scenariusza).
Azure Data Lake Storage Gen2
Konto usługi ADLS Gen2 jest określonym typem konta usługi Azure Storage, które ma włączoną hierarchiczną przestrzeń nazw . Usługa ADLS Gen2 ma zalety wydajności, zarządzania i zabezpieczeń dla obciążeń analitycznych operacyjnych. Domyślnie przepływy danych usługi Power BI używają magazynu wewnętrznego, który jest wbudowanym kontem usługi Data Lake zarządzanym przez usługa Power BI. Opcjonalnie organizacje mogą korzystać z własnego magazynu data lake , łącząc się z kontem usługi ADLS Gen2 w swojej organizacji.
Oto kilka zalet korzystania z własnego magazynu data lake:
- Użytkownicy (lub procesy) mogą bezpośrednio uzyskiwać dostęp do danych przepływu danych przechowywanych w usłudze Data Lake. Jest to przydatne, gdy ponowne użycie przepływu danych wykracza poza usługę Power BI. Na przykład usługa Azure Data Factory może uzyskać dostęp do danych przepływu danych.
- Inne narzędzia lub systemy mogą zarządzać danymi w usłudze Data Lake. W takim przypadku usługa Power BI może korzystać z danych, a nie zarządzać nimi (nie przedstawiono na diagramie scenariusza).
W przypadku korzystania z tabel połączonych lub tabel obliczeniowych upewnij się, że każdy obszar roboczy jest przypisany do tego samego konta magazynu usługi ADLS Gen2.
Uwaga
Dane przepływu danych w usłudze ADLS Gen2 są przechowywane w kontenerze specyficznym dla usługi Power BI. Ten kontener jest przedstawiony na diagramie scenariusza użycia samoobsługowego przygotowywania danych.
Ustawienia portalu administracyjnego
Istnieją dwa ważne ustawienia do zarządzania w portalu administracyjnym:
- Połączenia platformy Azure: sekcja Połączenia platformy Azure w portalu administracyjnym zawiera ustawienie umożliwiające skonfigurowanie połączenia z kontem usługi ADLS Gen2. To ustawienie umożliwia administratorowi usługi Power BI przenoszenie własnego magazynu data lake do przepływów danych. Po skonfigurowaniu obszary robocze mogą używać tego konta usługi Data Lake na potrzeby magazynu.
- Magazyn na poziomie obszaru roboczego: administrator usługi Power BI może ustawić uprawnienia magazynu na poziomie obszaru roboczego. Po włączeniu tego ustawienia administratorzy obszaru roboczego mogą używać innego konta magazynu do tego ustawionego na poziomie dzierżawy. Włączenie tego ustawienia jest przydatne w przypadku zdecentralizowanych jednostek biznesowych, które zarządzają własnym magazynem data lake na platformie Azure.
Konfiguracja bramy
Zazwyczaj lokalna brama danych jest wymagana do nawiązywania połączenia ze źródłami danych, które znajdują się w prywatnej sieci organizacyjnej lub sieci wirtualnej.
Brama danych jest wymagana, gdy:
- Tworzenie przepływu danych w usłudze Power Query Online łączącego się z prywatnymi danymi organizacyjnymi.
- Odświeżanie przepływu danych łączącego się z prywatnymi danymi organizacyjnymi.
Napiwek
Przepływy danych wymagają scentralizowanej bramy danych w trybie standardowym. Brama w trybie osobistym nie jest obsługiwana podczas pracy z przepływami danych.
Nadzór systemowy
Dziennik aktywności rejestruje działania użytkowników, które występują w usługa Power BI. Administratorzy usługi Power BI mogą używać zebranych danych dziennika aktywności do przeprowadzania inspekcji w celu ułatwienia im zrozumienia wzorców użycia i wdrożenia. Dziennik aktywności jest również przydatny do wspierania działań związanych z ładem, inspekcji zabezpieczeń i wymagań dotyczących zgodności. W zaawansowanym scenariuszu przygotowywania danych dane dziennika aktywności są przydatne do śledzenia zarządzania przepływami danych i korzystania z nich.
Powiązana zawartość
Inne przydatne scenariusze ułatwiające podejmowanie decyzji dotyczących implementacji usługi Power BI można znaleźć w artykule Scenariusze użycia usługi Power BI.