Udostępnij za pośrednictwem


Opracowywanie rozwiązań za pomocą przepływów danych

Przepływy danych usługi Power BI to oparte na przedsiębiorstwie rozwiązanie do przygotowywania danych, które umożliwia ekosystem danych gotowych do użycia, ponownego użycia i integracji. W tym artykule przedstawiono niektóre typowe scenariusze, linki do artykułów i inne informacje ułatwiające zrozumienie i używanie przepływów danych do ich pełnego potencjału.

Uzyskaj dostęp do funkcji Premium przepływów danych

Przepływy danych usługi Power BI w pojemnościach Premium udostępniają wiele kluczowych funkcji, które ułatwiają osiągnięcie większej skali i wydajności przepływów danych, takich jak:

  • Zaawansowane obliczenia przyspieszają przetwarzanie ETL i oferują możliwości trybu DirectQuery.
  • Odświeżanie przyrostowe, które umożliwia ładowanie danych zmienionych ze źródła.
  • Połączone jednostki, których można użyć do odwołowania się do innych przepływów danych.
  • Obliczone jednostki, których można użyć do kompilowania bloków konstrukcyjnych przepływów danych zawierających więcej logiki biznesowej.

Z tych powodów zalecamy używanie przepływów danych w pojemności Premium zawsze wtedy, gdy jest to możliwe. Przepływy danych używane w licencji usługi Power BI Pro mogą służyć do prostych, małych przypadków użycia.

Rozwiązanie

Dostęp do tych funkcji Premium przepływów danych jest możliwy na dwa sposoby:

  • Wyznaczyć pojemność Premium dla określonego obszaru roboczego i użyć własnej licencji Pro do tworzenia przepływów danych.
  • Własna licencja Premium na użytkownika (PPU), która wymaga, aby inni członkowie obszaru roboczego posiadali również licencję PPU.

Nie można używać przepływów danych PPU ani innej zawartości poza środowiskiem PPU, na przykład w środowisku Premium, innych SKU lub licencjach.

W przypadku pojemności Premium użytkownicy przepływów danych w programie Power BI Desktop nie potrzebują zindywidualizowanych licencji do korzystania z przepływów danych i publikowania ich w usłudze Power BI. Jednak aby opublikować w obszarze roboczym lub udostępnić wynikowy model semantyczny, potrzebujesz co najmniej licencji Pro.

W przypadku PPU każdy, kto tworzy lub korzysta z treści PPU, musi mieć licencję PPU. To wymaganie różni się od pozostałej części usługi Power BI tym, że musisz jawnie licencjonować wszystkich użytkowników z PPU. Nie można mieszać pojemności bezpłatnej, Pro, a nawet Premium z zawartością PPU, chyba że przeniesiesz workspace do pojemności Premium.

Wybór modelu zwykle zależy od rozmiaru i celów organizacji, ale mają zastosowanie następujące wskazówki.

Typ zespołu Premium za pojemność Premium na użytkownika
>5000 użytkowników
<5000 użytkowników

W przypadku małych zespołów PPU może wypełnić lukę między Free, Pro i Premium w zależności od pojemności. Jeśli masz większe potrzeby, najlepszym rozwiązaniem jest użycie pojemności Premium z użytkownikami, którzy mają licencje Pro.

Tworzenie przepływów danych użytkownika z zastosowanymi zabezpieczeniami

Załóżmy, że musisz utworzyć przepływy danych do konsumpcji, ale masz wymagania dotyczące zabezpieczeń.

Diagram opisujący scenariusz.

W tym scenariuszu prawdopodobnie istnieją dwa typy obszarów roboczych:

  • Obszary robocze back-endowe, w których tworzysz przepływy danych i budujesz logikę biznesową.

  • Obszary robocze użytkownika, w których chcesz uwidocznić niektóre przepływy danych lub tabele do określonej grupy użytkowników do użycia:

    • Obszar roboczy użytkownika zawiera połączone tabele wskazujące przepływy danych w obszarze roboczym zaplecza.
    • Użytkownicy mają dostęp do obszaru roboczego odbiorcy i nie mają dostępu do obszaru roboczego zaplecza.
    • Gdy użytkownik używa programu Power BI Desktop do uzyskiwania dostępu do przepływu danych w obszarze roboczym użytkownika, może zobaczyć przepływ danych. Ale ponieważ przepływ danych jest pusty w nawigatorze, połączone tabele nie są wyświetlane.

Omówienie tabel połączonych

Tabele połączone są po prostu wskaźnikiem do oryginalnych tabel przepływu danych i dziedziczą uprawnienia źródła. Jeśli usługa Power BI zezwoliła połączonej tabeli na korzystanie z uprawnienia docelowego, każdy użytkownik może obejść uprawnienie źródłowe, tworząc tabelę połączoną w miejscu docelowym wskazującym źródło.

Rozwiązanie: Korzystanie z tabel obliczeniowych

Jeśli masz dostęp do usługi Power BI Premium, możesz utworzyć obliczoną tabelę w miejscu docelowym, która odwołuje się do tabeli połączonej, która zawiera kopię danych z połączonej tabeli. Kolumny można usuwać za pomocą projekcji i usuwać wiersze za pomocą filtrów. Użytkownik z uprawnieniami do docelowego obszaru roboczego może uzyskać dostęp do danych za pośrednictwem tej tabeli.

Pochodzenie uprzywilejowanych osób pokazuje również przywołyny obszar roboczy i umożliwia użytkownikom łączenie się z powrotem w celu pełnego zrozumienia nadrzędnego przepływu danych. Dla tych użytkowników, którzy nie są uprzywilejowani, prywatność jest nadal przestrzegana. Wyświetlana jest tylko nazwa obszaru roboczego.

Na poniższym diagramie przedstawiono tę konfigurację. Po lewej stronie znajduje się wzorzec architektury. Po prawej stronie znajduje się przykład pokazujący podział i zabezpieczenie danych sprzedaży według regionu.

Diagram opisujący sposób używania tabel połączonych i przepływów danych.

Skrócenie czasu odświeżania przepływów danych

Wyobraź sobie, że masz duży przepływ danych, ale chcesz utworzyć modele semantyczne poza tym przepływem danych i skrócić czas wymagany do jego odświeżenia. Zazwyczaj odświeżanie trwa długo od źródła danych do przepływów danych do modelu semantycznego. Długotrwałe odświeżanie jest trudne do administrowania lub konserwacji.

Rozwiązanie: Użyj tabel z jawnie skonfigurowaną funkcją Włącz ładowanie dla tabel referencyjnych i nie wyłączaj ładowania.

Usługa Power BI obsługuje proste zarządzanie przepływami danych, jak określono w zrozumienie i optymalizacja odświeżania przepływów danych. Korzystanie z orkiestracji wymaga jawnego skonfigurowania wszystkich podrzędnych przepływów danych skonfigurowanych do włączania obciążenia.

Wyłączenie obciążenia jest zwykle odpowiednie tylko wtedy, gdy związane z tym nakłady na ładowanie wielu zapytań niwelują korzyści płynące z pracy z jednostką, z którą współpracujesz.

Wyłączenie obciążenia oznacza, że usługa Power BI nie przetwarza danego zapytania. Gdy jest ono używane jako składnik, czyli odwoływane w innych przepływach danych, oznacza to również, że Power BI nie traktuje go jako istniejącej tabeli, dla której możemy podać wskaźnik i przeprowadzać składanie oraz optymalizacje zapytań. W tym sensie wykonywanie przekształceń, takich jak łączenie lub scalanie, jest jedynie łączeniem lub scalaniem dwóch zapytań źródła danych. Takie operacje mogą mieć negatywny wpływ na wydajność, ponieważ usługa Power BI musi ponownie załadować ponownie obliczoną logikę, a następnie zastosować dowolną logikę.

Aby uprościć przetwarzanie zapytań przepływu danych i upewnić się, że są wykonywane optymalizacje aparatu, włącz obciążenie i upewnij się, że aparat obliczeniowy w przepływach danych usługi Power BI Premium jest ustawiony na ustawienie domyślne, które jest zoptymalizowane.

Włączenie ładowania pozwala również zachować pełny widok pochodzenia danych, ponieważ Power BI traktuje przepływ danych z wyłączonym ładowaniem jako nowy element. Jeśli pochodzenie danych jest dla Ciebie ważne, nie wyłączaj ładowania jednostek ani przepływów danych połączonych z innymi przepływami danych.

Skrócenie czasu odświeżania modeli semantycznych

Wyobraź sobie, że masz duży przepływ danych, ale chcesz utworzyć modele semantyczne na jego podstawie i zmniejszyć koordynację. Odświeżanie trwa długo od źródła danych do przepływów danych do modeli semantycznych, co zwiększa opóźnienie.

Rozwiązanie: Korzystanie z przepływów danych w trybie DirectQuery

Zapytanie bezpośrednie może być używane za każdym razem, gdy ulepszony silnik obliczeniowy obszaru roboczego (ECE) jest jawnie ustawiony na Włączone. To ustawienie jest przydatne, gdy masz dane, które nie muszą być ładowane bezpośrednio do modelu usługi Power BI. Jeśli konfigurujesz środowisko ECE, aby było Włączone po raz pierwszy, zmiany umożliwiające DirectQuery nastąpią podczas następnego odświeżenia. Należy je odświeżyć po włączeniu, aby zmiany miały miejsce natychmiast. Odświeżanie przy początkowym ładowaniu przepływu danych może być wolniejsze, ponieważ usługa Power BI zapisuje dane zarówno w magazynie, jak i w zarządzanym silniku SQL.

Podsumowując, użycie trybu DirectQuery z przepływami danych umożliwia następujące ulepszenia procesów usługi Power BI i przepływów danych:

  • Unikaj oddzielnych harmonogramów odświeżania: tryb DirectQuery łączy się bezpośrednio z przepływem danych, co eliminuje konieczność utworzenia zaimportowanego modelu semantycznego. W związku z tym użycie trybu DirectQuery z przepływami danych oznacza, że nie potrzebujesz już oddzielnych harmonogramów odświeżania dla przepływu danych i modelu semantycznego w celu zapewnienia synchronizacji danych.
  • Filtrowanie danych: zapytanie bezpośrednie jest przydatne do pracy nad filtrowanym widokiem danych wewnątrz przepływu danych. Jeśli chcesz filtrować dane, aby pracować z mniejszym podzbiorem danych w swoim przepływie danych, możesz użyć DirectQuery (i ECE) do filtrowania danych i pracy z potrzebnym filtrowanym podzbiorem.

Ogólnie rzecz biorąc, użycie trybu DirectQuery korzysta z aktualnych danych w modelu semantycznym, co prowadzi do wolniejszego działania raportów w porównaniu do trybu importu. Rozważ to podejście tylko wtedy, gdy:

  • Twój przypadek użycia wymaga danych o małych opóźnieniach pochodzących z przepływu danych.
  • Dane przepływu danych są duże.
  • Importowanie byłoby zbyt czasochłonne.
  • Jesteś gotowy poświęcić buforowaną wydajność na rzecz aktualnych danych.

Rozwiązanie: użyj konektora przepływów danych, aby włączyć składanie zapytań i przyrostowe odświeżanie na potrzeby importu.

Ujednolicony łącznik Przepływy danych może znacznie skrócić czas oceny kroków wykonywanych w obliczonych jednostkach, takich jak wykonywanie sprzężeń, odrębnych filtrów i grupowanie według operacji. Istnieją dwie konkretne korzyści:

  • Użytkownicy końcowi łączący się z łącznikiem Przepływy danych w programie Power BI Desktop mogą korzystać z lepszej wydajności podczas tworzenia, ponieważ nowy łącznik obsługuje składanie zapytań.
  • Operacje odświeżania modelu semantycznego mogą również przenosić się do ulepszonego silnika obliczeniowego, co oznacza, że nawet odświeżanie przyrostowe z modelu semantycznego może zostać przeniesione do przepływu danych. Ta funkcja zwiększa wydajność odświeżania i potencjalnie zmniejsza opóźnienie między cyklami odświeżania.

Aby włączyć tę funkcję dla dowolnego przepływu danych Premium, upewnij się, że silnik obliczeniowy jest jawnie ustawiony na Włącz. Następnie użyj łącznika do przepływów danych w programie Power BI Desktop. Aby korzystać z tej funkcji, należy użyć wersji programu Power BI Desktop lub nowszej z sierpnia 2021 r.

Aby korzystać z tej funkcji dla istniejących rozwiązań, musisz mieć subskrypcję Premium lub Premium na użytkownika. Może być również konieczne wprowadzenie pewnych zmian w przepływie danych zgodnie z opisem w temacie Korzystanie z ulepszonego aparatu obliczeniowego. Aby korzystać z nowego łącznika, należy zaktualizować wszystkie istniejące zapytania dodatku Power Query, zastępując element PowerBI.Dataflows w sekcji ŹródłoPowerPlatform.Dataflows.

Tworzenie złożonych przepływów danych w dodatku Power Query

Wyobraź sobie, że masz strumień danych obejmujący setki milionów wierszy, i chcesz stworzyć złożoną logikę biznesową oraz przeprowadzić zaawansowane przekształcenia biznesowe. Chcesz stosować najlepsze rozwiązania dotyczące pracy z dużymi przepływami danych. Aby szybko wykonać, potrzebne są również podglądy przepływów danych. Masz jednak dziesiątki kolumn i miliony wierszy danych.

Rozwiązanie: Użyj widoku schematu

Możesz użyć widoku schematu, który jest przeznaczony do optymalizacji przepływu podczas pracy nad Twoimi operacjami na poziomie schematu, umieszczając informacje o kolumnach zapytania na pierwszym planie. Widok schematu zapewnia kontekstowe interakcje w celu kształtowania struktury danych. Widok schematu zapewnia również mniejsze opóźnienia operacji, ponieważ wymaga obliczenia tylko metadanych kolumny, a nie pełnych wyników danych.

Praca z większymi źródłami danych

Wyobraź sobie, że uruchamiasz zapytanie w systemie źródłowym, ale nie chcesz zapewnić bezpośredniego dostępu do systemu ani demokratyzować dostępu. Planujesz umieścić go w przepływie danych.

Rozwiązanie 1. Używanie widoku dla zapytania lub optymalizowanie zapytania

Użycie zoptymalizowanego źródła danych i zapytania jest najlepszą opcją. Często źródło danych działa najlepiej z zapytaniami przeznaczonymi dla niego. Dodatek Power Query rozwija możliwości składania zapytań, aby delegować te obciążenia. Usługa Power BI udostępnia również wskaźniki składania kroków w usłudze Power Query Online. Przeczytaj więcej o typach wskaźników w dokumentacji wskaźników krokowych.

Rozwiązanie 2. Używanie zapytania natywnego

Możesz również użyć funkcji Value.NativeQuery() M. W trzecim parametrze ustaw wartość EnableFolding=true . Zapytanie natywne jest udokumentowane w tej witrynie internetowej dla łącznika Postgres. Działa również w przypadku łącznika programu SQL Server.

Rozwiązanie 3. Podział przepływu danych na przepływy danych do pozyskiwania i konsumowania danych w celu umożliwienia korzystania z ECE i jednostek powiązanych.

Dzieląc przepływ danych na oddzielne przepływy pozyskiwania i konsumowania, możesz zyskać dostęp do możliwości oferowanych przez ECE i połączone jednostki. Więcej informacji na temat tego wzorca i innych można uzyskać w dokumentacji najlepszych rozwiązań.

Upewnij się, że klienci korzystają z przepływów danych, gdy jest to możliwe

Załóżmy, że masz wiele przepływów danych, które służą do typowych celów, takich jak zgodne wymiary, takie jak klienci, tabele danych, produkty i lokalizacje geograficzne. Przepływy danych są już dostępne na wstążce usługi Power BI. Najlepiej, aby klienci używali głównie utworzonych przepływów danych.

Rozwiązanie: używanie poręczenia do certyfikowania i podwyższania poziomu przepływów danych

Aby dowiedzieć się więcej na temat sposobu działania rekomendacji, zobacz Rekomendowanie: promowanie i certyfikowanie zawartości Power BI.

Programowanie i automatyzacja w przepływach danych usługi Power BI

Załóżmy, że masz wymagania biznesowe dotyczące automatyzowania importów, eksportów, odświeżeń oraz bardziej złożonej orkiestracji i działań realizowanych poza usługą Power BI. Istnieje kilka opcji, które należy włączyć, zgodnie z opisem w poniższej tabeli.

Typ Mechanizm
Użyj szablonów Power Automate . Bez kodowania
Użyj skryptów automatyzacji w programie PowerShell. Skrypty automatyzacji
Tworzenie własnej logiki biznesowej przy użyciu interfejsów API. Interfejs programistyczny aplikacji REST

Aby uzyskać więcej informacji na temat odświeżania, zobacz Omówienie i optymalizowanie odświeżania przepływów danych.

Upewnij się, że chronisz zasoby danych podrzędne

Za pomocą etykiet poufności można zastosować klasyfikację danych i wszystkie reguły skonfigurowane dla elementów podrzędnych łączących się z przepływami danych. Aby dowiedzieć się więcej na temat etykiet poufności, zobacz Etykiety poufności w usłudze Power BI. Aby przejrzeć dziedziczenie, zobacz Dziedziczenie podrzędne etykiety poufności w usłudze Power BI.

Obsługa wielu regionów geograficznych

Wielu klientów ma obecnie potrzebę spełnienia wymagań dotyczących niezależności i rezydencji danych. Możesz ukończyć ręczną konfigurację obszaru roboczego przepływów danych, aby obsługiwał wiele lokalizacji.

Przepływy danych obsługują wiele regionów geograficznych, gdy korzystają z funkcji "bring-your-own-storage-account" (przynieś swoje własne konto magazynowania). Ta funkcja została opisana w temacie Konfigurowanie magazynu przepływu danych w celu korzystania z usługi Azure Data Lake Gen 2. Obszar roboczy musi być pusty przed dołączeniem tej funkcji. Dzięki tej konkretnej konfiguracji można przechowywać dane przepływu danych w wybranych regionach geograficznych.

Zapewnianie ochrony zasobów danych za siecią wirtualną

Wielu klientów musi obecnie zabezpieczyć swoje zasoby danych za prywatnym punktem końcowym. W tym celu użyj sieci wirtualnych i bramy, aby zachować zgodność. W poniższej tabeli opisano bieżącą obsługę sieci wirtualnej i wyjaśniono, jak korzystać z przepływów danych w celu zapewnienia zgodności i ochrony zasobów danych.

Scenariusz Stan
Odczytywanie źródeł danych sieci wirtualnej za pośrednictwem bramy lokalnej. Obsługiwane za pośrednictwem bramy lokalnej
Zapisywanie danych na koncie z etykietą poufności w ramach sieci wirtualnej przy użyciu bramy lokalnej. Jeszcze nie obsługiwane

Następujące artykuły zawierają więcej informacji na temat przepływów danych i usługi Power BI: