Omówienie przepływów danych Gen2 w usłudze Microsoft Fabric

Ukończone

W naszym scenariuszu należy opracować semantyczny model, który może standandaryzować dane i zapewnić dostęp do firmy. Za pomocą przepływów danych Gen2 można połączyć się z różnymi źródłami danych, a następnie przygotować i przekształcić dane. Dane można umieścić bezpośrednio w usłudze Lakehouse lub użyć potoku danych dla innych miejsc docelowych.

Co to jest przepływ danych?

Przepływy danych to typ opartego na chmurze narzędzia ETL (Extract, Transform, Load) do tworzenia i wykonywania skalowalnych procesów przekształcania danych.

Przepływy danych Gen2 umożliwiają wyodrębnianie danych z różnych źródeł, przekształcanie ich przy użyciu szerokiej gamy operacji przekształcania i ładowanie ich do miejsca docelowego. Korzystanie z usługi Power Query Online umożliwia również interfejsowi wizualnemu wykonywanie tych zadań.

Zasadniczo przepływ danych obejmuje wszystkie przekształcenia, aby skrócić czas przygotowywania danych, a następnie można je załadować do nowej tabeli, dołączonej do potoku danych lub używanej jako źródło danych przez analityków danych.

Jak używać przepływów danych Gen2

Tradycyjnie inżynierowie danych poświęcają dużo czasu na wyodrębnianie, przekształcanie i ładowanie danych do formatu eksploatacyjnego na potrzeby analizy podrzędnej. Celem przepływów danych Gen2 jest zapewnienie łatwego, wielokrotnego użytku sposobu wykonywania zadań ETL przy użyciu dodatku Power Query Online.

Jeśli zdecydujesz się korzystać tylko z potoku danych, skopiujesz dane, a następnie użyj preferowanego języka kodowania, aby wyodrębnić, przekształcić i załadować dane. Alternatywnie możesz najpierw utworzyć przepływ danych Gen2, aby wyodrębnić i przekształcić dane. Dane można również załadować do magazynu lakehouse i innych miejsc docelowych. Teraz firma może łatwo korzystać z nadzorowanego modelu semantycznego.

Dodanie miejsca docelowego danych do przepływu danych jest opcjonalne, a przepływ danych zachowuje wszystkie kroki przekształcania. Aby wykonać inne zadania lub załadować dane do innego miejsca docelowego po przekształceniu, utwórz potok danych i dodaj działanie Dataflow Gen2 do aranżacji.

Inną opcją może być użycie potoku danych i przepływu danych Gen2 dla procesu ELT (wyodrębnianie, ładowanie, przekształcanie). W tej kolejności użyjesz potoku, aby wyodrębnić i załadować dane do preferowanego miejsca docelowego, takiego jak lakehouse. Następnie utworzysz przepływ danych Gen2, aby połączyć się z danymi usługi Lakehouse w celu oczyszczenia i przekształcenia danych. W takim przypadku można zaoferować przepływ danych jako wyselekcjonowy model semantyczny dla analityków danych w celu tworzenia raportów.

Przepływy danych można również partycjonować w poziomie. Po utworzeniu globalnego przepływu danych analitycy danych mogą używać przepływów danych do tworzenia wyspecjalizowanych modeli semantycznych dla określonych potrzeb.

Przepływy danych umożliwiają promowanie logiki ETL wielokrotnego użytku, która uniemożliwia utworzenie większej liczby połączeń ze źródłem danych. Przepływy danych oferują szeroką gamę przekształceń i mogą być uruchamiane ręcznie, zgodnie z harmonogramem odświeżania lub w ramach aranżacji potoku danych.

Napiwek

Umożliwia odnajdywanie przepływu danych, aby analitycy danych mogli również łączyć się z przepływem danych za pośrednictwem programu Power BI Desktop. Zmniejsza to przygotowanie danych do opracowywania raportów.

Korzyści i ograniczenia

Istnieje więcej niż jeden sposób na dane ETL lub ELT w usłudze Microsoft Fabric. Rozważ korzyści i ograniczenia dotyczące korzystania z przepływów danych Gen2.

Korzyści:

  • Rozszerzanie danych przy użyciu spójnych danych, takich jak tabela wymiarów daty standardowej.
  • Zezwalaj użytkownikom samoobsługowym na oddzielny dostęp do podzbioru magazynu danych.
  • Zoptymalizuj wydajność przy użyciu przepływów danych, co umożliwia wyodrębnianie danych raz na potrzeby ponownego użycia, co zmniejsza czas odświeżania danych dla wolniejszych źródeł.
  • Uproszczenie złożoności źródła danych przez uwidacznianie przepływów danych tylko większym grupom analityków.
  • Zapewnij spójność i jakość danych, umożliwiając użytkownikom czyszczenie i przekształcanie danych przed załadowaniem ich do miejsca docelowego.
  • Upraszczanie integracji danych dzięki udostępnianiu interfejsu z małą ilością kodu, który pozyskuje dane z różnych źródeł.

Ograniczenia:

  • Przepływy danych nie zastępują magazynu danych.
  • Zabezpieczenia na poziomie wiersza nie są obsługiwane.
  • Obszar roboczy pojemności sieci szkieletowej jest wymagany.