Udostępnij za pośrednictwem


Eksport danych Dataverse w formacie Delta Lake

Użyj Azure Synapse Link for Dataverse , aby wyeksportować dane Microsoft Dataverse do Azure Synapse Analytics w formacie Delta Lake. Następnie zbadaj swoje dane i przyspiesz czas uzyskania informacji. Ten artykuł zawiera następujące informacje i pokazuje, jak wykonać następujące zadania:

  • Objaśnia Delta Lake i Parquet oraz dlaczego należy eksportować dane w tym formacie.
  • Wyeksportuj dane Dataverse do obszaru roboczego Azure Synapse Analytics w formacie Delta Lake za pomocą Azure Synapse Link.
  • Monitoruj Azure Synapse Link i konwersję danych.
  • Wyświetl swoje dane z Azure Data Lake Storage Gen2.
  • Wyświetl swoje dane z programu Synapse Workspace.

Ważne

  • Jeśli uaktualniasz plik CSV do usługi Delta Lake z istniejącymi widokami niestandardowymi, zalecamy zaktualizowanie skryptu w celu zastąpienia wszystkich tabel partycjonowanych na niepodzielone. Zrób to, szukając wystąpień _partitioned i zastąp je pustym ciągiem znaków.
  • W przypadku konfiguracji Dataverse, Tylko dołączaniejest domyślnie włączone, aby eksportować dane CSV w trybie appendonly. Ale tabela Delta Lake będzie miała strukturę aktualizacji na miejscu, ponieważ konwersja Delta Lake pochodzi z okresowego procesu scalania.
  • Nie ma żadnych kosztów związanych z tworzeniem puli zadań platformy Spark. Opłaty są ponoszone tylko wtedy, gdy zadanie Spark jest wykonywane na docelowej puli zadań Spark i instancja Spark jest inicjowana na żądanie. Koszty te są związane z wykorzystaniem Azure Synapse workspace Spark i są rozliczane miesięcznie. Koszt przeprowadzenia obliczeń Spark zależy głównie od interwału czasowego dla aktualizacji przyrostowej oraz wolumenu danych. Więcej informacji: Ceny usługi Azure Synapse Analytics
  • Istotne jest, aby podczas decydowania o używaniu tej funkcji wziąć pod uwagę te dodatkowe koszty, ponieważ nie są one opcjonalne i należy je uiścić, aby móc kontynuować korzystanie z tej funkcji.
  • Ogłoszono koniec wsparcia (EOLA) dla Azure Synapse środowiska uruchomieniowego Apache Spark 3.3 12 lipca 2024 r. Zgodnie z zasadami środowiska uruchomieniowego usługi Synapse dla Apache Spark cyklu życia, wersja 3.3 środowiska uruchomieniowego Azure Synapse zostanie wyłączona i zdezaktywowana od 31 marca 2025 r. Apache Spark Po upływie terminu EOL wycofane środowiska wykonawcze nie będą dostępne dla nowych pul platformy Spark i nie będzie można wykonywać istniejących przepływów pracy. Metadane pozostaną tymczasowo w obszarze roboczym Synapse. Więcej informacji: Środowisko uruchomione Azure Synapse dla Apache Spark 3.3 (EOSA). Aby uaktualnić łącze Synapse Link do Dataverse z eksportem do formatu Delta Lake do wersji Spark 3.4, wykonaj aktualizację w miejscu istniejących profili. Więcej informacji: Aktualizacja w miejscu do Apache Spark 3.4 z Delta Lake 2.4
  • Od 25 grudnia 2024 r. podczas początkowego tworzenia połączenia będzie obsługiwana tylko pula platformy Spark w wersji 3.4.

Notatka

Stan Azure Synapse Link w Power Apps (make.powerapps.com) odzwierciedla stan konwersji Delta Lake:

  • Count pokazuje liczbę rekordów w tabeli repozytorium, Delta Lake.
  • Last synchronized on Data i godzina reprezentuje ostatnią sygnaturę czasową pomyślnej konwersji.
  • Sync status jest wyświetlany jako aktywny po zakończeniu synchronizacji danych i konwersji delta lake, wskazując, że dane są gotowe do użycia.

Co to jest Delta Lake?

Delta Lake to projekt open-source, który umożliwia budowanie architektury na szczycie data lake. Delta Lake zapewnia transakcje ACID (atomowość, spójność, izolacja i trwałość), skalowalną obsługę metadanych oraz ujednolica przetwarzanie danych strumieniowych i wsadowych na szczycie istniejących jezior danych. Azure Synapse Analytics jest kompatybilny z Linux Foundation Delta Lake. Obecna wersja Delta Lake dołączona do Azure Synapse posiada wsparcie językowe dla Scali, PySpark i .NET. Więcej informacji: Co to jest Delta Lake?. Możesz również dowiedzieć się więcej z filmu Wprowadzenie do Delta Tables.

Apache Parquet jest podstawowym formatem dla Delta Lake, umożliwiającym wykorzystanie wydajnych schematów kompresji i kodowania, które są natywne dla tego formatu. Format plików Parquet wykorzystuje kompresję kolumnową. Jest wydajny i oszczędza miejsce do przechowywania. Zapytania, które pobierają określone wartości kolumn nie muszą czytać danych całego wiersza, co poprawia wydajność. Dlatego bezserwerowa pula SQL potrzebuje mniej czasu i mniej żądań pamięci masowej, aby odczytać dane.

Dlaczego warto korzystać z Delta Lake?

  • Skalowalność: Delta Lake jest zbudowana na szczycie licencji open-source Apache, która została zaprojektowana tak, aby spełniać standardy przemysłowe w zakresie obsługi dużych obciążeń związanych z przetwarzaniem danych.
  • Niezawodność: Delta Lake udostępnia transakcje ACID, zapewniając spójność i niezawodność danych nawet w obliczu awarii lub współbieżnego dostępu.
  • Wydajność: Delta Lake wykorzystuje kolumnowy format przechowywania Parquet, zapewniając lepsze techniki kompresji i kodowania, co może prowadzić do poprawy wydajności zapytań w porównaniu do zapytań do plików CSV.
  • Opłacalność: Format plików Delta Lake to wysoce skompresowana technologia przechowywania danych, która oferuje przedsiębiorstwom znaczne potencjalne oszczędności w zakresie pamięci masowej. Format ten został specjalnie zaprojektowany w celu optymalizacji przetwarzania danych i potencjalnego zmniejszenia całkowitej ilości przetwarzanych danych lub czasu pracy wymaganego do obliczeń na żądanie.
  • Zgodność z przepisami o ochronie danych osobowych: Delta Lake z Azure Synapse Link udostępnia narzędzia i funkcje, w tym usuwanie nietrwałe i usuwanie trwałe, w celu zapewnienia zgodności z różnymi przepisami dotyczącymi prywatności danych, w tym Ogólne rozporządzenie o ochronie danych (RODO).

Podczas konfigurowania Azure Synapse Link for Dataverse możesz włączyć funkcję eksportowania do usługi Delta Lake i nawiązać połączenie z przestrzenią roboczą Synapse i pulą platformy Spark. Azure Synapse Link eksportuje wybrane tabele Dataverse w formacie CSV w wyznaczonych odstępach czasu, przetwarzając je za pomocą zadania konwersji Delta Lake platformy Spark. Po zakończeniu tego procesu konwersji dane CSV są czyszczone w celu zapisania w pamięci. Dodatkowo zaplanowano serię zadań konserwacyjnych, które są uruchamiane codziennie, automatycznie wykonując procesy zagęszczania i odkurzania, aby scalić i oczyścić pliki danych w celu dalszej optymalizacji przechowywania i poprawy wydajności zapytań.

Wymagania wstępne

  • Dataverse: Upewnij się, że masz rolę zabezpieczeń Dataverse Administrator systemu. Ponadto tabele, które chcesz wyeksportować za pomocą Azure Synapse Link, muszą mieć włączoną właściwość Śledź zmiany. Więcej informacji: Opcje zaawansowane
  • Azure Data Lake Storage Gen 2: trzeba mieć konto Azure Data Lake Storage Gen 2 oraz dostęp do ról Właściciel i Współautor Storage Blob Data. Twoje konto magazynu musi umożliwiać hierarchiczną przestrzeń nazw i publiczny dostęp do sieci zarówno na potrzeby wstępnej konfiguracji, jak i synchronizacji różnicowej. Zezwalaj na dostęp do klucza konta magazynu jest wymagane tylko do wstępnej konfiguracji.
  • Obszar roboczy Synapse: musisz mieć przestrzeń roboczą Synapse, rolę Właściciel w obszarze kontroli dostępu (Zarządzanie dostępem i tożsamościami) i dostęp do roli Administrator Synapse w ramach Synapse Studio. Obszar roboczy Synapse musi znajdować się w tym samym regionie, co konto Azure Data Lake Storage Gen2. Konto magazynu należy dodać jako połączoną usługę w Synapse Studio. Aby utworzyć obszar roboczy Synapse, przejdź do Tworzenie obszaru roboczego Synapse.
  • Pula Apache Spark w połączonym Azure Synapse workspace używająca Apache Spark wersji 3.4 przy użyciu tej zalecanej konfiguracji puli platformy Spark. Informacje na temat tworzenia puli zadań platformy Spark znajdziesz w artykule Tworzenie puli zadań platformy Apache Spark.
  • Minimalne wymaganie wersji Microsoft Dynamics 365 do korzystania z tej funkcji to 9.2.22082. Więcej informacji: Wybieranie wcześniejszego dostępu do aktualizacji

Ta konfiguracja może być uważana za krok startowy dla przeciętnych przypadków użycia.

  • Wielkość węzła: mały (4 vCores / 32 GB)
  • Autoskalowanie: Wł.
  • Liczba zaznaczonych węzłów: 5 to 10
  • Automatyczne wstrzymywanie: Włączone
  • Liczba minut bezczynności: 5
  • Apache Spark: 3.4
  • Dynamiczne przydzielanie wykonywań: włączone
  • Domyślna liczba executorów: od 1 do 9

Ważne

Użyj puli platformy Spark wyłącznie na potrzeby operacji konwersji Delta Lake z linkiem usługi Synapse dla Dataverse. Aby uzyskać optymalną niezawodność i wydajność, unikaj uruchamiania innych zadań platformy Spark przy użyciu tej samej puli platformy Spark.

Podłącz Dataverse do przestrzeni roboczej Synapse i eksportuj dane w formacie Delta Lake

  1. Zaloguj się do Power Apps i wybierz swoje środowisko.

  2. W lewym okienku nawigacji wybierz Azure Synapse Link. Jeśli elementu nie ma w okienku panelu bocznego, wybierz …Więcej, a następnie wybierz żądany element.

  3. Na pasku poleceń zaznacz + Nowe łącze

  4. Wybierz Połącz się z przestrzenią roboczą Azure Synapse Analytics, a następnie wybierz Subskrypcja, Grupa zasobów oraz Nazwa obszaru roboczego.

  5. Wybierz opcję Użyj puli zadań platformy Spark do przetwarzania, a następnie wybierz wstępnie utworzoną Pulę zadań platformy Spark i Konto magazynu. Konfiguracja Azure Synapse Link for Dataverse, która zawiera pulę Spark.

  6. Wybierz Dalej.

  7. Dodaj tabele do wyeksportowania, a następnie wybierz opcję Zaawansowany.

  8. Opcjonalnie wybierz Pokaż zaawansowane ustawienia konfiguracyjne i wprowadź przedział czasowy, w minutach, jak często powinny być przechwytywane aktualizacje przyrostowe.

  9. Wybierz pozycję Zapisz.

  1. Wybierz żądane Azure Synapse Link, a następnie wybierz Przejdź do Azure Synapse Analytics workspace na pasku poleceń.
  2. Wybierz Monitoruj>Aplikacje Apache Spark. Więcej informacji: Używanie Synapse Studio do monitorowania aplikacji platformy Apache Spark

Wyświetlanie danych z obszaru roboczego Synapse

  1. Wybierz żądane Azure Synapse Link, a następnie wybierz Przejdź do Azure Synapse Analytics workspace na pasku poleceń.
  2. Rozwiń Bazy danych Lake w lewym panelu, wybierz dataverse-environmentNameorganizationUniqueName, a następnie rozwiń Tabele.  Wymienione są wszystkie Tabele danych migawek i są dostępne do analizy przy użyciu konwencji nazewnictwa DataverseTableName_partitioned.(tabela bez partycji).

Notatka

Nie używaj tabel z konwencją nazewnictwa _partitioned. Po wybraniu Delta parquet jako formatu, tabele z konwencją nazewnictwa _partition są używane jako tabele przejściowe i usuwane po ich użyciu przez system.

Wyświetl swoje dane z Azure Data Lake Storage Gen2

  1. Wybierz Azure Synapse Link, a następnie wybierz Przejdź do Azure Data Lake na pasku poleceń.
  2. Wybierz Containers w obszarze Magazyn danych.
  3. Wybierz *dataverse- *environmentName-organizationUniqueName. Wszystkie pliki parkietu przechowywane są w folderze deltalake.

Aktualizacja w miejscu do Apache Spark 3.4 z Delta Lake 2.4

Wymagania wstępne

  • Musisz mieć istniejący profil Azure Synapse Link for Dataverse Delta Lake uruchomiony z platformą Synapse Spark w wersji 3.3.
  • Należy utworzyć nową pulę Synapse Spark z platformą Spark w wersji 3.4, korzystając z tej samej lub wyższej konfiguracji sprzętowej węzłów w tym samym obszarze roboczym Synapse. Informacje na temat tworzenia puli zadań platformy Spark znajdziesz w artykule Tworzenie puli zadań platformy Apache Spark. Tę pulę Spark należy utworzyć niezależnie od bieżącej puli 3.3.

Aktualizacja lokalna do wersji Spark 3.4:

  1. Zaloguj się do Power Apps i wybierz preferowane środowisko.
  2. W lewym okienku nawigacji wybierz Azure Synapse Link. Jeśli elementu nie ma w lewym okienku nawigacji, wybierz …Więcej, a następnie wybierz żądany element.
  3. Otwórz profil Azure Synapse Link, a następnie wybierz pozycję Uaktualnij do Apache Spark wersji 3.4 przy użyciu usługi Delta Lake 2.4.
  4. Wybierz z listy dostępną pulę Spark, a następnie wybierz Aktualizuj.

Notatka

Uaktualnienie puli Spark następuje tylko po wyzwoleniu nowego zadania Spark konwersji Delta Lake. Upewnij się, że masz co najmniej jedną zmianę danych po wybraniu Aktualizuj.

Zobacz też

Co to jest Azure Synapse Link for Dataverse?