Eksport danych Dataverse w formacie Delta Lake
Użyj Azure Synapse Link for Dataverse , aby wyeksportować dane Microsoft Dataverse do Azure Synapse Analytics w formacie Delta Lake. Następnie zbadaj swoje dane i przyspiesz czas uzyskania informacji. Ten artykuł zawiera następujące informacje i pokazuje, jak wykonać następujące zadania:
- Objaśnia Delta Lake i Parquet oraz dlaczego należy eksportować dane w tym formacie.
- Wyeksportuj dane Dataverse do obszaru roboczego Azure Synapse Analytics w formacie Delta Lake za pomocą Azure Synapse Link.
- Monitoruj Azure Synapse Link i konwersję danych.
- Wyświetl swoje dane z Azure Data Lake Storage Gen2.
- Wyświetl swoje dane z programu Synapse Workspace.
Ważne
- Jeśli uaktualniasz plik CSV do usługi Delta Lake z istniejącymi widokami niestandardowymi, zalecamy zaktualizowanie skryptu w celu zastąpienia wszystkich tabel partycjonowanych na niepodzielone. Zrób to, szukając wystąpień
_partitioned
i zastąp je pustym ciągiem znaków. - W przypadku konfiguracji Dataverse, Tylko dołączaniejest domyślnie włączone, aby eksportować dane CSV w trybie
appendonly
. Ale tabela Delta Lake będzie miała strukturę aktualizacji na miejscu, ponieważ konwersja Delta Lake pochodzi z okresowego procesu scalania. - Nie ma żadnych kosztów związanych z tworzeniem puli zadań platformy Spark. Opłaty są ponoszone tylko wtedy, gdy zadanie Spark jest wykonywane na docelowej puli zadań Spark i instancja Spark jest inicjowana na żądanie. Koszty te są związane z wykorzystaniem Azure Synapse workspace Spark i są rozliczane miesięcznie. Koszt przeprowadzenia obliczeń Spark zależy głównie od interwału czasowego dla aktualizacji przyrostowej oraz wolumenu danych. Więcej informacji: Ceny usługi Azure Synapse Analytics
- Istotne jest, aby podczas decydowania o używaniu tej funkcji wziąć pod uwagę te dodatkowe koszty, ponieważ nie są one opcjonalne i należy je uiścić, aby móc kontynuować korzystanie z tej funkcji.
- Ogłoszono koniec wsparcia (EOLA) dla Azure Synapse środowiska uruchomieniowego Apache Spark 3.3 12 lipca 2024 r. Zgodnie z zasadami środowiska uruchomieniowego usługi Synapse dla Apache Spark cyklu życia, wersja 3.3 środowiska uruchomieniowego Azure Synapse zostanie wyłączona i zdezaktywowana od 31 marca 2025 r. Apache Spark Po upływie terminu EOL wycofane środowiska wykonawcze nie będą dostępne dla nowych pul platformy Spark i nie będzie można wykonywać istniejących przepływów pracy. Metadane pozostaną tymczasowo w obszarze roboczym Synapse. Więcej informacji: Środowisko uruchomione Azure Synapse dla Apache Spark 3.3 (EOSA). Aby uaktualnić łącze Synapse Link do Dataverse z eksportem do formatu Delta Lake do wersji Spark 3.4, wykonaj aktualizację w miejscu istniejących profili. Więcej informacji: Aktualizacja w miejscu do Apache Spark 3.4 z Delta Lake 2.4
- Od 25 grudnia 2024 r. podczas początkowego tworzenia połączenia będzie obsługiwana tylko pula platformy Spark w wersji 3.4.
Notatka
Stan Azure Synapse Link w Power Apps (make.powerapps.com) odzwierciedla stan konwersji Delta Lake:
-
Count
pokazuje liczbę rekordów w tabeli repozytorium, Delta Lake. -
Last synchronized on
Data i godzina reprezentuje ostatnią sygnaturę czasową pomyślnej konwersji. -
Sync status
jest wyświetlany jako aktywny po zakończeniu synchronizacji danych i konwersji delta lake, wskazując, że dane są gotowe do użycia.
Co to jest Delta Lake?
Delta Lake to projekt open-source, który umożliwia budowanie architektury na szczycie data lake. Delta Lake zapewnia transakcje ACID (atomowość, spójność, izolacja i trwałość), skalowalną obsługę metadanych oraz ujednolica przetwarzanie danych strumieniowych i wsadowych na szczycie istniejących jezior danych. Azure Synapse Analytics jest kompatybilny z Linux Foundation Delta Lake. Obecna wersja Delta Lake dołączona do Azure Synapse posiada wsparcie językowe dla Scali, PySpark i .NET. Więcej informacji: Co to jest Delta Lake?. Możesz również dowiedzieć się więcej z filmu Wprowadzenie do Delta Tables.
Apache Parquet jest podstawowym formatem dla Delta Lake, umożliwiającym wykorzystanie wydajnych schematów kompresji i kodowania, które są natywne dla tego formatu. Format plików Parquet wykorzystuje kompresję kolumnową. Jest wydajny i oszczędza miejsce do przechowywania. Zapytania, które pobierają określone wartości kolumn nie muszą czytać danych całego wiersza, co poprawia wydajność. Dlatego bezserwerowa pula SQL potrzebuje mniej czasu i mniej żądań pamięci masowej, aby odczytać dane.
Dlaczego warto korzystać z Delta Lake?
- Skalowalność: Delta Lake jest zbudowana na szczycie licencji open-source Apache, która została zaprojektowana tak, aby spełniać standardy przemysłowe w zakresie obsługi dużych obciążeń związanych z przetwarzaniem danych.
- Niezawodność: Delta Lake udostępnia transakcje ACID, zapewniając spójność i niezawodność danych nawet w obliczu awarii lub współbieżnego dostępu.
- Wydajność: Delta Lake wykorzystuje kolumnowy format przechowywania Parquet, zapewniając lepsze techniki kompresji i kodowania, co może prowadzić do poprawy wydajności zapytań w porównaniu do zapytań do plików CSV.
- Opłacalność: Format plików Delta Lake to wysoce skompresowana technologia przechowywania danych, która oferuje przedsiębiorstwom znaczne potencjalne oszczędności w zakresie pamięci masowej. Format ten został specjalnie zaprojektowany w celu optymalizacji przetwarzania danych i potencjalnego zmniejszenia całkowitej ilości przetwarzanych danych lub czasu pracy wymaganego do obliczeń na żądanie.
- Zgodność z przepisami o ochronie danych osobowych: Delta Lake z Azure Synapse Link udostępnia narzędzia i funkcje, w tym usuwanie nietrwałe i usuwanie trwałe, w celu zapewnienia zgodności z różnymi przepisami dotyczącymi prywatności danych, w tym Ogólne rozporządzenie o ochronie danych (RODO).
Jak Delta Lake współpracuje z usługą Azure Synapse Link for Dataverse?
Podczas konfigurowania Azure Synapse Link for Dataverse możesz włączyć funkcję eksportowania do usługi Delta Lake i nawiązać połączenie z przestrzenią roboczą Synapse i pulą platformy Spark. Azure Synapse Link eksportuje wybrane tabele Dataverse w formacie CSV w wyznaczonych odstępach czasu, przetwarzając je za pomocą zadania konwersji Delta Lake platformy Spark. Po zakończeniu tego procesu konwersji dane CSV są czyszczone w celu zapisania w pamięci. Dodatkowo zaplanowano serię zadań konserwacyjnych, które są uruchamiane codziennie, automatycznie wykonując procesy zagęszczania i odkurzania, aby scalić i oczyścić pliki danych w celu dalszej optymalizacji przechowywania i poprawy wydajności zapytań.
Wymagania wstępne
- Dataverse: Upewnij się, że masz rolę zabezpieczeń Dataverse Administrator systemu. Ponadto tabele, które chcesz wyeksportować za pomocą Azure Synapse Link, muszą mieć włączoną właściwość Śledź zmiany. Więcej informacji: Opcje zaawansowane
- Azure Data Lake Storage Gen 2: trzeba mieć konto Azure Data Lake Storage Gen 2 oraz dostęp do ról Właściciel i Współautor Storage Blob Data. Twoje konto magazynu musi umożliwiać hierarchiczną przestrzeń nazw i publiczny dostęp do sieci zarówno na potrzeby wstępnej konfiguracji, jak i synchronizacji różnicowej. Zezwalaj na dostęp do klucza konta magazynu jest wymagane tylko do wstępnej konfiguracji.
- Obszar roboczy Synapse: musisz mieć przestrzeń roboczą Synapse, rolę Właściciel w obszarze kontroli dostępu (Zarządzanie dostępem i tożsamościami) i dostęp do roli Administrator Synapse w ramach Synapse Studio. Obszar roboczy Synapse musi znajdować się w tym samym regionie, co konto Azure Data Lake Storage Gen2. Konto magazynu należy dodać jako połączoną usługę w Synapse Studio. Aby utworzyć obszar roboczy Synapse, przejdź do Tworzenie obszaru roboczego Synapse.
- Pula Apache Spark w połączonym Azure Synapse workspace używająca Apache Spark wersji 3.4 przy użyciu tej zalecanej konfiguracji puli platformy Spark. Informacje na temat tworzenia puli zadań platformy Spark znajdziesz w artykule Tworzenie puli zadań platformy Apache Spark.
- Minimalne wymaganie wersji Microsoft Dynamics 365 do korzystania z tej funkcji to 9.2.22082. Więcej informacji: Wybieranie wcześniejszego dostępu do aktualizacji
Zalecana konfiguracja puli Spark
Ta konfiguracja może być uważana za krok startowy dla przeciętnych przypadków użycia.
- Wielkość węzła: mały (4 vCores / 32 GB)
- Autoskalowanie: Wł.
- Liczba zaznaczonych węzłów: 5 to 10
- Automatyczne wstrzymywanie: Włączone
- Liczba minut bezczynności: 5
- Apache Spark: 3.4
- Dynamiczne przydzielanie wykonywań: włączone
- Domyślna liczba executorów: od 1 do 9
Ważne
Użyj puli platformy Spark wyłącznie na potrzeby operacji konwersji Delta Lake z linkiem usługi Synapse dla Dataverse. Aby uzyskać optymalną niezawodność i wydajność, unikaj uruchamiania innych zadań platformy Spark przy użyciu tej samej puli platformy Spark.
Podłącz Dataverse do przestrzeni roboczej Synapse i eksportuj dane w formacie Delta Lake
Zaloguj się do Power Apps i wybierz swoje środowisko.
W lewym okienku nawigacji wybierz Azure Synapse Link. Jeśli elementu nie ma w okienku panelu bocznego, wybierz …Więcej, a następnie wybierz żądany element.
Na pasku poleceń zaznacz + Nowe łącze
Wybierz Połącz się z przestrzenią roboczą Azure Synapse Analytics, a następnie wybierz Subskrypcja, Grupa zasobów oraz Nazwa obszaru roboczego.
Wybierz opcję Użyj puli zadań platformy Spark do przetwarzania, a następnie wybierz wstępnie utworzoną Pulę zadań platformy Spark i Konto magazynu.
Wybierz Dalej.
Dodaj tabele do wyeksportowania, a następnie wybierz opcję Zaawansowany.
Opcjonalnie wybierz Pokaż zaawansowane ustawienia konfiguracyjne i wprowadź przedział czasowy, w minutach, jak często powinny być przechwytywane aktualizacje przyrostowe.
Wybierz pozycję Zapisz.
Monitoruj Azure Synapse Link i konwersję danych
- Wybierz żądane Azure Synapse Link, a następnie wybierz Przejdź do Azure Synapse Analytics workspace na pasku poleceń.
- Wybierz Monitoruj>Aplikacje Apache Spark. Więcej informacji: Używanie Synapse Studio do monitorowania aplikacji platformy Apache Spark
Wyświetlanie danych z obszaru roboczego Synapse
- Wybierz żądane Azure Synapse Link, a następnie wybierz Przejdź do Azure Synapse Analytics workspace na pasku poleceń.
- Rozwiń Bazy danych Lake w lewym panelu, wybierz dataverse-environmentNameorganizationUniqueName, a następnie rozwiń Tabele. Wymienione są wszystkie Tabele danych migawek i są dostępne do analizy przy użyciu konwencji nazewnictwa DataverseTableName_partitioned.(tabela bez partycji).
Notatka
Nie używaj tabel z konwencją nazewnictwa _partitioned. Po wybraniu Delta parquet jako formatu, tabele z konwencją nazewnictwa _partition są używane jako tabele przejściowe i usuwane po ich użyciu przez system.
Wyświetl swoje dane z Azure Data Lake Storage Gen2
- Wybierz Azure Synapse Link, a następnie wybierz Przejdź do Azure Data Lake na pasku poleceń.
- Wybierz Containers w obszarze Magazyn danych.
- Wybierz *dataverse- *environmentName-organizationUniqueName. Wszystkie pliki parkietu przechowywane są w folderze deltalake.
Aktualizacja w miejscu do Apache Spark 3.4 z Delta Lake 2.4
Wymagania wstępne
- Musisz mieć istniejący profil Azure Synapse Link for Dataverse Delta Lake uruchomiony z platformą Synapse Spark w wersji 3.3.
- Należy utworzyć nową pulę Synapse Spark z platformą Spark w wersji 3.4, korzystając z tej samej lub wyższej konfiguracji sprzętowej węzłów w tym samym obszarze roboczym Synapse. Informacje na temat tworzenia puli zadań platformy Spark znajdziesz w artykule Tworzenie puli zadań platformy Apache Spark. Tę pulę Spark należy utworzyć niezależnie od bieżącej puli 3.3.
Aktualizacja lokalna do wersji Spark 3.4:
- Zaloguj się do Power Apps i wybierz preferowane środowisko.
- W lewym okienku nawigacji wybierz Azure Synapse Link. Jeśli elementu nie ma w lewym okienku nawigacji, wybierz …Więcej, a następnie wybierz żądany element.
- Otwórz profil Azure Synapse Link, a następnie wybierz pozycję Uaktualnij do Apache Spark wersji 3.4 przy użyciu usługi Delta Lake 2.4.
- Wybierz z listy dostępną pulę Spark, a następnie wybierz Aktualizuj.
Notatka
Uaktualnienie puli Spark następuje tylko po wyzwoleniu nowego zadania Spark konwersji Delta Lake. Upewnij się, że masz co najmniej jedną zmianę danych po wybraniu Aktualizuj.