Przechwytywanie zmian danych w usługach Azure Data Factory i Azure Synapse Analytics
DOTYCZY: Azure Data Factory
Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
W tym artykule opisano przechwytywanie zmian danych (CDC) w usłudze Azure Data Factory.
Aby dowiedzieć się więcej, zobacz Omówienie usługi Azure Data Factory lub Omówienie usługi Azure Synapse.
Omówienie
Podczas przeprowadzania integracji danych i procesów ETL w chmurze zadania mogą działać lepiej i efektywniej, gdy odczytujesz tylko dane źródłowe, które uległy zmianie od czasu ostatniego uruchomienia potoku, zamiast zawsze wykonywać zapytania dotyczące całego zestawu danych w każdym uruchomieniu. Usługa ADF oferuje wiele różnych sposobów łatwego pobierania danych różnicowych tylko z ostatniego uruchomienia.
Zmienianie zasobu fabryki przechwytywania danych
Najprostszym i najszybszym sposobem rozpoczęcia pracy w fabryce danych za pomocą usługi CDC jest zasób przechwytywania zmian danych na poziomie fabryki. W głównym projektancie potoku wybierz pozycję Nowy w obszarze Zasoby fabryki, aby utworzyć nowe przechwytywanie zmian danych. Zasób fabryki CDC udostępnia środowisko opisano konfigurację, w której można wybrać źródła i miejsca docelowe, zastosować opcjonalne przekształcenia, a następnie wybrać pozycję Rozpocznij, aby rozpocząć przechwytywanie danych. Zasób cdC nie musi projektować potoków ani działań przepływu danych. Opłaty są również naliczane tylko za cztery rdzenie przepływów danych ogólnego przeznaczenia podczas przetwarzania danych. Możesz ustawić preferowane opóźnienie, którego usługa ADF używa do wznawiania i wyszukiwania zmienionych danych. Ta początkowa kontrola jest jedyną godziną naliczania opłat. Zasób cdC najwyższego poziomu jest również metodą ADF ciągłego uruchamiania procesów. Potoki w usłudze ADF są tylko wsadowe, ale zasób CDC może działać w sposób ciągły.
Natywne przechwytywanie danych zmian w przepływie danych mapowania
Przepływ danych mapowania usługi ADF może automatycznie wykrywać i wyodrębniać zmienione dane, w tym wstawione, zaktualizowane i usunięte wiersze ze źródłowych baz danych. Do zidentyfikowania zmian nie są wymagane żadne kolumny sygnatury czasowej ani identyfikatorów, ponieważ w bazach danych są używane natywne technologie przechwytywania danych zmian. Łącząc przekształcenie źródła i przekształcenie ujścia do zestawu danych bazy danych w przepływie danych mapowania, można zobaczyć zmiany wprowadzone w źródłowej bazie danych, które mają zostać automatycznie zastosowane do docelowej bazy danych, dzięki czemu można łatwo synchronizować dane między dwiema tabelami. Można również dodać dowolne przekształcenia między dowolną logiką biznesową w celu przetwarzania danych różnicowych. Podczas definiowania miejsca docelowego danych ujścia można ustawić operacje wstawiania, aktualizowania, upsert i usuwania ujścia bez konieczności przekształcenia Alter Row, ponieważ usługa ADF może automatycznie wykrywać twórców wierszy.
Obsługiwane łączniki
- SAP CDC
- Azure SQL Database
- SQL Server
- Wystąpienie zarządzane Azure SQL
- Azure Cosmos DB (interfejs API SQL)
- Magazyn analityczny usługi Azure Cosmos DB
- Snowflake
Automatyczne wyodrębnianie przyrostowe w przepływie danych mapowania
Nowo zaktualizowane wiersze lub zaktualizowane pliki można automatycznie wykrywać i wyodrębniać przez przepływ danych mapowania usługi ADF z magazynów źródłowych. Aby uzyskać dane różnicowe z baz danych, do zidentyfikowania zmian wymagana jest kolumna przyrostowa. Jeśli chcesz załadować nowe pliki lub zaktualizować pliki tylko z magazynu magazynu, przepływ danych mapowania usługi ADF działa tylko przez czas ostatniej modyfikacji plików.
Obsługiwane łączniki
- Azure Blob Storage
- ADLS Gen2
- ADLS Gen1
- Azure SQL Database
- SQL Server
- Wystąpienie zarządzane Azure SQL
- Azure Database for MySQL
- Azure Database for PostgreSQL
- Wspólny model danych
Wyodrębnianie danych różnicowych zarządzanych przez klienta w potoku
Zawsze możesz utworzyć własny potok wyodrębniania danych różnicowych dla wszystkich obsługiwanych magazynów danych usługi ADF, w tym przy użyciu działania wyszukiwania, aby uzyskać wartość limitu przechowywanego w zewnętrznej tabeli sterowania, działanie kopiowania lub działanie przepływu mapowania danych w celu wykonywania zapytań dotyczących danych różnicowych względem sygnatury czasowej lub kolumny identyfikatorów oraz działania sp w celu zapisania nowej wartości limitu z powrotem do tabeli kontroli zewnętrznej na potrzeby następnego uruchomienia. Jeśli chcesz załadować nowe pliki tylko z magazynu magazynu, możesz usuwać pliki za każdym razem, gdy zostały pomyślnie przeniesione do miejsca docelowego, lub użyć czasu partycjonowanego folderu lub nazwy plików albo czas ostatniej modyfikacji, aby zidentyfikować nowe pliki.
Najlepsze praktyki
Zmienianie przechwytywania danych z baz danych
- Natywne przechwytywanie danych zmian jest zawsze zalecane jako najprostszy sposób uzyskiwania danych zmian. Zwiększa to również znacznie mniejsze obciążenie źródłowej bazy danych, gdy usługa ADF wyodrębnia dane zmiany w celu dalszego przetwarzania.
- Jeśli magazyny bazy danych nie są częścią listy łączników usługi ADF z natywną obsługą przechwytywania danych zmian, zalecamy sprawdzenie opcji automatycznego wyodrębniania przyrostowego, w której należy wprowadzić tylko kolumnę przyrostową w celu przechwycenia zmian. Usługa ADF zajmie się resztą, w tym tworzeniem dynamicznego zapytania na potrzeby ładowania różnicowego i zarządzaniem punktem kontrolnym dla każdego uruchomienia działania.
- Wyodrębnianie danych różnicowych zarządzanych przez klienta w potoku obejmuje wszystkie obsługiwane bazy danych usługi ADF i zapewniają elastyczność samodzielnej kontroli nad wszystkimi elementami.
Przechwytywanie plików z magazynów opartych na plikach
- Jeśli chcesz załadować dane z usługi Azure Blob Storage, Azure Data Lake Storage Gen2 lub Azure Data Lake Storage Gen1, przepływ mapowania danych zapewnia możliwość pobrania nowych lub zaktualizowanych plików tylko przez proste wybranie. Jest to najprostszy i zalecany sposób na osiągnięcie obciążenia różnicowego z tych magazynów opartych na plikach w przepływie mapowania danych.
- Możesz uzyskać więcej najlepszych rozwiązań.
Punkt kontrolny
Po włączeniu natywnych opcji przechwytywania danych zmian lub automatycznego wyodrębniania przyrostowego w przepływie danych mapowania usługi ADF usługa ADF pomaga zarządzać punktem kontrolnym, aby upewnić się, że każde uruchomienie działania automatycznie odczytuje tylko dane źródłowe, które uległy zmianie od czasu ostatniego uruchomienia potoku. Domyślnie punkt kontrolny jest powiązany z nazwą potoku i działania. Jeśli zmienisz nazwę potoku lub nazwę działania, punkt kontrolny zostanie zresetowany, co prowadzi do rozpoczęcia od początku lub pobrania zmian od teraz w następnym przebiegu. Jeśli chcesz zmienić nazwę potoku lub nazwę działania, ale nadal zachowaj punkt kontrolny, aby automatycznie uzyskać zmienione dane z ostatniego uruchomienia, użyj własnego klucza punktu kontrolnego w działaniu przepływu danych, aby to osiągnąć. Reguła nazewnictwa własnego klucza punktu kontrolnego jest taka sama jak połączone usługi, zestawy danych, potoki i przepływy danych.
Podczas debugowania potoku ta funkcja działa tak samo. Punkt kontrolny jest resetowany podczas odświeżania przeglądarki podczas uruchamiania debugowania. Po zadowoleniu z wyniku potoku z przebiegu debugowania możesz przejść do przodu, aby opublikować i wyzwolić potok. W momencie, gdy po raz pierwszy wyzwalasz opublikowany potok, automatycznie uruchamia się ponownie od początku lub pobiera zmiany od teraz.
W sekcji monitorowania zawsze masz możliwość ponownego uruchomienia potoku. W ten sposób zmienione dane są zawsze przechwytywane z poprzedniego punktu kontrolnego wybranego przebiegu potoku.
Samouczki
Poniżej przedstawiono samouczki umożliwiające rozpoczęcie przechwytywania zmian w usłudze Azure Data Factory i usłudze Azure Synapse Analytics.
- Samouczek dotyczący usługi SAP CDC w usłudze ADF
- Przyrostowe kopiowanie danych ze źródłowego magazynu danych do docelowego magazynu danych — samouczki
Szablony
Poniżej przedstawiono szablony do używania przechwytywania zmian danych w usłudze Azure Data Factory i usłudze Azure Synapse Analytics.
Powiązana zawartość
- Dowiedz się, jak używać klucza punktu kontrolnego w działaniu przepływu danych.
- Dowiedz się więcej o zasobie przechwytywania zmian danych usługi ADF.
- Zapoznaj się z tworzeniem artefaktu CDC najwyższego poziomu.