Narzędzia do migracji magazynu danych Netezza do usługi Azure Synapse Analytics
Ten artykuł jest drugą częścią siedmioczęściowej serii, która zawiera wskazówki dotyczące migracji z netezza do usługi Azure Synapse Analytics. Celem tego artykułu są najlepsze rozwiązania dotyczące narzędzi firmy Microsoft i innych firm.
Narzędzia do migracji magazynu danych
Migrując istniejący magazyn danych do Azure Synapse, możesz skorzystać z następujących korzyści:
Globalnie bezpieczna, skalowalna, tania, natywna dla chmury, płatna zgodnie z rzeczywistym użyciem baza danych analitycznych.
Rozbudowany ekosystem analityczny firmy Microsoft, który istnieje na platformie Azure. Ten ekosystem składa się z technologii, które ułatwiają modernizację magazynu danych po migracji i rozszerzaniu możliwości analitycznych w celu zwiększenia nowej wartości.
Kilka narzędzi od partnerów firmy Microsoft i innych firm może pomóc w migracji istniejącego magazynu danych do Azure Synapse. W tym artykule omówiono następujące typy narzędzi:
Narzędzia do migracji danych i baz danych firmy Microsoft.
Narzędzia automatyzacji magazynu danych innych firm do automatyzacji i dokumentowania migracji do Azure Synapse.
Narzędzia migracji magazynu danych innych firm do migrowania schematu i danych do Azure Synapse.
Narzędzia innych firm do łączenia różnic SQL między istniejącymi systemami DBMS magazynu danych i Azure Synapse.
Narzędzia do migracji danych firmy Microsoft
Firma Microsoft oferuje kilka narzędzi, które ułatwiają migrację istniejącego magazynu danych do Azure Synapse, takich jak:
Usługi firmy Microsoft do transferu danych fizycznych.
Usługi firmy Microsoft do pozyskiwania danych.
W następnych sekcjach bardziej szczegółowo omówiono te narzędzia.
Microsoft Azure Data Factory
Data Factory to w pełni zarządzana, płatna zgodnie z rzeczywistym użyciem usługa integracji danych hybrydowych na potrzeby wysoce skalowalnego przetwarzania ETL i ELT. Używa platformy Apache Spark do przetwarzania i analizowania danych równolegle i w pamięci w celu zmaksymalizowania przepływności.
Porada
Usługa Data Factory umożliwia tworzenie skalowalnych potoków integracji danych bez programowania.
Łączniki usługi Data Factory obsługują połączenia z zewnętrznymi źródłami danych i bazami danych oraz obejmują szablony dla typowych zadań integracji danych. Wizualny interfejs użytkownika oparty na przeglądarce umożliwia programistom tworzenie i uruchamianie potoków w celu pozyskiwania, przekształcania i ładowania danych. Bardziej doświadczeni programiści mogą uwzględniać kod niestandardowy, taki jak programy w języku Python.
Porada
Usługa Data Factory umożliwia wspólne programowanie między specjalistami biznesowymi i IT.
Usługa Data Factory jest również narzędziem orkiestracji i jest najlepszym narzędziem firmy Microsoft do automatyzacji kompleksowego procesu migracji. Automatyzacja zmniejsza ryzyko, nakład pracy i czas migracji oraz ułatwia powtarzanie procesu migracji. Na poniższym diagramie przedstawiono przepływ danych mapowania w usłudze Data Factory.
Następny zrzut ekranu przedstawia przepływ danych uzdatniania w usłudze Data Factory.
W usłudze Data Factory można opracowywać proste lub kompleksowe procesy ETL i ELT bez kodowania lub konserwacji za pomocą zaledwie kilku kliknięć. Procesy ETL/ELT przetwarzają pozyskiwanie, przenoszenie, przygotowywanie, przekształcanie i przetwarzanie danych. Możesz zaprojektować planowanie i wyzwalacze w usłudze Data Factory oraz zarządzać nimi, aby utworzyć zautomatyzowane środowisko integracji i ładowania danych. W usłudze Data Factory można definiować procesy zbiorczego ładowania danych polyBase i zarządzać nimi.
Porada
Usługa Data Factory zawiera narzędzia ułatwiające migrację zarówno danych, jak i całego magazynu danych na platformę Azure.
Usługa Data Factory umożliwia implementowanie środowiska hybrydowego i zarządzanie nim za pomocą danych lokalnych, w chmurze, przesyłania strumieniowego i SaaS w bezpieczny i spójny sposób. Dane SaaS mogą pochodzić z aplikacji, takich jak Salesforce.
Uzdatnianie przepływów danych to nowa funkcja w usłudze Data Factory. Ta funkcja otwiera usługę Data Factory użytkownikom biznesowym, którzy chcą wizualnie odnajdywać, eksplorować i przygotowywać dane na dużą skalę bez konieczności pisania kodu. Uzdatnianie przepływów danych oferuje samoobsługowe przygotowywanie danych, podobnie jak w przypadku programu Microsoft Excel, Power Query i przepływów danych usługi Microsoft Power BI. Użytkownicy biznesowi mogą przygotowywać i integrować dane za pomocą interfejsu użytkownika w stylu arkusza kalkulacyjnego z opcjami przekształcania listy rozwijanej.
Usługa Data Factory to zalecane podejście do implementowania integracji danych i procesów ETL/ELT w środowisku Azure Synapse, zwłaszcza jeśli chcesz refaktoryzować istniejące starsze procesy.
Usługi firmy Microsoft do transferu danych fizycznych
W poniższych sekcjach omówiono szereg produktów i usług oferowanych przez firmę Microsoft w celu ułatwienia klientom transferu danych.
Azure ExpressRoute
Usługa Azure ExpressRoute tworzy prywatne połączenia między centrami danych platformy Azure i infrastrukturą lokalną lub w środowisku kolokacji. Połączenia usługi ExpressRoute nie przechodzą przez publiczny Internet i oferują większą niezawodność, szybkość i mniejsze opóźnienia niż typowe połączenia internetowe. W niektórych przypadkach uzyskujesz znaczne korzyści ekonomiczne dzięki połączeniom usługi ExpressRoute w celu przesyłania danych między systemami lokalnymi a platformą Azure.
AzCopy
AzCopy to narzędzie wiersza polecenia, które kopiuje pliki do Azure Blob Storage za pośrednictwem standardowego połączenia internetowego. W projekcie migracji magazynu można użyć narzędzia AzCopy do przekazywania wyodrębnionych, skompresowanych, rozdzielonych plików tekstowych przed załadowaniem ich do Azure Synapse przy użyciu technologii PolyBase. Narzędzie AzCopy może przekazywać poszczególne pliki, wybory plików lub foldery plików. Jeśli wyeksportowane pliki są w formacie Parquet, użyj natywnego czytnika Parquet.
Azure Data Box
Azure Data Box to usługa firmy Microsoft, która udostępnia zastrzeżone fizyczne urządzenie magazynujące, na które można kopiować dane migracji. Następnie należy wysłać urządzenie do centrum danych platformy Azure w celu przekazania danych do magazynu w chmurze. Ta usługa może być opłacalna w przypadku dużych ilości danych, takich jak dziesiątki lub setki terabajtów, lub gdy przepustowość sieci nie jest łatwo dostępna. Usługa Azure Data Box jest zwykle używana na potrzeby dużego jednorazowego ładowania danych historycznych do Azure Synapse.
Azure Data Box Gateway
Azure Data Box Gateway to zwirtualizowane urządzenie bramy magazynu w chmurze, które znajduje się lokalnie i wysyła obrazy, multimedia i inne dane na platformę Azure. Usługa Data Box Gateway umożliwia jednorazowe zadania migracji lub ciągłe przyrostowe przekazywanie danych.
Usługi firmy Microsoft do pozyskiwania danych
W poniższych sekcjach omówiono produkty i usługi oferowane przez firmę Microsoft, aby pomóc klientom w pozyskiwaniu danych.
COPY INTO
Instrukcja COPY INTO zapewnia największą elastyczność pozyskiwania danych o wysokiej przepływności do Azure Synapse. Aby uzyskać więcej informacji na temat COPY INTO
możliwości, zobacz COPY (Transact-SQL).
PolyBase
PolyBase to najszybsza, najbardziej skalowalna metoda zbiorczego ładowania danych do Azure Synapse. Technologia PolyBase używa architektury masowego przetwarzania równoległego (MPP) Azure Synapse na potrzeby równoległego ładowania danych w celu uzyskania najszybszej przepływności. Technologia PolyBase może odczytywać dane z plików prostych w Azure Blob Storage lub bezpośrednio z zewnętrznych źródeł danych i innych relacyjnych baz danych za pośrednictwem łączników.
Porada
Technologia PolyBase może ładować dane równolegle z Azure Blob Storage do Azure Synapse.
Technologia PolyBase może również bezpośrednio odczytywać pliki skompresowane za pomocą narzędzia gzip, aby zmniejszyć ilość danych fizycznych podczas procesu ładowania. Technologia PolyBase obsługuje popularne formaty danych, takie jak tekst rozdzielany, ORC i Parquet.
Porada
Program PolyBase można wywołać z usługi Data Factory w ramach potoku migracji.
Technologia PolyBase jest ściśle zintegrowana z usługą Data Factory w celu zapewnienia szybkiego rozwoju procesów ETL/ELT ładowania danych. Procesy ładowania danych można zaplanować za pomocą wizualnego interfejsu użytkownika w celu zwiększenia produktywności i mniejszej liczby błędów niż ręcznie napisany kod. Firma Microsoft zaleca program PolyBase do pozyskiwania danych do Azure Synapse, szczególnie w przypadku pozyskiwania danych o dużej ilości danych.
Program PolyBase używa CREATE TABLE AS
instrukcji lub INSERT...SELECT
do ładowania danych.
CREATE TABLE AS
minimalizuje rejestrowanie w celu osiągnięcia największej przepływności. Najbardziej wydajny format wejściowy ładowania danych to skompresowane pliki tekstowe rozdzielane. Aby uzyskać maksymalną przepływność, podziel duże pliki wejściowe na wiele mniejszych plików i załaduj je równolegle. Aby uzyskać najszybsze ładowanie do tabeli przejściowej, zdefiniuj tabelę docelową jako HEAP
typ i użyj dystrybucji działania okrężnego.
Technologia PolyBase ma pewne ograniczenia, dlatego długość wiersza danych musi być mniejsza niż 1 megabajt i nie obsługuje formatów zagnieżdżonych o stałej szerokości, takich jak formaty JSON i XML.
Partnerzy firmy Microsoft dla migracji Netezza
Partnerzy firmy Microsoft oferują narzędzia, usługi i wiedzę, aby ułatwić migrowanie starszej platformy magazynu danych lokalnych do Azure Synapse.
Następne kroki
Aby dowiedzieć się więcej na temat implementowania nowoczesnych magazynów danych, zobacz następny artykuł z tej serii: Beyond Netezza migration ,implementowanie nowoczesnego magazynu danych na platformie Microsoft Azure.