Udostępnij za pośrednictwem


Wybieranie technologii aranżacji potoku danych na platformie Azure

Większość rozwiązań do obsługi danych big data składa się z powtarzających się operacji przetwarzania danych, hermetyzowanych w przepływach pracy. Orkiestrator potoków zadań to narzędzie, które pomaga zautomatyzować te przepływy pracy. Orkiestrator może planować zadania, wykonywać przepływy pracy i koordynować zależności między zadaniami.

Jakie są opcje aranżacji potoku danych?

Na platformie Azure następujące usługi i narzędzia spełniają podstawowe wymagania dotyczące aranżacji potoków, przepływu sterowania i przenoszenia danych:

Te usługi i narzędzia mogą być używane niezależnie od siebie lub używane razem do tworzenia rozwiązania hybrydowego. Na przykład środowisko Integration Runtime (IR) w usłudze Azure Data Factory W wersji 2 może natywnie wykonywać pakiety SSIS w zarządzanym środowisku obliczeniowym platformy Azure. Chociaż istnieją pewne nakładające się funkcje między tymi usługami, istnieje kilka kluczowych różnic.

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

  • Czy potrzebujesz możliwości danych big data do przenoszenia i przekształcania danych? Zwykle oznacza to od wielu gigabajtów do terabajtów danych. Jeśli tak, zawęź opcje do tych, które najlepiej nadają się do obsługi danych big data.

  • Czy potrzebujesz usługi zarządzanej, która może działać na dużą skalę? Jeśli tak, wybierz jedną z usług w chmurze, które nie są ograniczone przez lokalną moc obliczeniową.

  • Czy niektóre źródła danych znajdują się lokalnie? Jeśli tak, poszukaj opcji, które mogą współdziałać zarówno z chmurowymi, jak i lokalnymi źródłami danych lub lokalizacjami docelowymi.

  • Czy dane źródłowe są przechowywane w usłudze Blob Storage w systemie plików HDFS? Jeśli tak, wybierz opcję, która obsługuje zapytania Hive.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Ogólne możliwości

Zdolność Azure Data Factory SQL Server Integration Services (SSIS) Oozie w usłudze HDInsight
Zarządzane Tak Nie Tak
Chmurowe Tak Nie (lokalny) Tak
Warunek wstępny Subskrypcja platformy Azure SQL Server Subskrypcja platformy Azure, klaster usługi HDInsight
Narzędzia do zarządzania Witryna Azure Portal, program PowerShell, interfejs wiersza polecenia, zestaw SDK platformy .NET SSMS, PowerShell Bash, interfejs API REST Oozie, interfejs webowy Oozie
Ceny Płatność za użycie Licencjonowanie/płacenie za funkcje Brak dodatkowych opłat oprócz uruchomienia klastra usługi HDInsight

Możliwości rurociągu

Zdolność Azure Data Factory SQL Server Integration Services (SSIS) Oozie w usłudze HDInsight
Kopiowanie danych Tak Tak Tak
Przekształcenia niestandardowe Tak Tak Tak (zadania MapReduce, Pig i Hive)
Ocenianie usługi Azure Machine Learning Tak Tak (ze skryptami) Nie
Usługa HDInsight na żądanie Tak Nie Nie
Azure Batch Tak Nie Nie
Pig, Hive, MapReduce Tak Nie Tak
Iskra Tak Nie Nie
Uruchom pakiet SSIS Tak Tak Nie
Sterowanie przebiegiem Tak Tak Tak
Uzyskiwanie dostępu do danych lokalnych Tak Tak Nie

Możliwości skalowalności

Zdolność Azure Data Factory SQL Server Integration Services (SSIS) Oozie w usłudze HDInsight
Zwiększenie skali Tak Nie Nie
Skalowanie w poziomie Tak Nie Tak (dodając węzły robocze do klastra)
Zoptymalizowane pod kątem dużych zbiorów danych Tak Nie Tak

Współpracownicy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Następne kroki