Wybieranie technologii aranżacji potoku danych na platformie Azure
Większość rozwiązań do obsługi danych big data składa się z powtarzających się operacji przetwarzania danych, hermetyzowanych w przepływach pracy. Orkiestrator potoków zadań to narzędzie, które pomaga zautomatyzować te przepływy pracy. Orkiestrator może planować zadania, wykonywać przepływy pracy i koordynować zależności między zadaniami.
Jakie są opcje aranżacji potoku danych?
Na platformie Azure następujące usługi i narzędzia spełniają podstawowe wymagania dotyczące aranżacji potoków, przepływu sterowania i przenoszenia danych:
- usługi Azure Data Factory
- Oozie w usłudze HDInsight
- SQL Server Integration Services (SSIS) usług
Te usługi i narzędzia mogą być używane niezależnie od siebie lub używane razem do tworzenia rozwiązania hybrydowego. Na przykład środowisko Integration Runtime (IR) w usłudze Azure Data Factory W wersji 2 może natywnie wykonywać pakiety SSIS w zarządzanym środowisku obliczeniowym platformy Azure. Chociaż istnieją pewne nakładające się funkcje między tymi usługami, istnieje kilka kluczowych różnic.
Kluczowe kryteria wyboru
Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:
Czy potrzebujesz możliwości danych big data do przenoszenia i przekształcania danych? Zwykle oznacza to od wielu gigabajtów do terabajtów danych. Jeśli tak, zawęź opcje do tych, które najlepiej nadają się do obsługi danych big data.
Czy potrzebujesz usługi zarządzanej, która może działać na dużą skalę? Jeśli tak, wybierz jedną z usług w chmurze, które nie są ograniczone przez lokalną moc obliczeniową.
Czy niektóre źródła danych znajdują się lokalnie? Jeśli tak, poszukaj opcji, które mogą współdziałać zarówno z chmurowymi, jak i lokalnymi źródłami danych lub lokalizacjami docelowymi.
Czy dane źródłowe są przechowywane w usłudze Blob Storage w systemie plików HDFS? Jeśli tak, wybierz opcję, która obsługuje zapytania Hive.
Macierz możliwości
W poniższych tabelach podsumowano kluczowe różnice w możliwościach.
Ogólne możliwości
Zdolność | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie w usłudze HDInsight |
---|---|---|---|
Zarządzane | Tak | Nie | Tak |
Chmurowe | Tak | Nie (lokalny) | Tak |
Warunek wstępny | Subskrypcja platformy Azure | SQL Server | Subskrypcja platformy Azure, klaster usługi HDInsight |
Narzędzia do zarządzania | Witryna Azure Portal, program PowerShell, interfejs wiersza polecenia, zestaw SDK platformy .NET | SSMS, PowerShell | Bash, interfejs API REST Oozie, interfejs webowy Oozie |
Ceny | Płatność za użycie | Licencjonowanie/płacenie za funkcje | Brak dodatkowych opłat oprócz uruchomienia klastra usługi HDInsight |
Możliwości rurociągu
Zdolność | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie w usłudze HDInsight |
---|---|---|---|
Kopiowanie danych | Tak | Tak | Tak |
Przekształcenia niestandardowe | Tak | Tak | Tak (zadania MapReduce, Pig i Hive) |
Ocenianie usługi Azure Machine Learning | Tak | Tak (ze skryptami) | Nie |
Usługa HDInsight na żądanie | Tak | Nie | Nie |
Azure Batch | Tak | Nie | Nie |
Pig, Hive, MapReduce | Tak | Nie | Tak |
Iskra | Tak | Nie | Nie |
Uruchom pakiet SSIS | Tak | Tak | Nie |
Sterowanie przebiegiem | Tak | Tak | Tak |
Uzyskiwanie dostępu do danych lokalnych | Tak | Tak | Nie |
Możliwości skalowalności
Zdolność | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie w usłudze HDInsight |
---|---|---|---|
Zwiększenie skali | Tak | Nie | Nie |
Skalowanie w poziomie | Tak | Nie | Tak (dodając węzły robocze do klastra) |
Zoptymalizowane pod kątem dużych zbiorów danych | Tak | Nie | Tak |
Współpracownicy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Zoiner Tejada | Dyrektor generalny i architekt
Następne kroki
- Potoki danych i działania w usługach Azure Data Factory i Azure Synapse Analytics
- Skonfiguruj Integration Runtime Azure-SSIS w usłudze Azure Data Factory
- Oozie w usłudze HDInsight