Sdílet prostřednictvím


Volba technologie orchestrace datových kanálů v Azure

Většina řešení pro velké objemy dat se skládá z opakovaných operací zpracování dat zapouzdřených v pracovních postupech. Orchestrátor pipeline je nástroj, který pomáhá automatizovat tyto pracovní postupy. Orchestrátor může plánovat úlohy, spouštět pracovní postupy a koordinovat závislosti mezi úkoly.

Jaké máte možnosti orchestrace datových kanálů?

V Azure budou následující služby a nástroje splňovat základní požadavky na orchestraci kanálů, tok řízení a přesun dat:

Tyto služby a nástroje je možné používat nezávisle na sobě nebo je můžete použít společně k vytvoření hybridního řešení. Například prostředí Integration Runtime (IR) ve službě Azure Data Factory V2 může nativně spouštět balíčky SSIS ve spravovaném výpočetním prostředí Azure. I když se některé funkce mezi těmito službami překrývají, existuje několik klíčových rozdílů.

Kritéria výběru klíčová

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

  • Potřebujete funkce pro velké objemy dat pro přesun a transformaci dat? Obvykle to znamená od gigabajtů po terabajty dat. Pokud ano, zužte možnosti na ty, které jsou nejvhodnější pro velké objemy dat.

  • Vyžadujete spravovanou službu, která může fungovat ve velkém? Pokud ano, vyberte jednu z cloudových služeb, které nejsou omezené místním výpočetním výkonem.

  • Jsou některé z vašich zdrojů dat umístěné místně? Pokud ano, vyhledejte možnosti, které můžou pracovat s cloudovými i místními zdroji dat nebo cíli.

  • Jsou zdrojová data uložená v úložišti typu Blob v systému souborů HDFS? Pokud ano, zvolte možnost, která podporuje dotazy Hive.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Obecné možnosti

Schopnost Azure Data Factory SSIS (SQL Server Integration Services) Oozie ve službě HDInsight
Řízený Ano Ne Ano
Cloudové Ano Ne (místní) Ano
Předpoklad Předplatné Azure SQL Server Předplatné Azure, cluster HDInsight
Nástroje pro správu Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Prostředí Bash, Oozie REST API, Oozie webové uživatelské rozhraní
Stanovení cen Platba za využití Licencování / platba za funkce Bez dalších poplatků za provoz clusteru HDInsight

Možnosti potrubí

Schopnost Azure Data Factory SSIS (SQL Server Integration Services) Oozie ve službě HDInsight
Kopírování dat Ano Ano Ano
Vlastní transformace Ano Ano Ano (úlohy MapReduce, Pig a Hive)
Bodování ve službě Azure Machine Learning Ano Ano (se skriptováním) Ne
HDInsight na vyžádání Ano Ne Ne
Azure Batch Ano Ne Ne
Pig, Hive, MapReduce Ano Ne Ano
Jiskra Ano Ne Ne
Spuštění balíčku SSIS Ano Ano Ne
Řízení toku Ano Ano Ano
Přístup k místním datům Ano Ano Ne

Možnosti škálovatelnosti

Schopnost Azure Data Factory SSIS (SQL Server Integration Services) Oozie ve službě HDInsight
Navýšení kapacity Ano Ne Ne
Horizontální navýšení kapacity Ano Ne Ano (přidáním pracovních uzlů do clusteru)
Optimalizované pro velké objemy dat Ano Ne Ano

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky