Volba technologie orchestrace datových kanálů v Azure
Většina řešení pro velké objemy dat se skládá z opakovaných operací zpracování dat zapouzdřených v pracovních postupech. Orchestrátor pipeline je nástroj, který pomáhá automatizovat tyto pracovní postupy. Orchestrátor může plánovat úlohy, spouštět pracovní postupy a koordinovat závislosti mezi úkoly.
Jaké máte možnosti orchestrace datových kanálů?
V Azure budou následující služby a nástroje splňovat základní požadavky na orchestraci kanálů, tok řízení a přesun dat:
Tyto služby a nástroje je možné používat nezávisle na sobě nebo je můžete použít společně k vytvoření hybridního řešení. Například prostředí Integration Runtime (IR) ve službě Azure Data Factory V2 může nativně spouštět balíčky SSIS ve spravovaném výpočetním prostředí Azure. I když se některé funkce mezi těmito službami překrývají, existuje několik klíčových rozdílů.
Kritéria výběru klíčová
Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:
Potřebujete funkce pro velké objemy dat pro přesun a transformaci dat? Obvykle to znamená od gigabajtů po terabajty dat. Pokud ano, zužte možnosti na ty, které jsou nejvhodnější pro velké objemy dat.
Vyžadujete spravovanou službu, která může fungovat ve velkém? Pokud ano, vyberte jednu z cloudových služeb, které nejsou omezené místním výpočetním výkonem.
Jsou některé z vašich zdrojů dat umístěné místně? Pokud ano, vyhledejte možnosti, které můžou pracovat s cloudovými i místními zdroji dat nebo cíli.
Jsou zdrojová data uložená v úložišti typu Blob v systému souborů HDFS? Pokud ano, zvolte možnost, která podporuje dotazy Hive.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Obecné možnosti
Schopnost | Azure Data Factory | SSIS (SQL Server Integration Services) | Oozie ve službě HDInsight |
---|---|---|---|
Řízený | Ano | Ne | Ano |
Cloudové | Ano | Ne (místní) | Ano |
Předpoklad | Předplatné Azure | SQL Server | Předplatné Azure, cluster HDInsight |
Nástroje pro správu | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Prostředí Bash, Oozie REST API, Oozie webové uživatelské rozhraní |
Stanovení cen | Platba za využití | Licencování / platba za funkce | Bez dalších poplatků za provoz clusteru HDInsight |
Možnosti potrubí
Schopnost | Azure Data Factory | SSIS (SQL Server Integration Services) | Oozie ve službě HDInsight |
---|---|---|---|
Kopírování dat | Ano | Ano | Ano |
Vlastní transformace | Ano | Ano | Ano (úlohy MapReduce, Pig a Hive) |
Bodování ve službě Azure Machine Learning | Ano | Ano (se skriptováním) | Ne |
HDInsight na vyžádání | Ano | Ne | Ne |
Azure Batch | Ano | Ne | Ne |
Pig, Hive, MapReduce | Ano | Ne | Ano |
Jiskra | Ano | Ne | Ne |
Spuštění balíčku SSIS | Ano | Ano | Ne |
Řízení toku | Ano | Ano | Ano |
Přístup k místním datům | Ano | Ano | Ne |
Možnosti škálovatelnosti
Schopnost | Azure Data Factory | SSIS (SQL Server Integration Services) | Oozie ve službě HDInsight |
---|---|---|---|
Navýšení kapacity | Ano | Ne | Ne |
Horizontální navýšení kapacity | Ano | Ne | Ano (přidáním pracovních uzlů do clusteru) |
Optimalizované pro velké objemy dat | Ano | Ne | Ano |
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Zoiner Tejada | Generální ředitel a architekt
Další kroky
- Pipelines a aktivity v Azure Data Factory a Azure Synapse Analytics
- zřízení prostředí Azure-SSIS Integration Runtime ve službě Azure Data Factory
- Oozie ve službě HDInsight