Transformace dat ve službě Azure Data Factory a Azure Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Důležité
Podpora nástroje Azure Machine Learning Studio (classic) skončí 31. srpna 2024. Doporučujeme, abyste do tohoto data přešli na Azure Machine Learning .
Od 1. prosince 2021 nemůžete vytvářet nové prostředky machine Learning Studia (klasické) (pracovní prostor a plán webových služeb). Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace naleznete v tématu:
- Migrace do Služby Azure Machine Learning z nástroje Machine Learning Studio (Classic)
- Co je Azure Machine Learning?
Dokumentace k nástroji Machine Learning Studio (classic) se vyřadí z provozu a nemusí se v budoucnu aktualizovat.
Přehled
Tento článek vysvětluje aktivity transformace dat v kanálech Azure Data Factory a Synapse, které můžete použít k transformaci a zpracování nezpracovaných dat do předpovědí a přehledů ve velkém měřítku. Aktivita transformace se provádí v výpočetním prostředí, jako je Azure Databricks nebo Azure HDInsight. Obsahuje odkazy na články s podrobnými informacemi o každé aktivitě transformace.
Služba podporuje následující aktivity transformace dat, které je možné přidat do kanálů jednotlivě nebo zřetězených s jinou aktivitou.
Nativní transformace ve službě Azure Data Factory a Azure Synapse Analytics s využitím toků dat
Toky dat mapování
Mapování toků dat jsou vizuálně navržené transformace dat ve službě Azure Data Factory a Azure Synapse. Toky dat umožňují datovým inženýrům vyvíjet grafickou logiku transformace dat bez psaní kódu. Výsledné toky dat se spouští jako aktivity v kanálech, které používají clustery Spark se škálováním na více systémů. Aktivity toku dat je možné zprovoznit prostřednictvím stávajících možností plánování, řízení, toku a monitorování v rámci služby. Další informace najdete v tématu mapování toků dat.
Transformace dat
Power Query ve službě Azure Data Factory umožňuje transformace dat v cloudovém měřítku, což umožňuje iterativní přípravu dat bez kódu v cloudovém měřítku. Transformace dat se integruje s Power Query Online a zpřístupňuje funkce Power Query M pro transformaci dat v cloudovém měřítku prostřednictvím spouštění Sparku. Další informace najdete v tématu Transformace dat ve službě Azure Data Factory.
Poznámka:
Power Query se v současné době podporuje jenom ve službě Azure Data Factory, nikoli ve službě Azure Synapse. Seznam konkrétních funkcí podporovaných v jednotlivých službách najdete v tématu Dostupné funkce v kanálech Azure Data Factory a Azure Synapse Analytics.
Externí transformace
Volitelně můžete transformovat kódy a spravovat externí výpočetní prostředí sami.
Aktivita Hivu služby HDInsight
Aktivita HDInsight Hive v kanálu spouští dotazy Hive na vlastní nebo na vyžádání v clusteru HDInsight založeném na Windows nebo Linuxu. Podrobnosti o této aktivitě najdete v článku o aktivitě Hive.
Aktivita Pig služby HDInsight
Aktivita HDInsight Pig v kanálu spouští dotazy Pig na vlastní nebo na vyžádání v clusteru HDInsight založeném na Windows nebo Linuxu. Podrobnosti o této aktivitě najdete v článku o aktivitě Pig.
Aktivita MapReduce služby HDInsight
Aktivita HDInsight MapReduce v kanálu spouští programy MapReduce ve vašem vlastním clusteru HDInsight nebo na vyžádání se systémem Windows nebo Linux. Podrobnosti o této aktivitě najdete v článku o aktivitě MapReduce.
Aktivita streamování HDInsight
Aktivita streamování HDInsight v kanálu spouští programy hadoop Streaming na vlastní nebo na vyžádání v clusteru HDInsight založeném na Windows nebo Linuxu. Podrobnosti o této aktivitě najdete v tématu Aktivita streamování HDInsight.
Aktivita Sparku služby HDInsight
Aktivita HDInsight Spark v kanálu spouští programy Spark ve vašem vlastním clusteru HDInsight. Podrobnosti najdete v tématu Volání programů Spark pomocí Azure Data Factory nebo Azure Synapse Analytics.
Ml Studio (klasické) aktivity
Důležité
Podpora nástroje Azure Machine Learning Studio (classic) skončí 31. srpna 2024. Doporučujeme, abyste do tohoto data přešli na Azure Machine Learning .
Od 1. prosince 2021 nemůžete vytvářet nové prostředky machine Learning Studia (klasické) (pracovní prostor a plán webových služeb). Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace naleznete v tématu:
- Migrace do Služby Azure Machine Learning z nástroje Machine Learning Studio (Classic)
- Co je Azure Machine Learning?
Dokumentace k nástroji Machine Learning Studio (classic) se vyřadí z provozu a nemusí se v budoucnu aktualizovat.
Služba umožňuje snadno vytvářet kanály, které používají publikovanou webovou službu ML Studio (klasické) pro prediktivní analýzy. Pomocí aktivity Dávkové spouštění v kanálu můžete vyvolat webovou službu Studio (classic), která provede předpovědi na datech v dávce.
V průběhu času je potřeba prediktivní modely v experimentech bodování v sadě Studio (classic) přetrénovat pomocí nových vstupních datových sad. Po opětovném trénování chcete aktualizovat webovou službu bodování pomocí přetrénovaného modelu strojového učení. Aktivitu Aktualizovat prostředek můžete použít k aktualizaci webové služby pomocí nově natrénovaného modelu.
Podrobnosti o těchto aktivitách sady Studio (classic) najdete v tématu Použití aktivit NÁSTROJE ML Studio (classic).
Aktivita uložená procedura
Pomocí aktivity Uložená procedura SQL Serveru v kanálu Data Factory můžete vyvolat uloženou proceduru v jednom z následujících úložišť dat: Azure SQL Database, Azure Synapse Analytics, SQL Server Database ve vašem podniku nebo virtuálním počítači Azure. Podrobnosti najdete v článku o aktivitě Uložená procedura.
Aktivita U-SQL služby Data Lake Analytics
Aktivita U-SQL služby Data Lake Analytics spouští skript U-SQL v clusteru Azure Data Lake Analytics. Podrobnosti najdete v článku o aktivitě U-SQL služby Data Analytics.
Aktivita poznámkového bloku Azure Synapse
Aktivita poznámkového bloku Azure Synapse v kanálu Synapse spouští poznámkový blok Synapse ve vašem pracovním prostoru Azure Synapse. Viz Transformace dat spuštěním poznámkového bloku Azure Synapse.
Aktivita poznámkového bloku Databricks
Aktivita poznámkového bloku Azure Databricks v kanálu spouští poznámkový blok Databricks ve vašem pracovním prostoru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Viz Transformace dat spuštěním poznámkového bloku Databricks.
Aktivita Databricks Jar
Aktivita Jar Azure Databricks v kanálu spouští sparkový jar v clusteru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Prohlédněte si transformaci dat spuštěním aktivity Jar v Azure Databricks.
Aktivita Pythonu v Databricks
Aktivita Pythonu Azure Databricks v kanálu spouští soubor Pythonu v clusteru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Viz Transformace dat spuštěním aktivity Pythonu v Azure Databricks.
Vlastní aktivita
Pokud potřebujete transformovat data způsobem, který služba Data Factory nepodporuje, můžete vytvořit vlastní aktivitu s vlastní logikou zpracování dat a použít aktivitu v kanálu. Vlastní aktivitu .NET můžete nakonfigurovat tak, aby běžela pomocí služby Azure Batch nebo clusteru Azure HDInsight. Podrobnosti najdete v článku Použití vlastních aktivit.
Můžete vytvořit vlastní aktivitu pro spouštění skriptů jazyka R na svém clusteru HDInsight s nainstalovaným jazykem R. Viz Spuštění skriptu R pomocí kanálů Azure Data Factory a Synapse.
Výpočetní prostředí
Vytvoříte propojenou službu pro výpočetní prostředí a pak použijete propojenou službu při definování aktivity transformace. Existují dva podporované typy výpočetních prostředí.
- Na vyžádání: V tomto případě je výpočetní prostředí plně spravované službou. Služba ji automaticky vytvoří před odesláním úlohy ke zpracování dat a odebrání po dokončení úlohy. Můžete nakonfigurovat a řídit podrobná nastavení výpočetního prostředí na vyžádání pro spouštění úloh, správu clusteru a spouštěcí akce.
- Přineste si vlastní: V tomto případě můžete jako propojenou službu zaregistrovat vlastní výpočetní prostředí (například cluster HDInsight). Výpočetní prostředí spravujete vy a služba ho používá k provádění aktivit.
Informace o podporovaných výpočetních službách najdete v článku o propojených výpočetních službách .
Související obsah
Příklad použití aktivity transformace najdete v následujícím kurzu: Kurz: Transformace dat pomocí Sparku