Condividi tramite


Trasformare i dati in Azure Data Factory e Azure Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

Importante

Il supporto di Azure Machine Learning Studio (versione classica) terminerà il 31 agosto 2024. Si consiglia di passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non è possibile creare nuove risorse (area di lavoro e piano di servizio Web) dello di Machine Learning Studio (versione classica). Fino al 31 agosto 2024 è possibile continuare a usare gli esperimenti e i servizi Web esistenti di Machine Learning Studio (versione classica). Per altre informazioni, vedi:

La documentazione relativa a Machine Learning Studio (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Panoramica

Questo articolo illustra le attività di trasformazione dei dati nelle pipeline di Azure Data Factory e Synapse da usare per trasformare ed elaborare i dati non elaborati in stime e informazioni dettagliate su larga scala. L'attività di trasformazione viene eseguita in un ambiente di elaborazione, ad esempio Azure Databricks o Azure HDInsight. Vengono forniti i collegamenti ad articoli con informazioni dettagliate su ciascuna attività di trasformazione.

Il servizio supporta le seguenti attività di trasformazione dei dati che possono essere aggiunte a pipeline singolarmente o con un'altra attività concatenata.

Trasformare in modo nativo in Azure Data Factory e Azure Synapse Analytics con flussi di dati

Flussi di dati di mapping

I flussi di dati di mapping sono trasformazioni dei dati progettate visivamente in Azure Data Factory e Azure Synapse. I flussi di dati consentono agli ingegneri dei dati di sviluppare graficamente la logica delle trasformazioni dei dati senza scrivere codice. I flussi di dati risultanti vengono eseguiti come attività all'interno di pipeline che usano cluster Spark con scalabilità orizzontale. Le attività del flusso di dati possono essere operazionalizzate tramite funzionalità esistenti di pianificazione, controllo, flusso e monitoraggio all'interno del servizio. Per altre informazioni, vedere Flussi di dati per mapping.

Data wrangling

Power Query in Azure Data Factory permette il data wrangling su scala cloud, che consente di eseguire la preparazione dei dati senza codice a livello di cloud in modo iterativo. Il data wrangling si integra con Power Query Online e rende disponibili le funzioni M di Power Query per il data wrangling su larga scala cloud tramite l'esecuzione di Spark. Per altre informazioni, vedere Data wrangling in Azure Data Factory.

Nota

Power Query è attualmente supportato solo in Azure Data Factory e non in Azure Synapse. Per un elenco delle funzionalità specifiche supportate in ogni servizio, vedere Funzionalità disponibili nelle pipeline di Azure Data Factory e Azure Synapse Analytics.

Trasformazioni esterne

Facoltativamente è possibile trasformare manualmente il codice e gestire manualmente l'ambiente di calcolo esterno.

Attività Hive di HDInsight

L'attività Hive di HDInsight in una pipeline esegue query Hive sul proprio cluster HDInsight o sul cluster HDInsight su richiesta basato su Windows o Linux. Per i dettagli su questa attività, vedere l'articolo Attività Hive.

Attività Pig di HDInsight

L'attività Pig di HDInsight in una pipeline esegue query Pig sul cluster HDInsight dell'utente o sul cluster HDInsight su richiesta basato su Windows o Linux. Per i dettagli su questa attività, vedere l'articolo Attività Pig.

Attività MapReduce di HDInsight

L'attività HDInsight MapReduce in una pipeline esegue i programmi di MapReduce nei cluster HDInsight personalizzati o su richiesta basati su Windows/Linux. Per i dettagli su questa attività, vedere l'articolo Attività MapReduce.

Attività di streaming di HDInsight

L'attività HDInsight Streaming in una pipeline esegue i programmi di Hadoop Streaming nei cluster HDInsight personalizzati o su richiesta basati su Windows o Linux. Vedere l' attività di streaming di HDInsight per i dettagli.

Attività HDInsight Spark

L'attività Spark di HDInsight in una pipeline esegue programmi Spark nel cluster HDInsight personale. Per informazioni dettagliate, vedere Richiamare programmi Spark con Azure Data Factory o Azure Synapse Analytics.

Attività di ML Studio (versione classica)

Importante

Il supporto di Azure Machine Learning Studio (versione classica) terminerà il 31 agosto 2024. Si consiglia di passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non è possibile creare nuove risorse (area di lavoro e piano di servizio Web) dello di Machine Learning Studio (versione classica). Fino al 31 agosto 2024 è possibile continuare a usare gli esperimenti e i servizi Web esistenti di Machine Learning Studio (versione classica). Per altre informazioni, vedi:

La documentazione relativa a Machine Learning Studio (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Il servizio consente di creare facilmente pipeline che usano un servizio Web di ML Studio (versione classica) pubblicato per l'analisi predittiva. Usando l'attività Batch Execution in una pipeline, è possibile richiamare un servizio Web di Studio (versione classica) per eseguire stime sui dati in batch.

Nel corso del tempo è necessario ripetere il training dei modelli predittivi negli esperimenti di assegnazione dei punteggi di Studio (versione classica) usando nuovi set di dati di input. Dopo la ripetizione del training, aggiornare il servizio Web di assegnazione dei punteggi con il modello di Machine Learning di cui è stato ripetuto il training. È possibile usare l'attività Aggiorna risorsa per aggiornare il servizio Web con il nuovo modello con training.

Vedere Usare le attività di ML Studio (versione classica) per informazioni dettagliate su queste attività di Studio (versione classica).

Attività stored procedure

È possibile usare l'attività stored procedure di SQL Server in una pipeline di Data Factory per richiamare una stored procedure in uno dei seguenti archivi dati: Database SQL di Azure, Azure Synapse Analytics, database di SQL Server nell'organizzazione o in una VM Azure. Per i dettagli, vedere l'articolo Attività stored procedure.

Attività U-SQL di Data Lake Analytics

L'attività U-SQL di Data Lake Analytics esegue uno script U-SQL in un cluster Azure Data Lake Analytics. Per i dettagli, vedere l'articolo Attività U-SQL di Analisi dei dati.

Attività Notebook di Azure Synapse

L'attività Notebook di Azure Synapse in una pipeline di Synapse esegue un notebook di Synapse nell'area di lavoro di Azure Synapse. Vedere Trasformare i dati eseguendo un notebook di Azure Synapse.

Attività dei notebook di Databricks

L'attività Notebook di Azure Databricks in una pipeline esegue un notebook di Databricks nell'area di lavoro di Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un notebook di Databricks.

Attività JAR di Databricks

L'attività JAR di Azure Databricks in una pipeline esegue un file JAR di Spark nel cluster di Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un'attività JAR in Azure Databricks.

Attività Python di Databricks

L'attività Python di Azure Databricks in una pipeline esegue un file Python nel cluster di Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un'attività Python in Azure Databricks.

Impegno personalizzato

Se è necessario trasformare i dati in una modalità non supportata da Data Factory, è possibile creare un'attività personalizzata contenente la logica di elaborazione dei dati richiesta e usarla nella pipeline. È possibile configurare l'attività .NET personalizzata da eseguire usando il servizio Azure Batch o un cluster Azure HDInsight. Vedere l'articolo Usare le attività personalizzate per i dettagli.

È possibile creare un'attività personalizzata per eseguire gli script R nel cluster HDInsight con R installato. Vedere Eseguire script R usando pipeline di Azure Data Factory e Synapse.

Ambienti di calcolo

Creare un servizio collegato per l'ambiente di calcolo e quindi usare il servizio collegato quando si definisce un'attività di trasformazione. Esistono due tipi supportati di ambienti di calcolo.

  • Su richiesta: in questo caso l'ambiente informatico è completamente gestito dal servizio. Viene automaticamente creato dal servizio prima che un processo venga inviato per l’elaborazione dati e rimosso quando il processo viene completato. È possibile configurare e controllare le impostazioni granulari dell'ambiente di elaborazione su richiesta per l'esecuzione del processo, la gestione del cluster e azioni di avvio automatico.
  • BYO (Bring Your Own): in questo caso è possibile registrare il proprio ambiente di elaborazione, ad esempio cluster HDInsight, come servizio collegato. L'ambiente di elaborazione viene gestito dall'utente e il servizio lo usa per eseguire le attività.

Per informazioni sui servizi di calcolo supportati, vedere l'articolo Servizi di calcolo collegati.

Per un esempio di uso di un'attività di trasformazione, vedere l'esercitazione seguente: Tutorial: transform data using Spark (Esercitazione: Trasformare dati tramite Spark)