Usare Azure Data Factory per eseguire la migrazione dei dati dal data lake o dal data warehouse ad Azure
SI APPLICA A: Azure Data Factory Azure Synapse Analytics
Suggerimento
Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!
Se si vuole eseguire la migrazione del data lake o del data warehouse aziendale (EDW) a Microsoft Azure, è consigliabile usare Azure Data Factory. Azure Data Factory è particolarmente adatto agli scenari seguenti:
- Migrazione del carico di lavoro big data da Amazon Simple Storage Service (Amazon S3) o da un file system hadoop distribuito (HDFS) locale ad Azure
- Migrazione EDW da Oracle Exadata, Netezza, Teradata o Amazon Redshift ad Azure
Azure Data Factory può spostare petabyte (PB) di dati per la migrazione del data lake e decine di terabyte (TB) di dati per la migrazione del data warehouse.
Perché è possibile usare Azure Data Factory per la migrazione dei dati
- Azure Data Factory può aumentare facilmente la potenza di elaborazione per spostare i dati in modo serverless con prestazioni elevate, resilienza e scalabilità. E si paga solo per ciò che si usa. Si noti anche quanto segue:
- Azure Data Factory non presenta limitazioni sul volume di dati o sul numero di file.
- Azure Data Factory può usare completamente la larghezza di banda di rete e archiviazione per ottenere il volume massimo di velocità effettiva di spostamento dei dati nell'ambiente.
- Azure Data Factory usa un metodo con pagamento in base al consumo, in modo da pagare solo per il tempo effettivamente usato per eseguire la migrazione dei dati ad Azure.
- Azure Data Factory può eseguire un carico cronologico una tantum e carichi incrementali pianificati.
- Azure Data Factory usa il runtime di integrazione di Azure per spostare i dati tra endpoint data lake e warehouse accessibili pubblicamente. Può anche usare il runtime di integrazione self-hosted per lo spostamento dei dati per gli endpoint data lake e warehouse all'interno di Azure Rete virtuale (VNet) o dietro un firewall.
- Azure Data Factory offre sicurezza di livello aziendale: è possibile usare Windows Installer (MSI) o l'identità del servizio per l'integrazione da servizio a servizio protetta oppure usare Azure Key Vault per la gestione delle credenziali.
- Azure Data Factory offre un'esperienza di creazione senza codice e un dashboard di monitoraggio predefinito avanzato.
Migrazione dei dati online e offline
Azure Data Factory è uno strumento di migrazione dei dati online standard per trasferire i dati tramite una rete (Internet, ER o VPN). Mentre con la migrazione dei dati offline, gli utenti spediscono fisicamente i dispositivi di trasferimento dei dati dall'organizzazione a un data center di Azure.
Quando si sceglie tra un approccio di migrazione online e offline, è necessario tenere presenti tre considerazioni principali:
- Dimensioni dei dati di cui eseguire la migrazione
- Larghezza di banda della rete
- Finestra di migrazione
Si supponga, ad esempio, di voler usare Azure Data Factory per completare la migrazione dei dati entro due settimane (finestra di migrazione). Si noti la linea di taglio rosa/blu nella tabella seguente. La cella rosa più bassa per una determinata colonna mostra l'associazione di dimensioni dati/larghezza di banda di rete la cui finestra di migrazione è più vicina a ma meno di due settimane. Qualsiasi associazione di dimensioni/larghezza di banda in una cella blu ha una finestra di migrazione online di più di due settimane.
Questa tabella consente di determinare se è possibile soddisfare la finestra di migrazione prevista tramite la migrazione online (Azure Data Factory) in base alle dimensioni dei dati e alla larghezza di banda di rete disponibile. Se la finestra di migrazione online è superiore a due settimane, è consigliabile usare la migrazione offline.
Nota
Usando la migrazione online, è possibile ottenere sia il caricamento dei dati cronologici che i feed incrementali end-to-end tramite un unico strumento. Tramite questo approccio, i dati possono essere mantenuti sincronizzati tra l'archivio esistente e il nuovo archivio durante l'intera finestra di migrazione. Ciò significa che è possibile ricompilare la logica ETL nel nuovo archivio con i dati aggiornati.