Condividi tramite


Domande frequenti sull'analisi su scala cloud

Di seguito sono riportate domande comuni sull'analisi su scala cloud.

Account di archiviazione

Perché sono necessari tre account di archiviazione separati? Non è possibile averne solo uno con tre contenitori per ogni livello (non elaborato, ottimizzato e curato)?

La maggior parte dei modelli di analisi dei dati esiste attualmente con i tre livelli di dati non elaborati, perfezionati e curati. Anche se possono essere mantenuti nella stessa risorsa di archiviazione, quando si tratta di implementazioni su larga scala si verificano problemi con il superamento del numero di autorizzazioni di controllo degli accessi in base al ruolo ed elenco di controllo di accesso (ACL) consentite disponibili all'interno di un singolo account di archiviazione. Quando si usano account di archiviazione separati, la maggior parte delle implementazioni può evitare questo problema.

Altri motivi sono descritti in Panoramica delle Azure Data Lake Storage per l'analisi su scala cloud.

Databricks

È necessario distribuire un'area di lavoro di Azure Databricks per ogni prodotto?

È consigliabile usare l'area di lavoro di data science e analisi di Azure Databricks per il prodotto condiviso all'interno della zona di destinazione.

Questa decisione è stata presa per ridurre il sovraccarico di gestione per il team operativo della piattaforma dati. Azure Databricks dispone di un set di criteri autonomi che non sono integrati nei criteri di Azure. In un ambiente di grandi dimensioni, la configurazione di più aree di lavoro di Azure Databricks crea un sovraccarico di gestione maggiore. Ad esempio, la gestione dei criteri e delle versioni Apache Hive supportate, l'aggiornamento delle versioni di ADB e l'applicazione del metastore Apache Hive. Non è possibile che un team della piattaforma centrale possa applicare determinate impostazioni all'interno delle aree di lavoro di Databricks. È consigliabile avere aree di lavoro condivise per i team di prodotto nelle zone di destinazione, in cui i team delle operazioni della piattaforma dati possono quindi definire i criteri del cluster e gli script di inizializzazione necessari.

È consigliabile usare il peering reti virtuali tra le zone di destinazione e gli endpoint privati. Per Azure Databricks, usare l'inserimento di reti virtuali. Poiché è presente visibilità diretta per tutti gli endpoint, non si verificano problemi di connettività.

Passaggi successivi

Processo di inserimento con l'analisi su scala cloud in Azure