Scegliere una tecnologia per l'analisi dei dati e la creazione di report in Azure
L'obiettivo della maggior parte delle soluzioni per Big Data è fornire informazioni dettagliate sui dati tramite strumenti di analisi e report. Possono essere inclusi anche visualizzazioni e report preconfigurati o funzionalità per l'esplorazione dei dati in modalità interattiva.
Opzioni disponibili per la scelta di una tecnologia per l'analisi dei dati
Sono disponibili diverse opzioni per l'analisi e la creazione di visualizzazioni e report in Azure, in base alle esigenze specifiche:
- Power BI
- Notebook di Jupyter
- Notebook di Zeppelin
- Notebook di Jupyter in Visual Studio Code (VS Code)
Power BI
Power BI è una famiglia di strumenti di analisi business che può connettersi a centinaia di origini dati e può essere usata per analisi ad hoc. Per informazioni sulle origini dati attualmente disponibili, vedere questo elenco. Usare Power BI Embedded per integrare Power BI nelle applicazioni senza richiedere licenze aggiuntive.
Power BI può essere usato per generare report e pubblicarli all'interno di un'organizzazione. Qualsiasi utente può creare dashboard personalizzati, con governance e sicurezza integrata. Power BI usa Microsoft Entra ID per autenticare gli utenti che accedono al servizio Power BI e usa le credenziali di accesso di Power BI ogni volta che un utente tenta di accedere alle risorse che richiedono l'autenticazione.
Notebook di Jupyter
L'ambiente per notebook di Jupyter offre una shell basata su browser che consente ai data scientist di creare file di notebook contenenti codice Python, Scala o R e testo di markdown e collaborare così in modo più efficiente condividendo e commentando codice e risultati in unico documento.
La maggior parte dei cluster HDInsight, ad esempio Spark o Hadoop, è preconfigurata con notebook di Jupyter per l'interazione con i dati e l'invio di processi per l'elaborazione. A seconda del tipo di cluster HDInsight in uso, sono disponibili kernel per l'interpretazione e l'esecuzione del codice. I cluster Spark in HDInsight, ad esempio, offrono kernel correlati a Spark che è possibile selezionare per eseguire il codice Python o Scala usando il motore Spark.
I notebook di Jupyter offrono un ambiente ideale per l'analisi, la visualizzazione e l'elaborazione dei dati prima di creare visualizzazioni più avanzate con uno strumento di business intelligence per la creazione di report come Power BI.
Notebook di Zeppelin
I notebook di Zeppelin offrono un'altra opzione per l'uso di una shell basata su browser con funzionalità simili a quelle di Jupyter. Alcuni cluster HDInsight sono preconfigurati con notebook di Zeppelin. Se tuttavia si usa un cluster HDInsight Interactive Query (Hive LLAP), Zeppelin offre attualmente l'unico tipo di notebook possibile per l'esecuzione di query Hive interattive. Se inoltre si usa un cluster HDInsight aggiunto al dominio, i notebook di Zeppelin sono l'unico tipo che consente di assegnare account di accesso utente diversi per controllare l'accesso ai notebook e alle tabelle Hive sottostanti.
Notebook di Jupyter in VS Code
VS Code è un editor di codice gratuito e una piattaforma di sviluppo che è possibile usare in locale o connesso al calcolo remoto. In combinazione con l'estensione Jupyter, offre un ambiente completo per lo sviluppo di Jupyter che può essere migliorato con estensioni del linguaggio aggiuntive. Se si vuole un'esperienza Jupyter ottimale e gratuita con la possibilità di usare il calcolo preferito, questa è un'ottima opzione. Usando VS Code, è possibile sviluppare ed eseguire notebook su contenitori e remoti. Per semplificare la transizione da Azure Notebooks, è stata resa disponibile anche l'immagine del contenitore in modo che possa essere usata anche con VISUAL Studio Code.
Jupyter (in precedenza IPython Notebook) è un progetto open source che consente di combinare facilmente il testo Markdown e il codice sorgente Python eseguibile in un'area di disegno denominata notebook. Visual Studio Code supporta l'uso di Jupyter Notebook in modo nativo e tramite i file di codice Python.
Criteri di scelta principali
Per limitare le possibilità di scelta, rispondere prima di tutto a queste domande:
È necessario connettersi a numerose origini dati, fornendo una soluzione centralizzata per creare report per la distribuzione dei dati in tutto il dominio? In caso affermativo, scegliere un'opzione che consenta di connettersi a centinaia di origini dati.
Si vogliono incorporare visualizzazioni dinamiche in un'applicazione o un sito Web esterno? In caso affermativo, scegliere un'opzione che fornisca funzionalità di incorporamento.
Si vogliono progettare visualizzazioni e report in modalità offline? In caso affermativo, scegliere un'opzione con funzionalità disponibili offline.
È richiesta una notevole potenza di elaborazione per eseguire il training di modelli di intelligenza artificiale grandi o complessi o gestire set di dati di dimensioni particolarmente elevate? In caso affermativo, scegliere un'opzione in grado di connettersi a un cluster di Big Data.
Matrice delle funzionalità
Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.
Funzionalità generali
Funzionalità | Power BI | Notebook di Jupyter | Notebook di Zeppelin | Notebook di Jupyter in VS Code |
---|---|---|---|---|
Connessione a un cluster di Big Data per l'elaborazione avanzata | Sì | Sì | Sì | No |
Servizio gestito | Sì | Sì 1 | Sì 1 | Sì |
Connessione a centinaia di origini dati | Sì | No | No | No |
Funzionalità offline | Sì 2 | No | No | No |
Funzionalità di incorporamento | Sì | No | No | No |
Aggiornamento automatico dei dati | Sì | No | No | No |
Accesso a numerosi pacchetti open source | No | Sì 3 | Sì 3 | Sì 4 |
Opzioni di trasformazione/pulizia dei dati | Power Query, R | 40 linguaggi, inclusi Python, R, Julia e Scala | Più di 20 interpreti, inclusi Python, JDBC e R | Python, F#, R |
Prezzi | Gratuito per Power BI Desktop (creazione), vedere Prezzi per le opzioni di hosting | Gratuito | Gratuito | Gratuito |
Collaborazione multiutente | Sì | Sì (tramite la condivisione o con un server multiutente come JupyterHub) | Sì | Sì (tramite la condivisione) |
[1] Quando è usato come parte di un cluster HDInsight gestito.
[2] Con l'uso di Power BI Desktop.
[3] È possibile cercare i pacchetti creati con il contributo della community nel repository Maven.
[3] I pacchetti Python possono essere installati usando pip o Conda. I pacchetti R possono essere installati da CRAN o GitHub. I pacchetti F# possono essere installati tramite nuget.org usando l'utilità di gestione dipendenze Paket.
Collaboratori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.
Autore principale:
- Zoiner Tejada | CEO e architetto
Passaggi successivi
- Introduzione ai notebook di Jupyter per Python
- Notebook
- Eseguire notebook di Azure Databricks con Azure Data Factory
- Eseguire Jupyter Notebook nell'area di lavoro
- Che cos'è Power BI?