Condividi tramite


Informazioni su Apache Spark™ in HDInsight su AKS (anteprima)

Nota

Azure HDInsight su AKS verrà ritirato il 31 gennaio 2025. Prima del 31 gennaio 2025, sarà necessario eseguire la migrazione dei carichi di lavoro a Microsoft Fabric o a un prodotto Azure equivalente per evitare interruzioni improvvise dei carichi di lavoro. I cluster rimanenti nella sottoscrizione verranno arrestati e rimossi dall’host.

Solo il supporto di base sarà disponibile fino alla data di ritiro.

Importante

Questa funzionalità è attualmente disponibile solo in anteprima. Le Condizioni per l'utilizzo supplementari per le anteprime di Microsoft Azure includono termini legali aggiuntivi che si applicano a funzionalità di Azure in versione beta, in anteprima o in altro modo non ancora disponibili a livello generale. Per informazioni su questa anteprima specifica, vedere Informazioni sull'anteprima di Azure HDInsight nel servizio Azure Kubernetes. Per domande o suggerimenti sulle funzionalità, inviare una richiesta in AskHDInsight con i dettagli e seguire Microsoft per altri aggiornamenti nella Community di Azure HDInsight.

Apache Spark™ è un framework di elaborazione parallela che supporta l'elaborazione in memoria per migliorare le prestazioni delle applicazioni di analisi di Big Data.

Apache Spark™ fornisce le primitive per il cluster computing in memoria. Un processo Spark può caricare i dati e memorizzarli nella cache in memoria ed eseguire query su di essi ripetutamente. L'elaborazione in memoria è più veloce rispetto alle applicazioni basate su disco, ad esempio Hadoop, che condivide dati tramite HDFS (Hadoop Distributed File System). Apache Spark consente l'integrazione con i linguaggi di programmazione Scala e Python per consentire di modificare set di dati distribuiti come raccolte locali. Non è necessario strutturare tutti gli elementi come operazioni di mapping e riduzione.

Diagramma che mostra la panoramica di Spark in HDInsight su AKS.

Cluster Apache Spark con HDInsight su AKS

Azure HDInsight è un servizio di analisi open source, gestito e ad ampio spettro per le aziende.

Apache Spark™ in Azure HDInsight su AKS è il servizio Spark gestito in Microsoft Azure. Con Apache Spark in Azure HDInsight su AKS è possibile archiviare ed elaborare tutti i dati in Azure. I cluster Spark in HDInsight sono compatibili con Azure Data Lake Storage Gen2, consentendo di applicare l'elaborazione Spark negli archivi dati esistenti.

Il framework Apache Spark per HDInsight su AKS consente di velocizzare cluster computing e analisi dei dati grazie all'elaborazione in memoria. Jupyter Notebook consente di interagire con i dati, combinare codice con testo di markdown ed eseguire semplici visualizzazioni.

Apache Spark nel servizio Azure Kubernetes in HDInsight composto da più componenti come pod.

Controller dei cluster

I controller del cluster sono responsabili dell'installazione e della gestione del rispettivo servizio. Diversi controller vengono installati e gestiti in un cluster Spark.

Componenti del servizio Apache Spark

Servizio Zookeeper: un cluster Zookeeper a tre nodi, funge da coordinatore distribuito o archiviazione a disponibilità elevata per altri servizi.

Servizio Yarn: cluster Hadoop Yarn, i processi Spark verranno pianificati nel cluster come applicazioni Yarn.

Interfacce client: cluster Apache Spark in HDInsight su AKS, offre varie interfacce client. Livy Server, Jupyter Notebook, Server cronologia Spark fornisce servizi Spark agli utenti di HDInsight su AKS.

Riferimento