Introduzione a Machine Learning di Spark in cluster Big Data di SQL Server
Si applica a: SQL Server 2019 (15.x)
Importante
Il componente aggiuntivo per i cluster Big Data di Microsoft SQL Server 2019 verrà ritirato. Il supporto per i cluster Big Data di SQL Server 2019 terminerà il 28 febbraio 2025. Tutti gli utenti esistenti di SQL Server 2019 con Software Assurance saranno completamente supportati nella piattaforma e fino a quel momento il software continuerà a ricevere aggiornamenti cumulativi di SQL Server. Per altre informazioni, vedere il post di blog relativo all'annuncio e Opzioni per i Big Data nella piattaforma Microsoft SQL Server.
Questo articolo spiega come usare in modo efficace Spark per Machine Learning in cluster Big Data per SQL Server.
Machine Learning di Spark in cluster Big Data di SQL Server
I cluster Big Data di SQL Server consentono scenari e soluzioni di Machine Learning usando diversi stack tecnologici: SQL Server Machine Learning Services e Apache Spark ML.
Per identificare meglio quando usare ogni stack tecnologico, vedere la guida di Machine Learning per cluster Big Data di SQL Server. Questa guida presenta Apache Spark ML.
Per gli scenari di Machine Learning basati su Big Data, l'uso di HDFS per l'hosting di Big Data e le funzionalità di Apache Spark ML costituiscono un approccio più conveniente, scalabile e potente. Tuttavia, questo è lungi dall'essere un elenco esaustivo delle possibilità offerte dalla tecnologia di Machine Learning di Spark. Per un elenco completo delle funzionalità, vedere: Spark MLlib.
La sezione seguente fornisce un elenco curato di scenari e riferimenti per Spark in cluster Big Data di SQL Server.
Principali riferimenti per Machine Learning di Spark in cluster Big Data di SQL Server
Learn | Contenuto | Collega |
---|---|---|
Runtime dei cluster Big Data di SQL Server per Apache Spark | Descrive che cosa è incluso in ogni versione | Guida al runtime dei cluster Big Data di SQL Server per Apache Spark |
Pool di archiviazione | Come archiviare e usare HDFS e Spark insieme per sbloccare i dati per scenari di Machine Learning | Introduzione al pool di archiviazione nei cluster Big Data di SQL Server |
Usare esperienze basate su notebook e gli strumenti preferiti | Connettere l'endpoint Spark-Livy usando gli strumenti preferiti | Inviare processi Spark in cluster Big Data di SQL Server in Azure Data Studio Inviare processi Spark nel cluster Big Data di SQL Server in Visual Studio Code Usare sparklyr in un cluster Big Data di SQL Server |
Come installare pacchetti aggiuntivi | Nel caso in cui non venga fornito un pacchetto predefinito, è necessario installarne uno | Gestione delle librerie Spark |
Come risolvere i problemi | In caso di problemi | Risolvere i problemi relativi a un notebook pyspark Eseguire il debug e la diagnosi di applicazioni Spark in cluster Big Data di SQL Server nel server cronologia Spark |
Come inviare processi batch di Machine Learning | Eseguire il training di Machine Learning e l'assegnazione di punteggi batch usando la riga di comando | Inviare processi Spark usando strumenti da riga di comando |
Come spostare rapidamente dati tra SQL Server e Spark | Configurare SQL Server come origine e/o destinazione per gli scenari di Machine Learning di Spark. L'utilizzo di HDFS non è obbligatorio | Usare il connettore Apache Spark per SQL Server e SQL Azure |
Operazionalizzazione del modello Spark | Dopo il training, rendere operativo l'uso di MLeap | Creare, esportare e classificare i modelli di Machine Learning di Spark in cluster Big Data di SQL Server |
Data wrangling | Oltre alle potenti funzionalità di data wrangling di Spark, viene fornito PROSE | Data wrangling con l'acceleratore di codice PROSE |
Passaggi successivi
Per altre informazioni, vedere Introduzione ai cluster Big Data di SQL Server.