Condividi tramite


IA e machine learning in Databricks

Questo articolo descrive gli strumenti forniti da Mosaic AI (già Databricks Machine Learning) per facilitare la creazione di sistemi di intelligenza artificiale e Machine Learning. Il diagramma illustra in che modo i vari prodotti della piattaforma Databricks consentono di implementare i flussi di lavoro end-to-end per compilare e distribuire sistemi di intelligenza artificiale e Machine Learning

Diagramma di Machine Learning: Sviluppo e distribuzione di modelli in Databricks

Intelligenza artificiale generativa in Databricks

Mosaic AI unifica il ciclo di vita dell’intelligenza artificiale dalla raccolta e dalla preparazione dei dati, allo sviluppo di modelli e LLMOps, al servizio e al monitoraggio. Le funzionalità seguenti sono ottimizzate in modo specifico per facilitare lo sviluppo di applicazioni di intelligenza artificiale generative:

  • Unity Catalog per la governance, la scoperta, il controllo delle versioni e il controllo degli accessi per dati, funzionalità, modelli e funzioni.
  • MLflow per il rilevamento dello sviluppo di modelli.
  • Mosaic AI Model Serve per la distribuzione di LLMs. È possibile configurare un modello che gestisce l’endpoint in modo specifico per l’accesso ai modelli di intelligenza artificiale generativi:
  • Di ricerca vettoriale di Mosaic AI Vector fornisce un database vettoriale queryable che archivia i vettori di incorporamento e può essere configurato per sync automaticamente alla knowledge base.
  • Lakehouse Monitoring per il monitoraggio dei dati e il rilevamento della qualità e della deriva del modello usando registrazione automatica del payload con inferenza tables.
  • AI Playground per testare modelli di intelligenza artificiale generati dall’area di lavoro di Databricks. È possibile richiedere, confrontare e modificare le impostazioni, come ad esempio il prompt del sistema e l'inferenza parameters.
  • Foundation Model Fine-tuning (ora parte di Mosaic AI Model Training) per personalizzare un modello di base usando i propri dati per optimize le prestazioni per l'applicazione specifica.
  • Mosaic AI Agent Framework per la creazione e la distribuzione di agenti di qualità di produzione, ad esempio applicazioni di recupero della generazione aumentata (RAG).
  • Mosaic AI Agent Evaluation per valutare la qualità, i costi e la latenza delle applicazioni di intelligenza artificiale generativa, incluse applicazioni e catene RAG.

Che cos’è l’intelligenza artificiale generativa?

L’intelligenza artificiale generativa è un tipo di intelligenza artificiale focalizzata sulla capacità dei computer di usare modelli per creare contenuti come immagini, testo, codice e dati sintetici.

Le applicazioni di intelligenza artificiale generative si basano su modelli di intelligenza artificiale generativi: modelli di linguaggio di grandi dimensioni e modelli di base.

  • LLM sono modelli di Deep Learning che usano ed eseguono il training su set di dati di grandi dimensioni per eccellere nelle attività di elaborazione del linguaggio. Creano nuove combinazioni di testo che simulano il linguaggio naturale in base ai dati di training.
  • I modelli di intelligenza artificiale generativi o i modelli di base sono modelli di Machine Learning di grandi dimensioni pre-sottoposti a training con l'intenzione di essere ottimizzati per attività di comprensione e generazione del linguaggio più specifiche. Questi modelli vengono usati per distinguere i modelli all’interno dei dati di input.

Dopo che questi modelli hanno completato i processi di apprendimento, insieme generate output statisticamente probabili quando richiesto e possono essere impiegati per eseguire varie attività, tra cui:

  • Generazione di immagini in base a quelle esistenti o utilizzo dello stile di un’immagine per modificarne o crearne una nuova.
  • Attività vocali come trascrizione, traduzione, generazione di domande/risposte e interpretazione della finalità o del significato del testo.

Importante

Anche se molti MODELLI di intelligenza artificiale generativi hanno misure di sicurezza, possono comunque generate informazioni dannose o imprecise.

L’intelligenza artificiale generativa presenta i modelli di progettazione seguenti:

  • Progettazione prompt: creazione di richieste specializzate per guidare il comportamento LLM
  • Generazione aumentata di recupero (RAG): combinazione di un LLM con recupero di conoscenze esterne
  • Ottimizzazione: adattamento di un LLM con training preliminare a set di dati specifici di domini
  • Pre-training: Training di un LLM da zero

Machine Learning in Azure Databricks

Con Mosaic AI, una singola piattaforma serve ogni passaggio dello sviluppo e della distribuzione di Ml, dai dati non elaborati all'inferenza tables che salvano ogni richiesta e risposta per un modello servito. Data scientist, data engineer, ingegneri di Machine Learning e DevOps possono svolgere i propri lavori usando la stessa set di strumenti e una singola fonte di verità per i dati.

Mosaic AI unifica il livello dati e la piattaforma ml. Tutti gli asset di dati e gli artefatti, ad esempio modelli e funzioni, sono individuabili e regolati in un singolo catalog. L’uso di una singola piattaforma per dati e modelli consente di tenere traccia della derivazione dai dati non elaborati al modello di produzione. Il monitoraggio integrato dei dati e dei modelli salva le metriche di qualità su tables che sono anche archiviate nella piattaforma, semplificando l'identificazione della causa principale dei problemi di prestazione del modello. Per altre informazioni su come Databricks supporta l’intero ciclo di vita di Machine Learning e MLOps, consultare Flussi di lavoro MLOps in Azure Databricks e MLOps Stacks: processo di sviluppo del modello come codice.

Alcuni dei componenti chiave della piattaforma di business intelligence per i dati sono:

Attività Componente
Gestire e gestire dati, funzionalità, modelli e funzioni. Individuazione, controllo delle versioni e derivazione. unità Catalog
Tenere traccia delle modifiche apportate a dati, qualità dei dati e qualità del modello Lakehouse Monitoring, inferenza tables
Sviluppo e gestione in Azure Progettazione e gestione delle funzionalità.
Eseguire il training dei modelli Notebook di AutoML, Databricks
Tenere traccia dello sviluppo di modelli Rilevamento di MLFlow
Condividere modelli personalizzati Mosaic AI Model Serve.
Creare flussi di lavoro automatizzati e pipeline ETL pronte per la produzione Processi Databricks
Integrazione con Git Cartelle Git di Databricks

Deep Learning in Azure Databricks

La configurazione dell’infrastruttura per le applicazioni di Deep Learning può essere difficile. Databricks Runtime per Machine Learning si occupa di questo aspetto, con cluster con versioni compatibili predefinite delle librerie di Deep Learning più comuni, ad esempio TensorFlow, PyTorch e Keras.

I cluster di Machine Learning di Databricks Runtime includono anche il supporto gpu preconfigurato con driver e librerie di supporto. Supporta anche librerie come Ray per parallelizzare l’elaborazione di calcolo per ridimensionare i flussi di lavoro di Machine Learning e le applicazioni ML.

I cluster di Machine Learning di Databricks Runtime includono anche il supporto gpu preconfigurato con driver e librerie di supporto. Mosaic AI Model Serving consente la creazione di endpoint GPU scalabili per i modelli di Deep Learning senza alcuna configurazione aggiuntiva.

Per le applicazioni di Machine Learning, Databricks consiglia di usare un cluster che esegue Databricks Runtime per Machine Learning. Consultare Creare un cluster con Databricks Runtime ML.

Per get iniziare con l'apprendimento profondo su Databricks, vedere:

Passaggi successivi

Per avviare get, vedere:

Per un flusso di lavoro MLOps consigliato in Databricks Mosaic AI, consultare la sezione:

Per informazioni sulle principali funzionalità di Databricks Mosaic AI, vedere: