Eseguire l'inferenza LLM batch usando funzioni di intelligenza artificiale
Importante
Questa funzionalità è disponibile in anteprima pubblica.
Questo articolo descrive come eseguire l'inferenza batch usando funzioni di intelligenza artificiale .
È possibile eseguire l'inferenza batch usando funzioni di intelligenza artificiale specifiche dell'attività o la funzione per utilizzo generico ai_query
. Gli esempi in questo articolo si concentrano sulla flessibilità di ai_query
e su come usarla in pipeline e flussi di lavoro di inferenza batch.
Esistono due modi principali per usare ai_query
per l'inferenza batch:
- Inferenza batch con
ai_query
e modelli di base ospitati da Databricks: quando si usa questo metodo, Databricks configura un endpoint di gestione del modello che ridimensiona automaticamente in base al carico di lavoro. Vedi quali LLM con provisioning preliminare sono supportati. - Inferenza batch con
ai_query
e un endpoint di servizio del modello configurato manualmente: questo metodo è necessario per i flussi di lavoro di inferenza batch che usano modelli di base ospitati all'esterno di Databricks, modelli di base ottimizzati o modelli di Machine Learning tradizionali. Dopo la distribuzione, l'endpoint può essere usato direttamente conai_query
. Vedi inferenza batch usando modelli personalizzati o modelli di base ottimizzati.
Requisiti
- Un'area di lavoro in una regione supportata dalle API modello fondamentale.
- Chiedi l'autorizzazione per le query sulla tabella Delta in Unity Catalog che contiene i dati che vuoi utilizzare.
- Impostare il
pipelines.channel
nelle proprietà della tabella come 'anteprima' per usareai_query()
. Consultare i requisiti per vedere una query di esempio.
inferenza batch LLM usando modelli di base ospitati da ai_query
e Databricks
Quando si utilizza un modello di base ospitato e preconfigurato di Databricks per l'inferenza batch, Databricks configura un endpoint di throughput con provisioning per conto dell'utente che si ridimensiona automaticamente in base al carico di lavoro.
Per usare questo metodo per l'inferenza batch, specificare quanto segue nella richiesta:
- L'LLM preconfigurato che vuoi utilizzare in
ai_query
. Selezionare dai LLMs preconfigurati. - Tabella di input e tabella di output del catalogo Unity.
- Richiesta del modello ed eventuali parametri del modello.
SELECT text, ai_query(
"databricks-meta-llama-3-1-8b-instruct",
"Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;
Distribuire pipeline di inferenza batch
Questa sezione illustra come integrare funzioni di intelligenza artificiale in altri prodotti di dati e intelligenza artificiale di Databricks per creare pipeline di inferenza batch complete. Queste pipeline possono eseguire flussi di lavoro end-to-end che includono inserimento, pre-elaborazione, inferenza e post-elaborazione. Le pipeline possono essere create in SQL o Python e distribuite come segue:
- Flussi di lavoro pianificati con flussi di lavoro di Databricks
- Flussi di lavoro di inferenza in streaming con Structured Streaming
Automatizzare i processi di inferenza batch usando i flussi di lavoro di Databricks
Pianificare processi di inferenza batch e automatizzare le pipeline di intelligenza artificiale.
SQL
SELECT
*,
ai_query('databricks-meta-llama-3-3-70b-instruct', request => concat("You are an opinion mining service. Given a piece of text, output an array of json results that extracts key user opinions, a classification, and a Positive, Negative, Neutral, or Mixed sentiment about that subject.
AVAILABLE CLASSIFICATIONS
Quality, Service, Design, Safety, Efficiency, Usability, Price
Examples below:
DOCUMENT
I got soup. It really did take only 20 minutes to make some pretty good soup. The noises it makes when it's blending are somewhat terrifying, but it gives a little beep to warn you before it does that. It made three or four large servings of soup. It's a single layer of steel, so the outside gets pretty hot. It can be hard to unplug the lid without knocking the blender against the side, which is not a nice sound. The soup was good and the recipes it comes with look delicious, but I'm not sure I'll use it often. 20 minutes of scary noises from the kitchen when I already need comfort food is not ideal for me. But if you aren't sensitive to loud sounds it does exactly what it says it does..
RESULT
[
{'Classification': 'Efficiency', 'Comment': 'only 20 minutes','Sentiment': 'Positive'},
{'Classification': 'Quality','Comment': 'pretty good soup','Sentiment': 'Positive'},
{'Classification': 'Usability', 'Comment': 'noises it makes when it's blending are somewhat terrifying', 'Sentiment': 'Negative'},
{'Classification': 'Safety','Comment': 'outside gets pretty hot','Sentiment': 'Negative'},
{'Classification': 'Design','Comment': 'Hard to unplug the lid without knocking the blender against the side, which is not a nice sound', 'Sentiment': 'Negative'}
]
DOCUMENT
", REVIEW_TEXT, '\n\nRESULT\n')) as result
FROM catalog.schema.product_reviews
LIMIT 10
Pitone
import json
from pyspark.sql.functions import expr
# Define the opinion mining prompt as a multi-line string.
opinion_prompt = """You are an opinion mining service. Given a piece of text, output an array of json results that extracts key user opinions, a classification, and a Positive, Negative, Neutral, or Mixed sentiment about that subject.
AVAILABLE CLASSIFICATIONS
Quality, Service, Design, Safety, Efficiency, Usability, Price
Examples below:
DOCUMENT
I got soup. It really did take only 20 minutes to make some pretty good soup.The noises it makes when it's blending are somewhat terrifying, but it gives a little beep to warn you before it does that.It made three or four large servings of soup.It's a single layer of steel, so the outside gets pretty hot. It can be hard to unplug the lid without knocking the blender against the side, which is not a nice sound.The soup was good and the recipes it comes with look delicious, but I'm not sure I'll use it often. 20 minutes of scary noises from the kitchen when I already need comfort food is not ideal for me. But if you aren't sensitive to loud sounds it does exactly what it says it does.
RESULT
[
{'Classification': 'Efficiency', 'Comment': 'only 20 minutes','Sentiment': 'Positive'},
{'Classification': 'Quality','Comment': 'pretty good soup','Sentiment': 'Positive'},
{'Classification': 'Usability', 'Comment': 'noises it makes when it's blending are somewhat terrifying', 'Sentiment': 'Negative'},
{'Classification': 'Safety','Comment': 'outside gets pretty hot','Sentiment': 'Negative'},
{'Classification': 'Design','Comment': 'Hard to unplug the lid without knocking the blender against the side, which is not a nice sound', 'Sentiment': 'Negative'}
]
DOCUMENT
"""
# Escape the prompt so it can be safely embedded in the SQL expression.
escaped_prompt = json.dumps(opinion_prompt)
# Read the source table and limit to 10 rows.
df = spark.table("catalog.schema.product_reviews").limit(10)
# Apply the LLM inference to each row, concatenating the prompt, the review text, and the tail string.
result_df = df.withColumn(
"result",
expr(f"ai_query('databricks-meta-llama-3-3-70b-instruct', request => concat({escaped_prompt}, REVIEW_TEXT, '\\n\\nRESULT\\n'))")
)
# Display the result DataFrame.
display(result_df)
Funzioni di intelligenza artificiale con Structured Streaming
Applicare l'inferenza di intelligenza artificiale in scenari quasi in tempo reale o in modalità micro-batch usando lo Structured Streaming con ai_query
e .
Passaggio 1: Leggi la tabella Delta statica
Leggere la tabella Delta statica come se fosse un flusso
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
spark = SparkSession.builder.getOrCreate()
# Spark processes all existing rows exactly once in the first micro-batch.
df = spark.table("enterprise.docs") # Replace with your table name containing enterprise documents
df.repartition(50).write.format("delta").mode("overwrite").saveAsTable("enterprise.docs")
df_stream = spark.readStream.format("delta").option("maxBytesPerTrigger", "50K").table("enterprise.docs")
# Define the prompt outside the SQL expression.
prompt = (
"You are provided with an enterprise document. Summarize the key points in a concise paragraph. "
"Do not include extra commentary or suggestions. Document: "
)
Passaggio 2. Applica ai_query
Spark elabora questa operazione una sola volta per i dati statici, a meno che non arrivino nuove righe nella tabella.
df_transformed = df_stream.select(
"document_text",
F.expr(f"""
ai_query(
'llama_3_8b',
CONCAT('{prompt}', document_text)
)
""").alias("summary")
)
Passaggio 3: Scrivere l'output riepilogato
Scrivere l'output riepilogato in un'altra tabella Delta
# Time-based triggers apply, but only the first trigger processes all existing static data.
query = df_transformed.writeStream \
.format("delta") \
.option("checkpointLocation", "/tmp/checkpoints/_docs_summary") \
.outputMode("append") \
.toTable("enterprise.docs_summary")
query.awaitTermination()
Batch inference usando modelli personalizzati o modelli di base perfezionati
Gli esempi di notebook in questa sezione illustrano i carichi di lavoro di inferenza batch che usano modelli di base personalizzati o ottimizzati per elaborare più input. Gli esempi richiedono un endpoint esistente per la gestione del modello che usa le API del Foundation Model con throughput fornito.
Inferenza batch LLM usando un modello di base personalizzato
Il notebook di esempio seguente crea un endpoint a velocità effettiva preconfigurata ed esegue l'inferenza LLM in batch usando Python e il modello Meta Llama 3.1 da 70 miliardi di parametri. Fornisce anche indicazioni sul benchmarking del carico di lavoro di inferenza batch e sulla creazione di un modello di throughput previsto per servire l'endpoint.
Inferenza batch con un modello di apprendimento linguistico personalizzato e un notebook di programmazione per l'endpoint di throughput approvvigionato.
Inferenza batch LLM usando un modello di incorporamento
Il seguente notebook di esempio crea un endpoint con throughput provisionato ed esegue un'inferenza LLM in batch utilizzando Python e il modello di embeddings a scelta tra GTE Large (inglese) o BGE Large (inglese).
Incorporamenti per inferenza batch LLM con un notebook con un endpoint a velocità effettiva preconfigurata
Inferenza batch ed estrazione di dati strutturati
Il notebook di esempio seguente illustra come eseguire l'estrazione di dati strutturati di base usando ai_query
per trasformare i dati non elaborati e non strutturati in informazioni organizzate e utilizzabili tramite tecniche di estrazione automatizzate. Questo notebook illustra anche come sfruttare la valutazione dell'agente di intelligenza artificiale Mosaic per valutare l'accuratezza usando i dati di verità di base.
Notebook per l'inferenza batch e l'estrazione di dati strutturati
Inferenza batch con BERT per il riconoscimento di entità denominate
Il notebook seguente illustra un esempio di inferenza batch del modello di Machine Learning tradizionale usando BERT.