AI toepassen op gegevens met behulp van Azure Databricks AI Functions
Belangrijk
Deze functie is beschikbaar als openbare preview.
In dit artikel worden Azure Databricks AI Functions en de ondersteunde functies beschreven.
Wat zijn AI-functies?
AI-functies zijn ingebouwde functies die u kunt gebruiken om AI toe te passen, zoals tekstomzetting of sentimentanalyse, op uw gegevens die zijn opgeslagen op Databricks. Ze kunnen overal worden uitgevoerd op Databricks, waaronder Databricks SQL, notebooks, Delta Live Tables en Werkstromen.
AI-functies zijn eenvoudig te gebruiken, snel en schaalbaar. Analisten kunnen ze gebruiken om gegevensinformatie toe te passen op hun eigen gegevens, terwijl gegevenswetenschappers en machine learning-engineers ze kunnen gebruiken om batchpijplijnen op productieniveau te bouwen.
AI-functies bieden algemene en taakspecifieke functies.
-
ai_query
is een functie voor algemeen gebruik waarmee u elk type AI-model kunt toepassen op uw gegevens. Zie Algemeen gebruik functie:ai_query
. - Taakspecifieke functies bieden AI-mogelijkheden op hoog niveau voor taken zoals het samenvatten van tekst en vertaling. Deze taakspecifieke functies worden mogelijk gemaakt door geavanceerde AI-modellen die worden gehost en beheerd door Databricks. Zie Taakspecifieke AI-functies voor ondersteunde functies en modellen.
Algemene gebruiksfunctie: ai_query
Met de functie ai_query()
kunt u elk AI-model toepassen op gegevens voor zowel generatieve AI- als klassieke ML-taken, waaronder het extraheren van informatie, het samenvatten van inhoud, het identificeren van fraude en het voorspellen van omzet.
De volgende tabel bevat een overzicht van de ondersteunde modeltypen, de bijbehorende modellen en hun vereisten.
Typ | Ondersteunde modellen | Vereisten |
---|---|---|
Door Databricks gehoste basismodellen |
Deze modellen worden beschikbaar gesteld met behulp van Foundation Model-API's. |
Er is geen eindpuntinrichting of -configuratie vereist. |
Nauwkeurig afgestemde basismodellen | Nauwkeurig afgestemde basismodellen die zijn geïmplementeerd op Mosaic AI Model Serving | Hiervoor moet u een geconfigureerd throughput-eindpunt in Model Serving aanmaken. Zie Batch-inference met behulp van aangepaste modellen of bijgestelde basismodellen. |
Foundation-modellen die buiten Databricks worden gehost | Modellen beschikbaar gemaakt met behulp van externe modellen. Zie Toegang verkrijgen tot basismodellen die buiten Databricksworden gehost. | Hiervoor moet u een extern model voor eindpunten maken. |
Aangepaste traditionele ML- en DL-modellen | Elk traditioneel ML- of DL-model, zoals scikit-learn, xgboost of PyTorch | Vereist dat u een aangepast modelserver-eindpunt maken |
Ai_query gebruiken voor productiewerkstromen
Voor grootschalige batchdeductie kan ai_query
worden geïntegreerd in Databricks Workflows en Structured Streaming-workloads. Dit maakt verwerking op schaal mogelijk op productieniveau. Zie Batch LLM-deductie uitvoeren met behulp van AI Functions voor meer informatie.
Ai_query gebruiken met basismodellen
In het volgende voorbeeld ziet u hoe u ai_query
gebruikt met behulp van een basismodel dat wordt gehost door Databricks. Zie ai_query
functie functie voor syntaxisdetails en parameters.
SELECT text, ai_query(
"databricks-meta-llama-3-3-70b-instruct",
"Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;
Gebruik ai_query met traditionele ML-modellen
ai_query
ondersteunt traditionele ML-modellen, waaronder volledig aangepaste modellen. Deze modellen moeten worden geïmplementeerd op eindpunten van Model Serving. Zie ai_query
functie functie voor syntaxisdetails en parameters.
SELECT text, ai_query(
endpoint => "spam-classification",
request => named_struct(
"timestamp", timestamp,
"sender", from_number,
"text", text),
returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10
taakspecifieke AI-functies
Taakspecifieke functies zijn bedoeld voor een bepaalde taak, zodat u routinetaken kunt automatiseren, zoals eenvoudige samenvattingen en snelle vertalingen. Deze functies roepen een state-of-the-art AI-model op dat wordt onderhouden door Databricks en ze vereisen geen aanpassingen.
Zie Klantbeoordelingen analyseren met behulp van AI Functions voor een voorbeeld.
Hier volgen de modellen die worden gebruikt door taakspecifieke functies:
- Meta Llama 3.1 8B
- Meta Llama 3.3 70B
- GTE Large (Engels)
De volgende tabel bevat de ondersteunde functies en welke taak ze allemaal uitvoeren.
Functie | Beschrijving |
---|---|
ai_analyze_sentiment | Sentimentanalyse uitvoeren op invoertekst met behulp van een geavanceerd generatief AI-model. |
ai_classify | Classificeer invoertekst op basis van labels die u opgeeft met behulp van een geavanceerde AI-model. |
ai_extract | Extraheren van entiteiten die zijn opgegeven door labels uit tekst met behulp van een geavanceerde AI-model. |
ai_fix_grammar | Corrigeer grammaticale fouten in tekst met behulp van een geavanceerde AI-model. |
ai_gen | Beantwoord de door de gebruiker verstrekte prompt met behulp van een geavanceerd AI-model. |
ai_mask | Met behulp van een geavanceerd AI-model maskeer opgegeven entiteiten in tekst. |
ai_similarity | Vergelijk twee tekenreeksen en bereken de semantische overeenkomstenscore met behulp van een geavanceerde AI-model. |
ai_summarize | Genereer een samenvatting van tekst met behulp van SQL en het geavanceerde AI-model. |
ai_translate | Tekst vertalen naar een opgegeven doeltaal met behulp van een geavanceerde AI-model. |
ai_forecast | Prognosegegevens tot een opgegeven horizon. Deze tabelwaardefunctie is ontworpen om tijdreeksgegevens in de toekomst te extrapoleren. |
vector_search | Doorzoek en voer query's uit op een Mosaic AI Vector Search index met behulp van een geavanceerd AI-model. |
AI-functies gebruiken in bestaande Python-werkstromen
AI Functions kan eenvoudig worden geïntegreerd in bestaande Python-werkstromen.
De uitvoer van de ai_query
wordt als volgt naar een uitvoertabel geschreven:
df_out = df.selectExpr(
"ai_query('databricks-meta-llama-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')
Hieronder wordt de samengevatte tekst in een tabel geschreven:
df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')
AI-functies gebruiken in productiewerkstromen
Voor grootschalige batch-inferentie kan ai_query
worden geïntegreerd in Delta Live Tables of workflows. Dit maakt verwerking op schaal mogelijk op productieniveau. Zie Batch LLM-deductie uitvoeren met behulp van AI Functions voor meer informatie.
Voortgang van AI-functies bewaken
Als u wilt weten hoeveel deducties zijn voltooid of mislukt en prestatieproblemen hebben opgelost, kunt u de voortgang van AI-functies bewaken met behulp van de functie queryprofiel.
Voer de volgende stappen uit vanuit het queryvenster van de SQL-editor in uw werkruimte:
- Klik op Prestatie- onder in het queryvenster.
- Selecteer de koppeling, SELECT id, ai_quer.... Aan de rechterkant wordt het prestatievenster weergegeven.
- Klik op Queryprofiel weergeven om prestatiedetails weer te geven.
- Klik op AI-query om metrische gegevens voor die specifieke query weer te geven, inclusief het aantal voltooide en mislukte deducties en de totale tijd die de aanvraag heeft geduurd.