Delen via


AI toepassen op gegevens met behulp van Azure Databricks AI Functions

Belangrijk

Deze functie is beschikbaar als openbare preview.

In dit artikel worden Azure Databricks AI Functions en de ondersteunde functies beschreven.

Wat zijn AI-functies?

AI-functies zijn ingebouwde functies die u kunt gebruiken om AI toe te passen, zoals tekstomzetting of sentimentanalyse, op uw gegevens die zijn opgeslagen op Databricks. Ze kunnen overal worden uitgevoerd op Databricks, waaronder Databricks SQL, notebooks, Delta Live Tables en Werkstromen.

AI-functies zijn eenvoudig te gebruiken, snel en schaalbaar. Analisten kunnen ze gebruiken om gegevensinformatie toe te passen op hun eigen gegevens, terwijl gegevenswetenschappers en machine learning-engineers ze kunnen gebruiken om batchpijplijnen op productieniveau te bouwen.

AI-functies bieden algemene en taakspecifieke functies.

  • ai_query is een functie voor algemeen gebruik waarmee u elk type AI-model kunt toepassen op uw gegevens. Zie Algemeen gebruik functie: ai_query.
  • Taakspecifieke functies bieden AI-mogelijkheden op hoog niveau voor taken zoals het samenvatten van tekst en vertaling. Deze taakspecifieke functies worden mogelijk gemaakt door geavanceerde AI-modellen die worden gehost en beheerd door Databricks. Zie Taakspecifieke AI-functies voor ondersteunde functies en modellen.

Algemene gebruiksfunctie: ai_query

Met de functie ai_query() kunt u elk AI-model toepassen op gegevens voor zowel generatieve AI- als klassieke ML-taken, waaronder het extraheren van informatie, het samenvatten van inhoud, het identificeren van fraude en het voorspellen van omzet.

De volgende tabel bevat een overzicht van de ondersteunde modeltypen, de bijbehorende modellen en hun vereisten.

Typ Ondersteunde modellen Vereisten
Door Databricks gehoste basismodellen
  • databricks-meta-llama-3-70b-instruct
  • databricks-meta-llama-3-8b-instruct
  • databricks-gte-large-en

Deze modellen worden beschikbaar gesteld met behulp van Foundation Model-API's.
Er is geen eindpuntinrichting of -configuratie vereist.
Nauwkeurig afgestemde basismodellen Nauwkeurig afgestemde basismodellen die zijn geïmplementeerd op Mosaic AI Model Serving Hiervoor moet u een geconfigureerd throughput-eindpunt in Model Serving aanmaken. Zie Batch-inference met behulp van aangepaste modellen of bijgestelde basismodellen.
Foundation-modellen die buiten Databricks worden gehost Modellen beschikbaar gemaakt met behulp van externe modellen. Zie Toegang verkrijgen tot basismodellen die buiten Databricksworden gehost. Hiervoor moet u een extern model voor eindpunten maken.
Aangepaste traditionele ML- en DL-modellen Elk traditioneel ML- of DL-model, zoals scikit-learn, xgboost of PyTorch Vereist dat u een aangepast modelserver-eindpunt maken

Ai_query gebruiken voor productiewerkstromen

Voor grootschalige batchdeductie kan ai_query worden geïntegreerd in Databricks Workflows en Structured Streaming-workloads. Dit maakt verwerking op schaal mogelijk op productieniveau. Zie Batch LLM-deductie uitvoeren met behulp van AI Functions voor meer informatie.

Ai_query gebruiken met basismodellen

In het volgende voorbeeld ziet u hoe u ai_query gebruikt met behulp van een basismodel dat wordt gehost door Databricks. Zie ai_query functie functie voor syntaxisdetails en parameters.


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

Gebruik ai_query met traditionele ML-modellen

ai_query ondersteunt traditionele ML-modellen, waaronder volledig aangepaste modellen. Deze modellen moeten worden geïmplementeerd op eindpunten van Model Serving. Zie ai_query functie functie voor syntaxisdetails en parameters.

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

taakspecifieke AI-functies

Taakspecifieke functies zijn bedoeld voor een bepaalde taak, zodat u routinetaken kunt automatiseren, zoals eenvoudige samenvattingen en snelle vertalingen. Deze functies roepen een state-of-the-art AI-model op dat wordt onderhouden door Databricks en ze vereisen geen aanpassingen.

Zie Klantbeoordelingen analyseren met behulp van AI Functions voor een voorbeeld.

Hier volgen de modellen die worden gebruikt door taakspecifieke functies:

  • Meta Llama 3.1 8B
  • Meta Llama 3.3 70B
  • GTE Large (Engels)

De volgende tabel bevat de ondersteunde functies en welke taak ze allemaal uitvoeren.

Functie Beschrijving
ai_analyze_sentiment Sentimentanalyse uitvoeren op invoertekst met behulp van een geavanceerd generatief AI-model.
ai_classify Classificeer invoertekst op basis van labels die u opgeeft met behulp van een geavanceerde AI-model.
ai_extract Extraheren van entiteiten die zijn opgegeven door labels uit tekst met behulp van een geavanceerde AI-model.
ai_fix_grammar Corrigeer grammaticale fouten in tekst met behulp van een geavanceerde AI-model.
ai_gen Beantwoord de door de gebruiker verstrekte prompt met behulp van een geavanceerd AI-model.
ai_mask Met behulp van een geavanceerd AI-model maskeer opgegeven entiteiten in tekst.
ai_similarity Vergelijk twee tekenreeksen en bereken de semantische overeenkomstenscore met behulp van een geavanceerde AI-model.
ai_summarize Genereer een samenvatting van tekst met behulp van SQL en het geavanceerde AI-model.
ai_translate Tekst vertalen naar een opgegeven doeltaal met behulp van een geavanceerde AI-model.
ai_forecast Prognosegegevens tot een opgegeven horizon. Deze tabelwaardefunctie is ontworpen om tijdreeksgegevens in de toekomst te extrapoleren.
vector_search Doorzoek en voer query's uit op een Mosaic AI Vector Search index met behulp van een geavanceerd AI-model.

AI-functies gebruiken in bestaande Python-werkstromen

AI Functions kan eenvoudig worden geïntegreerd in bestaande Python-werkstromen.

De uitvoer van de ai_query wordt als volgt naar een uitvoertabel geschreven:

df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

Hieronder wordt de samengevatte tekst in een tabel geschreven:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

AI-functies gebruiken in productiewerkstromen

Voor grootschalige batch-inferentie kan ai_query worden geïntegreerd in Delta Live Tables of workflows. Dit maakt verwerking op schaal mogelijk op productieniveau. Zie Batch LLM-deductie uitvoeren met behulp van AI Functions voor meer informatie.

Voortgang van AI-functies bewaken

Als u wilt weten hoeveel deducties zijn voltooid of mislukt en prestatieproblemen hebben opgelost, kunt u de voortgang van AI-functies bewaken met behulp van de functie queryprofiel.

Voer de volgende stappen uit vanuit het queryvenster van de SQL-editor in uw werkruimte:

  1. Klik op Prestatie- onder in het queryvenster.
  2. Selecteer de koppeling, SELECT id, ai_quer.... Aan de rechterkant wordt het prestatievenster weergegeven.
  3. Klik op Queryprofiel weergeven om prestatiedetails weer te geven.
  4. Klik op AI-query om metrische gegevens voor die specifieke query weer te geven, inclusief het aantal voltooide en mislukte deducties en de totale tijd die de aanvraag heeft geduurd.

voortgang van AI-functie bewaken