Dela via


AI och maskininlärning på Databricks

Den här artikeln beskriver de verktyg som Mosaic AI (tidigare Databricks Machine Learning) tillhandahåller för att hjälpa dig att skapa AI- och ML-system. Diagrammet visar hur olika produkter på Databricks-plattformen hjälper dig att implementera dina arbetsflöden från slutpunkt till slutpunkt för att skapa och distribuera AI- och ML-system

Maskininlärningsdiagram: Modellutveckling och distribution på Databricks

Generativ AI på Databricks

Mosaic AI förenar AI-livscykeln från datainsamling och förberedelse, till modellutveckling och LLMOps, till servering och övervakning. Följande funktioner är särskilt optimerade för att underlätta utvecklingen av generativa AI-program:

  • Unity Catalog för styrning, identifiering, versionshantering och åtkomstkontroll för data, funktionaliteter, modeller och funktioner.
  • MLflow för modellutvecklingsspårning.
  • Mosaic AI Gateway för styrning och övervakning av åtkomst till stödda generativa AI-modeller och deras associerade modellbetjänande slutpunkter.
  • Mosaic AI Model Serving för distribution av LLM:er. Du kan konfigurera en modell som betjänar slutpunkten specifikt för åtkomst till generativa AI-modeller:
  • Mosaic AI Vector Search tillhandahåller en frågebar vektordatabas som lagrar inbäddningsvektorer och kan konfigureras för att automatiskt sync till din kunskapsbas.
  • Lakehouse Monitoring för dataövervakning och spårning av modellförutsägelsekvalitet och drift med automatisk nyttolastloggning med slutsatsdragning tables.
  • AI Playground för att testa generativa AI-modeller från din Databricks-arbetsyta. Du kan fråga, jämföra och justera inställningar som systemprompt och slutsatsdragning parameters.
  • Foundation Model Finjustering (nu en del av Mosaic AI Model Training) för att anpassa en grundmodell med dina egna data för att optimize dess prestanda för ditt specifika program.
  • Mosaic AI Agent Framework för att skapa och distribuera agenter av produktionskvalitet som RAG-program (Retrieval Augmented Generation).
  • Mosaic AI Agent Evaluation för utvärdering av kvalitet, kostnad och svarstid för generativa AI-program, inklusive RAG-program och kedjor.

Vad är generativ AI?

Generativ AI är en typ av artificiell intelligens som fokuserar på datorers förmåga att använda modeller för att skapa innehåll som bilder, text, kod och syntetiska data.

Generativa AI-program bygger på generativa AI-modeller: stora språkmodeller (LLM) och grundmodeller.

  • LLM:er är djupinlärningsmodeller som använder och tränar på massiva datamängder för att utmärka sig i språkbearbetningsuppgifter. De skapar nya kombinationer av text som efterliknar naturligt språk baserat på deras träningsdata.
  • Generativa AI-modeller eller grundmodeller är stora ML-modeller som är förtränade med avsikten att de ska finjusteras för mer specifika språktolknings- och generationsuppgifter. Dessa modeller används för att urskilja mönster i indata.

När dessa modeller har slutfört sina inlärningsprocesser generate de statistiskt sannolika utdata när de uppmanas till det och de kan användas för att utföra olika uppgifter, inklusive:

  • Bildgenerering baserat på befintliga eller med stilen för en bild för att ändra eller skapa en ny.
  • Taluppgifter som transkription, översättning, fråge-/svarsgenerering och tolkning av avsikten eller innebörden av text.

Viktigt!

Även om många LLM:er eller andra generativa AI-modeller har skydd, kan de fortfarande generate skadlig eller felaktig information.

Generativ AI har följande designmönster:

  • Prompt Engineering: Skapa specialiserade uppmaningar för att vägleda LLM-beteende
  • RAG (Retrieval Augmented Generation): Kombinera en LLM med extern kunskapshämtning
  • Finjustering: Anpassa en förtränad LLM till specifika datauppsättningar med domäner
  • Förträning: Träna en LLM från grunden

Maskininlärning på Databricks

Med Mosaic AI hanterar en enda plattform varje steg i ML-utveckling och distribution, från rådata till slutsatsdragning tables som sparar varje begäran och svar för en hanterad modell. Dataforskare, datatekniker, ML-tekniker och DevOps kan utföra sina jobb med samma set av verktyg och en enda sanningskälla för data.

Mosaic AI förenar dataskiktet och ML-plattformen. Alla datatillgångar och artefakter, till exempel modeller och funktioner, kan identifieras och styras i en enda catalog. Genom att använda en enda plattform för data och modeller kan du spåra ursprung från rådata till produktionsmodellen. Inbyggd data- och modellövervakning sparar kvalitetsmått till tables som också lagras på plattformen, vilket gör det enklare att identifiera grundorsaken till modellprestandaproblem. Mer information om hur Databricks stöder hela ML-livscykeln och MLOps finns i MLOps-arbetsflöden på Azure Databricks och MLOps Stacks: modellutvecklingsprocess som kod.

Några av de viktigaste komponenterna i dataintelligensplattformen är:

Uppgifter Komponent
Styra och hantera data, funktioner, modeller och funktioner. Även identifiering, versionshantering och ursprung. Unity Catalog
Spåra ändringar av data, datakvalitet och modellförutsägelsekvalitet Lakehouse Monitoring, Inference tables för anpassade modeller
Funktionsutveckling och hantering Funktionsutveckling och servering.
Inlärningsmodeller AutoML, Databricks notebook-filer
Spåra modellutveckling MLflow-spårning
Hantera anpassade modeller Mosaic AI-modellservering.
Skapa automatiserade arbetsflöden och produktionsklara ETL-pipelines Databricks-jobb
Git-integrering Databricks Git-mappar

Djupinlärning om Databricks

Det kan vara svårt att konfigurera infrastrukturen för djupinlärningsprogram. Databricks Runtime for Machine Learning tar hand om det åt dig, med kluster som har inbyggda kompatibla versioner av de vanligaste djupinlärningsbiblioteken som TensorFlow, PyTorch och Keras.

Databricks Runtime ML-kluster innehåller även förkonfigurerat GPU-stöd med drivrutiner och stödbibliotek. Det stöder också bibliotek som Ray för parallellisering av beräkningsbearbetning för skalning av ML-arbetsflöden och ML-program.

Databricks Runtime ML-kluster innehåller även förkonfigurerat GPU-stöd med drivrutiner och stödbibliotek. Med Mosaic AI Model Serving kan du skapa skalbara GPU-slutpunkter för djupinlärningsmodeller utan extra konfiguration.

För maskininlärningsprogram rekommenderar Databricks att du använder ett kluster som kör Databricks Runtime for Machine Learning. Se Skapa ett kluster med Databricks Runtime ML.

För att komma igång med djupinlärning på Databricks get, se:

Nästa steg

För att starta get, se:

Ett rekommenderat MLOps-arbetsflöde för Databricks Mosaic AI finns i:

Mer information om viktiga AI-funktioner för Databricks Mosaic finns i: