Distribuera modeller med hjälp av Mosaic AI Model Serving
Den här artikeln beskriver Mosaic AI Model Serving, Databricks-lösningen för distribution av AI- och ML-modeller för realtidsbetjäning och batchinferens.
Vad är Mosaic AI Model Serving?
Mosaic AI Model Serving tillhandahåller ett enhetligt gränssnitt för att distribuera, styra och fråga AI-modeller för realtids- och batchinferens. Varje modell som du hanterar är tillgänglig som ett REST-API som du kan integrera i ditt webb- eller klientprogram.
Modellservering ger en tjänst med hög tillgänglighet och låg latens för att distribuera modeller. Tjänsten skalas automatiskt upp eller ned för att möta ändringar i efterfrågan, vilket sparar infrastrukturkostnader samtidigt som svarstidsprestandan optimeras. Den här funktionen använder serverlös beräkning. Mer information finns på prissättningssidan för modellservern.
Modellservern erbjuder ett enhetligt REST API och MLflow Deployment API för CRUD och frågeuppgifter. Dessutom finns det ett enda användargränssnitt för att hantera alla dina modeller och deras respektive serverslutpunkter. Du kan också komma åt modeller direkt från SQL med hjälp av AI-funktioner för enkel integrering i analysarbetsflöden.
Se följande guider för att komma igång med get:
- En introduktionskurs om hur du hanterar anpassade modeller i Azure Databricks finns i Självstudie: Distribuera och fråga efter en anpassad modell.
- En självstudiekurs om hur du kör frågor mot en grundmodell i Databricks finns i Get började köra frågor mot LLM:er på Databricks.
- Information om hur du utför batchinferens finns i Distribuera modeller för batchinferens och förutsägelse.
Modeller som du kan distribuera
Modellservern stöder realtids- och batchinferens för följande modelltyper:
-
Anpassade modeller. Det här är Python-modeller som paketeras i MLflow-format. De kan registreras antingen i Unity Catalog eller i arbetsytans modellregister. Exempel är scikit-learn, XGBoost, PyTorch och Hugging Ansiktstransformatormodeller.
- Agentservern stöds som en anpassad modell. Se Distribuera en agent för generativ AI-program
-
Foundation-modeller.
- Databricks-värdhållna grundmodeller som Meta Llama. Dessa modeller är tillgängliga via API:er för Foundation Model. Dessa modeller är utvalda grundmodellarkitekturer som stöder optimerad slutsatsdragning. Basmodellerna, som Meta-Llama-3.3-70B-Instruct, GTE-Large och Mistral-7B, är tillgängliga för omedelbar användning med prissättning per token, och arbetsbelastningar som kräver prestandagarantier och finjusterade modellvarianter kan distribueras med förutbestämt dataflöde.
- Foundation-modeller som finns utanför Databricks som GPT-4 från OpenAI. Dessa modeller är tillgängliga genom att använda externa modeller. Slutpunkterna som hanterar dessa modeller kan styras centralt från Azure Databricks, så att du kan effektivisera användningen och hanteringen av olika LLM-providers, till exempel OpenAI och Anthropic, i din organisation.
Kommentar
Du kan interagera med stora språkmodeller som stöds med hjälp av AI Playground. AI Playground är en chattliknande plattform where där du kan testa, ge kommandon och jämföra LLM:er. Den här funktionen är tillgänglig på din Azure Databricks-arbetsyta.
Varför ska vi använda modellservering?
- Distribuera och fråga efter modeller: Modellservern tillhandahåller ett enhetligt gränssnitt som gör att du kan hantera alla modeller på en plats och köra frågor mot dem med ett enda API, oavsett om de finns på Databricks eller externt. Den här metoden förenklar processen att experimentera med, anpassa och distribuera modeller i produktion i olika moln och providers.
- Anpassa modeller säkert med dina privata data: Modellservern bygger på en datainformationsplattform och förenklar integreringen av funktioner och inbäddningar i modeller genom intern integrering med Databricks Feature Store och Mosaic AI Vector Search. För ännu bättre noggrannhet och sammanhangsberoende förståelse kan modeller finjusteras med proprietära data och distribueras enkelt på modellservering.
- Styra och övervaka modeller: Med användargränssnittet för servering kan du centralt hantera alla modellslutpunkter på ett ställe, inklusive de som finns externt. Du kan hantera behörigheter, spåra set användningsgränser och övervaka kvaliteten för alla typer av modeller. På så sätt kan du demokratisera åtkomsten till SaaS och öppna LLM:er i din organisation samtidigt som lämpliga skyddsräcken är på plats.
- Minska kostnaderna med optimerad slutsatsdragning och snabb skalning: Databricks har implementerat en rad optimeringar för att säkerställa att du get bästa dataflöde och svarstid för stora modeller. Slutpunkterna skalas automatiskt upp eller ned för att möta efterfrågans ändringar, vilket sparar infrastrukturkostnader samtidigt som svarstidsprestandan optimeras. Övervaka kostnader för modellhantering.
Kommentar
För arbetsbelastningar som är svarstidskänsliga eller omfattar ett stort antal frågor per sekund rekommenderar Databricks att du använder routningsoptimering på anpassade modellserverslutpunkter. Kontakta ditt Databricks-kontoteam för att säkerställa att din arbetsyta är aktiverad för hög skalbarhet.
- Bring reliability and security to Model Serving:Model Serving is designed for high-availability, low-latency production use and can support over 25K queries per second with an overhead latency of less than 50 ms. De betjänande arbetsbelastningarna skyddas av flera säkerhetslager, vilket säkerställer en säker och tillförlitlig miljö för även de mest känsliga uppgifterna.
Kommentar
Modellservern tillhandahåller inte säkerhetskorrigeringar för befintliga modellbilder på grund av risken för destabilisering av produktionsdistributioner. En ny modellbild som skapats från en ny modellversion innehåller de senaste korrigeringarna. Kontakta ditt Databricks-kontoteam för mer information.
Krav
- Registrerad modell i Unity Catalog eller Workspace Model Registry.
- Behörigheter för de registrerade modellerna enligt beskrivningen i Serveringsslutpunkts-ACL:er.
- MLflow 1.29 eller senare.
- Om du använder Azure Private Link för att respektera nätverksrelaterade ingressregler som konfigurerats på arbetsytan stöds Endast Azure Private Link för modeller som betjänar slutpunkter som använder etablerat dataflöde eller slutpunkter som hanterar anpassade modeller. Se Konfigurera privat anslutning från serverlös beräkning.
Aktivera modellservering för din arbetsyta
Inga ytterligare steg krävs för att aktivera modellservering på din arbetsyta.
Begränsningar och regiontillgänglighet
Mosaic AI Model Serving inför standardgränser för att säkerställa tillförlitliga prestanda. Se Gränser och regioner för modellservering. Om du har feedback om dessa gränser eller en slutpunkt i en region som inte stöds kontaktar du ditt Databricks-kontoteam.
Dataskydd i modellservering
Databricks tar datasäkerhet på allvar. Databricks förstår vikten av de data som du analyserar med hjälp av Mosaic AI Model Serving och implementerar följande säkerhetskontroller för att skydda dina data.
- Varje kundbegäran till modellservern är logiskt isolerad, autentiserad och auktoriserad.
- Mosaic AI Model Serving krypterar alla vilande data (AES-256) och under överföring (TLS 1.2+).
För alla betalda konton använder Mosaic AI Model Serving inte användarindata som skickas till tjänsten eller utdata från tjänsten för att träna modeller eller förbättra databricks-tjänster.
För Databricks Foundation-modell-API:er kan Databricks tillfälligt bearbeta och lagra indata och utdata i syfte att förhindra, identifiera och minimera missbruk eller skadliga användningsområden. Dina indata och utdata är isolerade från andra kunders, lagras i samma region som din arbetsyta i upp till trettio (30) dagar och är endast tillgängliga för att identifiera och svara på säkerhetsproblem eller missbruksproblem. FOUNDATION Model API:er är en Databricks Designated Service, vilket innebär att den följer datahemvistgränser som implementeras av Databricks Geos.
Ytterligare resurser
- Get började ställa frågor till LLM:er på Databricks.
- Självstudie: Distribuera och fråga en anpassad modell
- Självstudie: Skapa externa modellslutpunkter för att fråga OpenAI-modeller
- Introduktion till att skapa gen-AI-appar på Databricks
- Utföra batch-LLM-slutsatsdragning med hjälp av ai_query
- Migrera till modellbetjäning