Modellbetjäning med Azure Databricks
Den här artikeln beskriver Mosaic AI Model Serving, inklusive dess fördelar och begränsningar.
Vad är Mosaic AI Model Serving?
Mosaic AI Model Serving tillhandahåller ett enhetligt gränssnitt för att distribuera, styra och fråga AI-modeller för realtids- och batchinferens. Varje modell som du hanterar är tillgänglig som ett REST-API som du kan integrera i ditt webb- eller klientprogram.
Modellservering ger en tjänst med hög tillgänglighet och låg latens för att distribuera modeller. Tjänsten skalas automatiskt upp eller ned för att möta ändringar i efterfrågan, vilket sparar infrastrukturkostnader samtidigt som svarstidsprestandan optimeras. Den här funktionen använder serverlös beräkning. Mer information finns på prissättningssidan för modellservern.
Modellservering stöder servering:
- Anpassade modeller. Det här är Python-modeller som paketeras i MLflow-format. De kan registreras antingen i Unity Catalog eller i arbetsytans modellregister. Exempel är scikit-learn, XGBoost, PyTorch och Hugging Ansiktstransformatormodeller.
- Agentservern stöds som en anpassad modell. Se Distribuera en agent för generativ AI-program
- Toppmoderna öppna modeller som görs tillgängliga av Foundation Model-API:er. Dessa modeller är utvalda grundmodellarkitekturer som stöder optimerad slutsatsdragning. Basmodeller som Meta-Llama-3.1-70B-Instruct, GTE-Large och Mistral-7B är tillgängliga för omedelbar användning med prissättning för betala per token och arbetsbelastningar som kräver prestandagarantier och finjusterade modellvarianter kan distribueras med etablerat dataflöde.
- Databricks rekommenderar att du använder
ai_query
med Modellservering för batchinferens. För snabbexperimenteringai_query
kan användas med pay-per-token-slutpunkter. När du är redo att köra batchinferens på stora data eller produktionsdata rekommenderar Databricks att du använder etablerade dataflödesslutpunkter för snabbare prestanda. Mer information om hur du skapar en etablerad dataflödesslutpunkt finns i Api:er för etablerad dataflödesmodell.- Se Utföra batchinferens med hjälp av ai_query.
- Om du vill komma igång med batch-slutsatsdragning med LLM:er i Unity Catalog-tabeller kan du läsa notebook-exemplen i Batch-slutsatsdragning med foundation model-API:er som etablerats genom dataflöde.
- Databricks rekommenderar att du använder
- Externa modeller. Det här är generativa AI-modeller som finns utanför Databricks. Exempel är modeller som OpenAI:s GPT-4, Anthropics Claude och andra. Slutpunkter som hanterar externa modeller kan styras centralt och kunderna kan fastställa hastighetsbegränsningar och åtkomstkontroll för dem.
Kommentar
Du kan interagera med stora språkmodeller som stöds med hjälp av AI Playground. AI Playground är en chattliknande miljö där du kan testa, fråga och jämföra LLM:er. Den här funktionen är tillgänglig på din Azure Databricks-arbetsyta.
Modellservern erbjuder ett enhetligt REST API och MLflow Deployment API för CRUD och frågeuppgifter. Dessutom finns det ett enda användargränssnitt för att hantera alla dina modeller och deras respektive serverslutpunkter. Du kan också komma åt modeller direkt från SQL med hjälp av AI-funktioner för enkel integrering i analysarbetsflöden.
En introduktionskurs om hur du hanterar anpassade modeller i Azure Databricks finns i Självstudie: Distribuera och fråga efter en anpassad modell.
En komma igång-självstudie om hur du frågar efter en grundmodell i Databricks finns i Kom igång fråga llms på Databricks.
Varför ska vi använda modellservering?
- Distribuera och fråga efter modeller: Modellservern tillhandahåller ett enhetligt gränssnitt som gör att du kan hantera alla modeller på en plats och köra frågor mot dem med ett enda API, oavsett om de finns på Databricks eller externt. Den här metoden förenklar processen att experimentera med, anpassa och distribuera modeller i produktion i olika moln och leverantörer.
- Anpassa modeller säkert med dina privata data: Modellservern bygger på en datainformationsplattform och förenklar integreringen av funktioner och inbäddningar i modeller genom intern integrering med Databricks Feature Store och Mosaic AI Vector Search. För ännu bättre noggrannhet och sammanhangsberoende förståelse kan modeller finjusteras med proprietära data och distribueras enkelt på modellservering.
- Styra och övervaka modeller: Med användargränssnittet för servering kan du centralt hantera alla modellslutpunkter på ett ställe, inklusive de som finns externt. Du kan hantera behörigheter, spåra och ange användningsgränser och övervaka kvaliteten på alla typer av modeller. På så sätt kan du demokratisera åtkomsten till SaaS och öppna LLM:er i din organisation samtidigt som lämpliga skyddsräcken är på plats.
- Minska kostnaderna med optimerad slutsatsdragning och snabb skalning: Databricks har implementerat en rad optimeringar för att säkerställa att du får bästa möjliga dataflöde och svarstid för stora modeller. Slutpunkterna skalas automatiskt upp eller ned för att möta efterfrågans ändringar, vilket sparar infrastrukturkostnader samtidigt som svarstidsprestandan optimeras. Övervaka kostnader för modellhantering.
Kommentar
För arbetsbelastningar som är svarstidskänsliga eller omfattar ett stort antal frågor per sekund rekommenderar Databricks att du använder routningsoptimering på anpassade modellserverslutpunkter. Kontakta ditt Databricks-kontoteam för att säkerställa att din arbetsyta är aktiverad för hög skalbarhet.
- Bring reliability and security to Model Serving:Model Serving is designed for high-availability, low-latency production use and can support over 25K queries per second with an overhead latency of less than 50 ms. De betjänande arbetsbelastningarna skyddas av flera säkerhetslager, vilket säkerställer en säker och tillförlitlig miljö för även de mest känsliga uppgifterna.
Kommentar
Modellservern tillhandahåller inte säkerhetskorrigeringar för befintliga modellbilder på grund av risken för destabilisering av produktionsdistributioner. En ny modellbild som skapats från en ny modellversion innehåller de senaste korrigeringarna. Kontakta ditt Databricks-kontoteam för mer information.
Krav
- Registrerad modell i Unity Catalog eller Arbetsytans modellregister.
- Behörigheter för de registrerade modellerna enligt beskrivningen i Serveringsslutpunkts-ACL:er.
- MLflow 1.29 eller senare.
- Om du använder Azure Private Link för att respektera nätverksrelaterade ingressregler som konfigurerats på arbetsytan stöds Endast Azure Private Link för modeller som betjänar slutpunkter som använder etablerat dataflöde eller slutpunkter som hanterar anpassade modeller. Se Konfigurera privat anslutning från serverlös beräkning.
Aktivera modellservering för din arbetsyta
Inga ytterligare steg krävs för att aktivera modellservering på din arbetsyta.
Begränsningar och regiontillgänglighet
Mosaic AI Model Serving inför standardgränser för att säkerställa tillförlitliga prestanda. Se Gränser och regioner för modellservering. Om du har feedback om dessa gränser eller en slutpunkt i en region som inte stöds kontaktar du ditt Databricks-kontoteam.
Dataskydd i modellservering
Databricks tar datasäkerhet på allvar. Databricks förstår vikten av de data som du analyserar med hjälp av Mosaic AI Model Serving och implementerar följande säkerhetskontroller för att skydda dina data.
- Varje kundbegäran till modellservern är logiskt isolerad, autentiserad och auktoriserad.
- Mosaic AI Model Serving krypterar alla vilande data (AES-256) och under överföring (TLS 1.2+).
För alla betalda konton använder Mosaic AI Model Serving inte användarindata som skickas till tjänsten eller utdata från tjänsten för att träna modeller eller förbättra databricks-tjänster.
För Databricks Foundation-modell-API:er kan Databricks tillfälligt bearbeta och lagra indata och utdata i syfte att förhindra, identifiera och minimera missbruk eller skadliga användningsområden. Dina indata och utdata är isolerade från andra kunders, lagras i samma region som din arbetsyta i upp till trettio (30) dagar och är endast tillgängliga för att identifiera och svara på säkerhetsproblem eller missbruksproblem. FOUNDATION Model API:er är en Databricks Designated Service, vilket innebär att den följer datahemvistgränser som implementeras av Databricks Geos.