AI en machine learning in Databricks
In dit artikel worden de hulpprogramma's beschreven die Mosaic AI (voorheen Databricks Machine Learning) biedt om u te helpen AI- en ML-systemen te bouwen. Het diagram laat zien hoe verschillende producten op het Databricks-platform u helpen bij het implementeren van uw end-to-end-werkstromen voor het bouwen en implementeren van AI- en ML-systemen
Generatieve AI op Databricks
Mozaïek AI unifieert de AI-levenscyclus van gegevensverzameling en -voorbereiding, tot modelontwikkeling en LLMOps, tot het leveren en bewaken van gegevens. De volgende functies zijn specifiek geoptimaliseerd om de ontwikkeling van generatieve AI-toepassingen te vergemakkelijken:
- Unity-Catalog voor governance, ontdekking, versiebeheer en toegangsbeheer voor gegevens, kenmerken, modellen en functies.
- MLflow voor het bijhouden van modelontwikkeling.
-
Mozaïek AI Model Serving voor het implementeren van LLM's. U kunt een model voor eindpunten die specifiek dienen voor toegang tot generatieve AI-modellen configureren:
- Geavanceerde open LLM's met behulp van Foundation Model-API's.
- Externe modellen die buiten Databricks worden gehost. Zie externe modellen in Mosaic AI Model Serving.
- Mozaïek AI Vector Search biedt een doorzoekbare vectordatabase waarin insluitingsvectoren worden opgeslagen en die kunnen worden geconfigureerd om automatisch te sync in uw knowledge base.
- Lakehouse Monitoring voor datamonitoring en het bijhouden van de kwaliteit van modelvoorspellingen en drift met behulp van automatische payload-logging met inferentie tables.
- AI Playground voor het testen van generatieve AI-modellen vanuit uw Databricks-werkruimte. U kunt instellingen zoals systeemprompt en inferentie parametersconfigureren, vergelijken en aanpassen.
- Foundation Model fine-tuning (nu onderdeel van Mosaic AI Model Training) voor het aanpassen van een basismodel met behulp van uw eigen gegevens om de prestaties voor uw specifieke toepassing te optimize.
- Mozaïek AI Agent Framework voor het bouwen en implementeren van agents van productiekwaliteit, zoals RAG-toepassingen (Retrieval Augmented Generation).
- Mozaïek AI Agent Evaluation voor het evalueren van de kwaliteit, kosten en latentie van generatieve AI-toepassingen, waaronder RAG-toepassingen en ketens.
Wat is generatieve AI?
Generatieve AI is een soort kunstmatige intelligentie die is gericht op de mogelijkheid van computers om modellen te gebruiken om inhoud zoals afbeeldingen, tekst, code en synthetische gegevens te maken.
Generatieve AI-toepassingen zijn gebouwd op basis van generatieve AI-modellen: grote taalmodellen (LLM's) en basismodellen.
- LLM's zijn deep learning-modellen die enorme gegevenssets gebruiken en trainen om te excelleren in taalverwerkingstaken. Ze maken nieuwe combinaties van tekst die natuurlijke taal nabootsen op basis van hun trainingsgegevens.
- Generatieve AI-modellen of basismodellen zijn grote ML-modellen die vooraf zijn getraind met de bedoeling dat ze zijn afgestemd op specifiekere taalbegrip- en generatietaken. Deze modellen worden gebruikt om patronen in de invoergegevens te onderscheiden.
Nadat deze modellen hun leerprocessen hebben voltooid, generate ze statistisch waarschijnlijke uitvoer wanneer daarom wordt gevraagd en kunnen ze worden gebruikt om verschillende taken uit te voeren, waaronder:
- Het genereren van afbeeldingen op basis van bestaande afbeeldingen of het gebruik van de stijl van één afbeelding om een nieuwe te wijzigen of te maken.
- Spraaktaken zoals transcriptie, vertaling, vraag/antwoord genereren en interpretatie van de intentie of betekenis van tekst.
Belangrijk
Hoewel veel LLM's of andere generatieve AI-modellen waarborgen hebben, kunnen ze nog steeds schadelijke of onjuiste informatie generate.
Generatieve AI heeft de volgende ontwerppatronen:
- Prompt Engineering: Gespecialiseerde prompts maken om LLM-gedrag te begeleiden
- Ophalen augmented generation (RAG): een LLM combineren met externe kennis ophalen
- Afstemmen: Een vooraf getrainde LLM aanpassen aan specifieke gegevenssets van domeinen
- Pretraining: Een LLM helemaal opnieuw trainen
Machine learning op Databricks
Met Mosaic AI dient één platform elke stap van ML-ontwikkeling en -implementatie, van onbewerkte gegevens tot deductie tables die elke aanvraag en reactie voor een geleverd model opslaan. Gegevenswetenschappers, data engineers, ML-technici en DevOps kunnen hun taken uitvoeren met behulp van dezelfde set hulpprogramma's en één bron van waarheid voor de gegevens.
Mozaïek AI unifieert de gegevenslaag en het ML-platform. Alle gegevensassets en artefacten, zoals modellen en functies, zijn vindbaar en beheerd in één catalog. Met één platform voor gegevens en modellen kunt u herkomst van de onbewerkte gegevens naar het productiemodel bijhouden. Ingebouwde gegevens- en modelbewaking slaat metrische gegevens van de kwaliteit op in tables die ook zijn opgeslagen in het platform, waardoor het gemakkelijker is om de hoofdoorzaak van prestatieproblemen van het model te identificeren. Zie MLOps-werkstromen in Azure Databricks en MLOps Stacks voor meer informatie over hoe Databricks de volledige ML-levenscyclus en MLOps-stacks ondersteunt: modelontwikkelingsproces als code.
Enkele van de belangrijkste onderdelen van het data intelligence-platform zijn:
Opdrachten | Onderdeel |
---|---|
Gegevens, functies, modellen en functies beheren en beheren. Ook detectie, versiebeheer en herkomst. | Unity-Catalog |
Wijzigingen in gegevens, gegevenskwaliteit en modelvoorspellingskwaliteit bijhouden | Lakehouse Monitoring, inferentie tables |
Functieontwikkeling en -beheer | Functie-engineering en -dienst. |
Modellen trainen | AutoML, Databricks-notebooks |
Ontwikkeling van traceringsmodellen | MLflow-tracering |
Aangepaste modellen leveren | Mozaïek AI-model bedienen. |
Geautomatiseerde werkstromen en ETL-pijplijnen bouwen die gereed zijn voor productie | Databricks-taken |
Git-integratie | Git-mappen in Databricks |
Deep Learning op Databricks
Het configureren van infrastructuur voor Deep Learning-toepassingen kan lastig zijn. Databricks Runtime voor Machine Learning zorgt hiervoor voor u, met clusters met ingebouwde compatibele versies van de meest voorkomende Deep Learning-bibliotheken zoals TensorFlow, PyTorch en Keras.
Databricks Runtime ML-clusters bevatten ook vooraf geconfigureerde GPU-ondersteuning met stuurprogramma's en ondersteunende bibliotheken. Het biedt ook ondersteuning voor bibliotheken zoals Ray om rekenverwerking te parallelliseren voor het schalen van ML-werkstromen en ML-toepassingen.
Databricks Runtime ML-clusters bevatten ook vooraf geconfigureerde GPU-ondersteuning met stuurprogramma's en ondersteunende bibliotheken. Mozaïek AI Model Serving maakt het mogelijk om schaalbare GPU-eindpunten te maken voor deep learning-modellen zonder extra configuratie.
Voor machine learning-toepassingen raadt Databricks aan om een cluster met Databricks Runtime voor Machine Learning te gebruiken. Zie Een cluster maken met Databricks Runtime ML.
Als u wilt get gestart met Deep Learning op Databricks, raadpleegt u:
- Best practices voor deep learning in Azure Databricks
- Deep Learning op Databricks
- Referentieoplossingen voor Deep Learning
Volgende stappen
Om te beginnen met get, zie:
Zie voor een aanbevolen MLOps-werkstroom op Databricks Mosaic AI:
Zie voor meer informatie over de belangrijkste AI-functies van Databricks Mosaic: