Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
In dit artikel leert u meer over de metrische gegevens die worden gebruikt bij het bewaken en evalueren van generatieve AI-modellen in Azure Machine Learning en de aanbevolen procedures voor het gebruik van generatieve AI-modelbewaking.
Belangrijk
Bewaking is momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder service level agreement en wordt niet aanbevolen voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.
Modelbewaking houdt modelprestaties bij in productie en is bedoeld om deze te begrijpen vanuit zowel data science als operationele perspectieven. Voor het implementeren van bewaking gebruikt Azure Machine Learning bewakingssignalen die zijn verkregen via gegevensanalyse op gestreamde gegevens. Elk bewakingssignaal heeft een of meer metrische gegevens. U kunt drempelwaarden voor deze metrische gegevens instellen om waarschuwingen te ontvangen via Azure Machine Learning of Azure Monitor over model- of gegevensafwijkingen.
Grondgebondenheid
Geaardheid evalueert hoe goed de gegenereerde antwoorden van het model overeenkomen met informatie uit de invoerbron. Antwoorden worden geverifieerd als claims op basis van context in de door de gebruiker gedefinieerde bron voor waarheid: zelfs als antwoorden waar zijn (feitelijk correct), als ze niet verifieerbaar zijn voor de brontekst, wordt deze beoordeeld als niet-geaard. Antwoorden die zijn geverifieerd als claims tegen 'context' in de bron van de grondwaar (zoals uw invoerbron of uw database).
- Gebruik dit wanneer: U maakt zich zorgen dat uw toepassing informatie genereert die niet is opgenomen als onderdeel van de getrainde kennis van AI (ook wel bekend als niet-verifieerbare informatie).|
- Lees deze procedure: Als de antwoorden van het model sterk zijn gebaseerd, geeft dit aan dat de feiten die in de antwoorden van het AI-systeem worden behandeld, verifieerbaar zijn door de invoerbron of interne database. Omgekeerd suggereren lage grondheidsscores dat de feiten die worden genoemd in de reacties van het AI-systeem mogelijk niet voldoende worden ondersteund of verifieerbaar zijn door de invoerbron of interne database. In dergelijke gevallen kunnen de gegenereerde antwoorden van het model uitsluitend worden gebaseerd op de vooraf getrainde kennis, die mogelijk niet overeenkomt met de specifieke context of het domein van de opgegeven invoer
- Scale:
- 1 = "niet-geaard": geeft aan dat antwoorden niet kunnen worden verifieerbaar door de invoerbron of interne database.
- 5 = "perfect groundedness" suggereert dat de feiten die in de antwoorden van het AI-systeem worden behandeld, verifieerbaar zijn door de invoerbron of interne database.
Relevantie
De metrische relevantie meet de mate waarin de gegenereerde antwoorden van het model relevant zijn en rechtstreeks gerelateerd zijn aan de gegeven vragen. Wanneer gebruikers interactie hebben met een generatief AI-model, stellen ze vragen of invoerprompts voor, waarbij ze zinvolle en contextafhankelijke antwoorden verwachten.
- Gebruik deze wanneer: U wilt een hoge relevantie behalen voor de antwoorden van uw toepassing om de gebruikerservaring en het nut van uw generatieve AI-systemen te verbeteren.
- Hoe u het kunt lezen: Antwoorden worden beoordeeld in hun vermogen om de belangrijkste punten van de vraag vast te leggen vanuit de context in de bron van de grondwaar. Als de antwoorden van het model zeer relevant zijn, geeft dit aan dat het AI-systeem de invoer begrijpt en coherente en contextafhankelijke uitvoer kan produceren. Omgekeerd stellen lage relevantiescores voor dat de gegenereerde antwoorden mogelijk off-topic zijn, geen context hebben of dat de beoogde query's van de gebruiker onvoldoende worden aangepakt.
- Scale:
- 1 = "irrelevant" suggereert dat de gegenereerde antwoorden mogelijk niet-onderwerp zijn, geen context hebben of dat de beoogde query's van de gebruiker onvoldoende worden aangepakt.
- 5 = "perfecte relevantie" suggereert contextafhankelijke uitvoer.
Samenhang
Coherentie evalueert hoe goed het taalmodel uitvoer kan produceren die soepel stroomt, natuurlijk leest en lijkt op menselijke taal. Hoe goed communiceert de bot zijn berichten op een korte en duidelijke manier, met behulp van eenvoudige en geschikte taal en vermijdt onnodige of verwarrende informatie? Hoe eenvoudig is het voor de gebruiker om de botreacties te begrijpen en te volgen, en hoe goed komen ze overeen met de behoeften en verwachtingen van de gebruiker?
- Gebruik dit wanneer: U wilt de leesbaarheid en gebruiksvriendelijkheid van de gegenereerde antwoorden van uw model testen in echte toepassingen.
- Lees deze procedure: Als de antwoorden van het model zeer coherent zijn, geeft het aan dat het AI-systeem naadloze, goed gestructureerde tekst genereert met vloeiende overgangen. Consistente context in de tekst verbetert de leesbaarheid en het begrip. Lage samenhang betekent dat de kwaliteit van de zinnen in het voorspelde antwoord van een model slecht is en dat ze niet op natuurlijke wijze bij elkaar passen. De gegenereerde tekst heeft mogelijk geen logische stroom en de zinnen kunnen niet aan elkaar worden gekoppeld, waardoor het voor lezers lastig is om de algehele context of het beoogde bericht te begrijpen. Antwoorden worden beoordeeld in hun duidelijkheid, beknoptheid, de juiste taal en de mogelijkheid om te voldoen aan gedefinieerde behoeften en verwachtingen van gebruikers
- Scale:
- 1 = "incoherent": geeft aan dat de kwaliteit van de zinnen in het voorspelde antwoord van een model slecht is en dat ze niet op natuurlijke wijze bij elkaar passen. De gegenereerde tekst heeft mogelijk geen logische stroom en de zinnen kunnen niet aan elkaar worden gekoppeld, waardoor het voor lezers lastig is om de algehele context of het beoogde bericht te begrijpen.
- 5 = "perfect coherent": stelt voor dat het AI-systeem naadloze, goed gestructureerde tekst genereert met vloeiende overgangen en consistente context in de tekst die de leesbaarheid en het begrip verbetert.
Vlotheid
Fluency evalueert de taalvaardigheid van het voorspelde antwoord van ai. Het beoordeelt hoe goed de gegenereerde tekst voldoet aan grammaticale regels, syntactische structuren en het juiste gebruik van vocabulaire, wat resulteert in taalkundige correcte en natuurlijke reacties. Antwoorden worden gemeten op basis van de kwaliteit van afzonderlijke zinnen en of ze goed geschreven en grammaticaal correct zijn. Deze metrische waarde is waardevol bij het evalueren van de mogelijkheid van het taalmodel om tekst te produceren die voldoet aan de juiste grammatica, syntaxis en vocabulaire gebruik.
- Gebruik deze wanneer: U wilt de grammaticale en taalkundige nauwkeurigheid van de voorspelde antwoorden van ai beoordelen.
- Lezen: Als de antwoorden van het model zeer coherent zijn, geeft het aan dat het AI-systeem grammaticale regels volgt en de juiste woordenlijst gebruikt. Consistente context in de tekst verbetert de leesbaarheid en het begrip. Omgekeerd duiden lage fluency-scores op problemen met grammaticale fouten en onhandige formuleringen, waardoor de tekst minder geschikt is voor praktische toepassingen.
- Scale:
- 1 = "stoppen" suggereert moeite met grammaticale fouten en onhandige formulering, waardoor de tekst minder geschikt is voor praktische toepassingen.
- 5 = "perfecte vloeiendheid" suggereert dat het AI-systeem grammaticale regels volgt en de juiste woordenlijst gebruikt. Consistente context in de tekst verbetert de leesbaarheid en het begrip.
Gelijkenis
Overeenkomsten kwantificeert de gelijkenis tussen een grondwaarzin (of document) en de voorspellingszin die wordt gegenereerd door een AI-model. Het wordt berekend door eerste insluitingen op zinsniveau te berekenen voor zowel de grondwaar als de voorspelling van het model. Deze insluitingen vertegenwoordigen hoogdimensionale vectorweergaven van de zinnen, waarbij hun semantische betekenis en context worden vastgelegd.
- Gebruik deze wanneer: U wilt de prestaties van een AI-model objectief evalueren (voor taken voor het genereren van tekst waar u toegang hebt tot gewenste antwoorden op grond van waarheid). Met Ada-gelijkenis kunt u de gegenereerde tekst vergelijken met de gewenste inhoud.
- Hoe u het kunt lezen: Antwoorden worden beoordeeld op gelijkwaardigheid aan het antwoord op de grond-waarheid door dezelfde informatie en betekenis vast te leggen als het antwoord op de grond-waarheid voor de gegeven vraag. Een hoge Ada-overeenkomstscore suggereert dat de voorspelling van het model contextueel vergelijkbaar is met de grondwaar, wat nauwkeurige en relevante resultaten aangeeft. Omgekeerd impliceert een lage Ada-gelijkenisscore een niet-overeenkomende of uiteenlopende verschillen tussen de voorspelling en de werkelijke grondwaar, waardoor mogelijk onnauwkeurigheden of tekortkomingen in de prestaties van het model worden gesignaleerde.
- Scale:
- 1 = "nonequivalence" suggereert dat de voorspelling niet overeenkomt of afwijkt tussen de voorspelling en de werkelijke grondwaar, waardoor mogelijk onnauwkeurigheden of tekortkomingen in de prestaties van het model worden signalen.
- 5 = "perfecte gelijkwaardigheid" suggereert dat de voorspelling van het model contextueel vergelijkbaar is met de grondwaar, wat nauwkeurige en relevante resultaten aangeeft.