Delen via


Evaluatieresultaten weergeven in de Azure AI Foundry-portal

De evaluatiepagina van de Azure AI Foundry-portal is een veelzijdige hub waarmee u niet alleen uw resultaten kunt visualiseren en evalueren, maar ook fungeert als een controlecentrum voor het optimaliseren, oplossen van problemen en het selecteren van het ideale AI-model voor uw implementatiebehoeften. Het is een eenmalige oplossing voor gegevensgestuurde besluitvorming en prestatieverbeteringen in uw Azure AI Foundry-projecten. U kunt de resultaten van verschillende bronnen naadloos openen en interpreteren, waaronder uw stroom, de snelle testsessie voor speeltuinen, de gebruikersinterface voor het indienen van evaluatie en SDK. Deze flexibiliteit zorgt ervoor dat u kunt communiceren met uw resultaten op een manier die het beste past bij uw werkstroom en voorkeuren.

Zodra u uw evaluatieresultaten hebt gevisualiseerd, kunt u dieper ingaan op een grondig onderzoek. Dit omvat de mogelijkheid om niet alleen afzonderlijke resultaten te bekijken, maar ook om deze resultaten te vergelijken met meerdere evaluatieuitvoeringen. Door dit te doen, kunt u trends, patronen en verschillen identificeren, waardoor u waardevolle inzichten krijgt in de prestaties van uw AI-systeem onder verschillende omstandigheden.

In dit artikel leert u het volgende:

  • Bekijk het evaluatieresultaat en de metrische gegevens.
  • Vergelijk de evaluatieresultaten.
  • Inzicht in de ingebouwde metrische evaluatiegegevens.
  • Verbeter de prestaties.
  • Bekijk de evaluatieresultaten en metrische gegevens.

Uw evaluatieresultaten zoeken

Wanneer u uw evaluatie hebt ingediend, kunt u de ingediende evaluatieuitvoering vinden in de lijst met uitvoeringen door naar de evaluatiepagina te navigeren.

U kunt uw evaluatieuitvoeringen bewaken en beheren in de lijst met uitvoeringen. Met de flexibiliteit om de kolommen te wijzigen met behulp van de kolomeditor en filters te implementeren, kunt u uw eigen versie van de uitvoeringslijst aanpassen en maken. Daarnaast kunt u snel de geaggregeerde metrische evaluatiegegevens voor de uitvoeringen bekijken, zodat u snelle vergelijkingen kunt uitvoeren.

Schermopname van de lijst met evaluatieuitvoeringen.

Tip

Als u evaluaties wilt weergeven die worden uitgevoerd met een versie van de promptflow-evals SDK of azure-ai-evaluation-versies 1.0.0b1, 1.0.0b2, 1.0.0b3, schakelt u de wisselknop Alle uitvoeringen weergeven in om de uitvoering te vinden.

Als u meer wilt weten over hoe de metrische evaluatiegegevens worden afgeleid, hebt u toegang tot een uitgebreide uitleg door de optie Meer informatie over metrische gegevens te selecteren. Deze gedetailleerde resource biedt waardevolle inzichten in de berekening en interpretatie van de metrische gegevens die in het evaluatieproces worden gebruikt.

Schermopname van de details van de metrische evaluatiegegevens.

U kunt een specifieke uitvoering kiezen, waarmee u naar de detailpagina van de uitvoering gaat. Hier hebt u toegang tot uitgebreide informatie, zoals evaluatiegegevensset, taaktype, prompt, temperatuur en meer. Bovendien kunt u de metrische gegevens bekijken die zijn gekoppeld aan elk gegevensvoorbeeld. De grafieken met metrische scores bieden een visuele weergave van de verdeling van scores voor elke metriek in uw gegevensset.

Grafieken met metrische dashboards

We splitsen de geaggregeerde weergaven op met verschillende soorten metrische gegevens door AI Quality (AI assisted), Risico en veiligheid, AI-kwaliteit (NLP) en Aangepast, indien van toepassing. U kunt de verdeling van scores in de geëvalueerde gegevensset bekijken en statistische scores voor elke metrische waarde bekijken.

  • Voor AI Quality (AI assisted) aggregeren we door een gemiddelde te berekenen voor alle scores voor elke metriek. Als u Groundedness Pro berekent, is de uitvoer binair en is de geaggregeerde score dus het doorgeven van de score, die wordt berekend door (#trues /#instances) × 100. Schermopname van het dashboardtabblad AI Quality (AI Assisted).
  • Voor metrische gegevens over risico's en veiligheid aggregeren we door een defectpercentage voor elke metrische waarde te berekenen.
    • Voor metrische gegevens over inhoudsschade wordt de defectfrequentie gedefinieerd als het percentage exemplaren in uw testgegevensset dat een drempelwaarde overschrijdt voor de ernstschaal van de hele gegevensset. De drempelwaarde is standaard 'Gemiddeld'.
    • Voor beveiligde materialen en indirecte aanvallen wordt de defectsnelheid berekend als het percentage exemplaren waarbij de uitvoer 'true' is (Defect Rate = (#trues / #instances) × 100). Schermopname van het tabblad Dashboard met metrische gegevens over risico en veiligheid.
  • Voor metrische gegevens van AI Quality (NLP) tonen we een histogram van de metrische verdeling tussen 0 en 1. We aggregeren door een gemiddelde te berekenen voor alle scores voor elke metrische waarde. Schermopname van het dashboardtabblad AI Quality (NLP).
  • Voor aangepaste metrische gegevens kunt u Aangepaste grafiek toevoegen selecteren om een aangepaste grafiek te maken met de gekozen metrische gegevens of om een metrische waarde weer te geven voor geselecteerde invoerparameters. Schermopname van het pop-upvenster voor aangepaste grafieken maken.

U kunt ook bestaande grafieken aanpassen voor ingebouwde metrische gegevens door het grafiektype te wijzigen.

Schermopname van het wijzigen van het grafiektype.

Gedetailleerde resultatentabel met metrische gegevens

In de tabel met metrische gegevens kunt u een uitgebreid onderzoek uitvoeren van elk afzonderlijk gegevensvoorbeeld. Hier kunt u de gegenereerde uitvoer en de bijbehorende metrische evaluatiescore bekijken. Met dit detailniveau kunt u gegevensgestuurde beslissingen nemen en specifieke acties ondernemen om de prestaties van uw model te verbeteren.

Enkele mogelijke actie-items op basis van de metrische evaluatiegegevens kunnen zijn:

  • Patroonherkenning: Door te filteren op numerieke waarden en metrische gegevens, kunt u inzoomen op voorbeelden met lagere scores. Onderzoek deze voorbeelden om terugkerende patronen of problemen in de antwoorden van uw model te identificeren. U ziet bijvoorbeeld dat er vaak lage scores optreden wanneer het model inhoud op een bepaald onderwerp genereert.
  • Modelverfijning: gebruik de inzichten uit voorbeelden met een lagere score om de systeempromptinstructie te verbeteren of uw model af te stemmen. Als u consistente problemen ondervindt met bijvoorbeeld samenhang of relevantie, kunt u ook de trainingsgegevens of parameters van het model dienovereenkomstig aanpassen.
  • Kolomaanpassing: Met de kolomeditor kunt u een aangepaste weergave van de tabel maken, waarbij u zich richt op de metrische gegevens en gegevens die het meest relevant zijn voor uw evaluatiedoelen. Dit kan uw analyse stroomlijnen en u helpen trends effectiever te herkennen.
  • Trefwoorden zoeken: met het zoekvak kunt u zoeken naar specifieke woorden of woordgroepen in de gegenereerde uitvoer. Dit kan handig zijn voor het aanwijzen van problemen of patronen met betrekking tot bepaalde onderwerpen of trefwoorden en om deze specifiek aan te pakken.

De detailtabel met metrische gegevens biedt een schat aan gegevens die u kunnen helpen bij het verbeteren van uw model, van het herkennen van patronen tot het aanpassen van uw weergave voor een efficiënte analyse en het verfijnen van uw model op basis van geïdentificeerde problemen.

Hier volgen enkele voorbeelden van de metrische resultaten voor het vraagantwoordscenario:

Schermopname van metrische resultaten voor het antwoordscenario voor vragen.

Hier volgen enkele voorbeelden van de metrische resultaten voor het gespreksscenario:

Schermopname van metrische resultaten voor het gespreksscenario.

Voor een gespreksscenario met meerdere paden kunt u 'Evaluatieresultaten per beurt weergeven' selecteren om de metrische evaluatiegegevens te controleren voor elke keer dat een gesprek wordt ingeleverd.

Schermopname van het weergeven van evaluatieresultaten per koppeling in het invoerbericht.

Schermopname van evaluatieresultaten per beurt.

Voor een veiligheidsevaluatie in een multimodaal scenario (tekst en afbeeldingen) kunt u de afbeeldingen bekijken van zowel de invoer als uitvoer in de tabel met gedetailleerde metrische resultaten om het evaluatieresultaat beter te begrijpen. Omdat multimodale evaluatie momenteel alleen wordt ondersteund voor gespreksscenario's, kunt u 'Evaluatieresultaten per beurt weergeven' selecteren om de invoer en uitvoer voor elke beurt te onderzoeken.

Schermopname van gedetailleerde metrische resultaten.

Schermopname van de pop-up van de afbeelding uit de gesprekskolom.

Selecteer de afbeelding om deze uit te vouwen en weer te geven. Standaard zijn alle afbeeldingen wazig om u te beschermen tegen mogelijk schadelijke inhoud. Als u de afbeelding duidelijk wilt weergeven, schakelt u de wisselknop 'Blur-afbeelding controleren' in.

Schermopname van wazige afbeelding met de wisselknop Blauw beeld.

Voor metrische gegevens over risico's en veiligheid biedt de evaluatie een ernstscore en redenering voor elke score. Hier volgen enkele voorbeelden van metrische gegevens over risico's en veiligheid voor het vraagantwoordscenario:

Schermopname van de resultaten van metrische gegevens over risico's en veiligheid voor het beantwoorden van vragen.

Evaluatieresultaten kunnen verschillende betekenissen hebben voor verschillende doelgroepen. Veiligheidsevaluaties kunnen bijvoorbeeld een label genereren voor de ernst 'Laag' van gewelddadige inhoud die mogelijk niet overeenkomt met de definitie van een menselijke revisor van hoe ernstig die specifieke gewelddadige inhoud kan zijn. We bieden een kolom voor menselijke feedback met duimen omhoog en duim omlaag bij het beoordelen van uw evaluatieresultaten om aan te geven welke instanties zijn goedgekeurd of gemarkeerd als onjuist door een menselijke revisor.

Schermopname van metrische gegevens over risico's en veiligheid met menselijke feedback.

Wanneer u inzicht hebt in de metrische gegevens over inhoudsrisico's, kunt u eenvoudig elke metrische definitie en ernstschaal bekijken door de metrische naam boven de grafiek te selecteren om een gedetailleerde uitleg in een pop-upvenster weer te geven.

Schermopname van pop-upvenster met metrische gegevens over risico en veiligheid.

Als er iets mis is met de uitvoering, kunt u ook fouten opsporen in de evaluatieuitvoering met de logboeken.

Hier volgen enkele voorbeelden van de logboeken die u kunt gebruiken om fouten in de evaluatieuitvoering op te sporen:

Schermopname van logboeken die u kunt gebruiken om fouten in de evaluatieuitvoering op te sporen.

Als u een promptstroom evalueert, kunt u de knop Weergeven in stroom selecteren om naar de geëvalueerde stroompagina te navigeren om de stroom bij te werken. Voeg bijvoorbeeld aanvullende instructies voor de metaprompt toe of wijzig enkele parameters en evalueer opnieuw.

Weergave beheren en delen met weergaveopties

Op de pagina Evaluatiedetails kunt u de weergave aanpassen door aangepaste grafieken toe te voegen of kolommen te bewerken. Zodra de weergave is aangepast, hebt u de mogelijkheid om de weergave op te slaan en/of met anderen te delen met behulp van de weergaveopties. Hierdoor kunt u de evaluatieresultaten bekijken in een indeling die is afgestemd op uw voorkeuren en de samenwerking met collega's vergemakkelijkt.

Schermopname van de vervolgkeuzelijst weergaveopties.

De evaluatieresultaten vergelijken

Om een uitgebreide vergelijking tussen twee of meer uitvoeringen te vergemakkelijken, hebt u de mogelijkheid om de gewenste uitvoeringen te selecteren en het proces te starten door de knop Vergelijken te selecteren of, voor een algemene gedetailleerde dashboardweergave, de knop Overschakelen naar dashboardweergave. Met deze functie kunt u de prestaties en resultaten van meerdere uitvoeringen analyseren en contrasteren, zodat u beter geïnformeerde beslissingen en gerichte verbeteringen kunt uitvoeren.

Schermopname van de optie om evaluaties te vergelijken.

In de dashboardweergave hebt u toegang tot twee waardevolle onderdelen: de grafiek met de vergelijking van metrische gegevens en de vergelijkingstabel. Met deze hulpprogramma's kunt u een side-by-side analyse uitvoeren van de geselecteerde evaluatieuitvoeringen, zodat u verschillende aspecten van elk gegevensvoorbeeld met gemak en precisie kunt vergelijken.

Schermopname van de pagina met metrische evaluaties met de optie om handmatige evaluaties te selecteren.

In de vergelijkingstabel kunt u een basislijn voor uw vergelijking instellen door de muisaanwijzer over de specifieke uitvoering te bewegen die u als referentiepunt wilt gebruiken en als basislijn wilt instellen. Bovendien kunt u de verschillen tussen de basislijnuitvoering en de andere uitvoeringen voor numerieke waarden gemakkelijk visualiseren door de wisselknop Delta weergeven te activeren. Als de wisselknop Alleen verschil weergeven is ingeschakeld, worden in de tabel ook alleen de rijen weergegeven die verschillen tussen de geselecteerde uitvoeringen, met hulp bij de identificatie van afzonderlijke variaties.

Met deze vergelijkingsfuncties kunt u een weloverwogen beslissing nemen om de beste versie te selecteren:

  • Vergelijking van basislijn: Door een basislijnuitvoering in te stellen, kunt u een referentiepunt identificeren waarmee u de andere uitvoeringen kunt vergelijken. Zo kunt u zien hoe elke uitvoering afwijkt van de door u gekozen standaard.
  • Numerieke waarde-evaluatie: als u de optie Delta weergeven inschakelt, krijgt u inzicht in de mate van de verschillen tussen de basislijn en andere uitvoeringen. Dit is handig om te evalueren hoe verschillende uitvoeringen presteren in termen van specifieke metrische evaluatiegegevens.
  • Verschilisolatie: de functie Alleen verschil weergeven stroomlijnt uw analyse door alleen de gebieden te markeren waarin er verschillen zijn tussen uitvoeringen. Dit kan een instrument zijn om te bepalen waar verbeteringen of aanpassingen nodig zijn.

Door deze vergelijkingshulpprogramma's effectief te gebruiken, kunt u bepalen welke versie van uw model of systeem het beste presteert ten opzichte van uw gedefinieerde criteria en metrische gegevens, waardoor u uiteindelijk de meest optimale optie voor uw toepassing kunt selecteren.

Schermopname van de evaluatieresultaten naast elkaar.

Jailbreak-beveiligingsprobleem meten

Het evalueren van jailbreak is een vergelijkende meting, geen metrische ai-ondersteuning. Voer evaluaties uit op twee verschillende, rood gekoppelde gegevenssets: een basisgegevensset voor adversarial testen versus dezelfde adversarial-testgegevensset met jailbreakinjecties in de eerste beurt. U kunt de adversarial-gegevenssimulator gebruiken om de gegevensset te genereren met of zonder jailbreakinjecties.

Als u wilt weten of uw toepassing kwetsbaar is voor jailbreak, kunt u opgeven wat de basislijn is en vervolgens 'Jailbreak defect rates' inschakelen in de vergelijkingstabel. Jailbreak-defectpercentage wordt gedefinieerd als het percentage exemplaren in uw testgegevensset, waarbij een jailbreakinjectie een hogere ernstscore heeft gegenereerd voor metrische gegevens over inhoudsrisico's met betrekking tot een basislijn over de gehele grootte van de gegevensset. U kunt meerdere evaluaties selecteren in uw vergelijkingsdashboard om het verschil in defectpercentages weer te geven.

Schermopname van evaluatieresultaten naast elkaar met jailbreak defect ingeschakeld.

Tip

De jailbreak-defectfrequentie wordt alleen berekend voor gegevenssets van dezelfde grootte en alleen wanneer alle uitvoeringen inhoudsrisico's en metrische gegevens over veiligheid bevatten.

Inzicht in de ingebouwde metrische evaluatiegegevens

Inzicht in de ingebouwde metrische gegevens is essentieel voor het beoordelen van de prestaties en effectiviteit van uw AI-toepassing. Door inzicht te krijgen in deze belangrijke meethulpprogramma's, kunt u de resultaten beter interpreteren, weloverwogen beslissingen nemen en uw toepassing verfijnen om optimale resultaten te bereiken. Voor meer informatie over de betekenis van elke metriek, hoe deze wordt berekend, hoe deze wordt berekend, de rol bij het evalueren van verschillende aspecten van uw model en hoe u de resultaten interpreteert om gegevensgestuurde verbeteringen aan te brengen, raadpleegt u Evaluatie- en bewakingsgegevens.

Volgende stappen

Meer informatie over het evalueren van uw generatieve AI-toepassingen:

Meer informatie over technieken voor schadebeperking.