Delen via


Aan de slag met het evalueren van antwoorden in een chat-app in JavaScript

In dit artikel leest u hoe u de antwoorden van een chat-app evalueert op basis van een set juiste of ideale antwoorden (ook wel grond waarheid genoemd). Wanneer u uw chattoepassing wijzigt op een manier die van invloed is op de antwoorden, voert u een evaluatie uit om de wijzigingen te vergelijken. Deze demotoepassing biedt hulpprogramma's die u vandaag kunt gebruiken om het eenvoudiger te maken om evaluaties uit te voeren.

Door de instructies in dit artikel te volgen, gaat u het volgende doen:

  • Gebruik opgegeven voorbeeldprompts die zijn afgestemd op het onderwerpdomein. Deze prompts bevinden zich al in de opslagplaats.
  • Genereer voorbeeldgebruikersvragen en basisantwoorden op basis van uw eigen documenten.
  • Voer evaluaties uit met behulp van een voorbeeldprompt met de gegenereerde gebruikersvragen.
  • Analyse van antwoorden bekijken.

Notitie

In dit artikel worden een of meer AI-app-sjablonen gebruikt als basis voor de voorbeelden en richtlijnen in het artikel. AI-app-sjablonen bieden u een goed onderhouden, eenvoudig te implementeren referentie-implementaties die u helpen een startpunt van hoge kwaliteit voor uw AI-apps te garanderen.

Architectuuroverzicht

Belangrijke onderdelen van de architectuur zijn:

  • Door Azure gehoste chat-app: de chat-app wordt uitgevoerd in Azure-app Service.
  • Microsoft AI Chat Protocol biedt gestandaardiseerde API-contracten voor AI-oplossingen en -talen. De chat-app voldoet aan het Microsoft AI Chat Protocol, waarmee de evaluaties-app kan worden uitgevoerd op elke chat-app die voldoet aan het protocol.
  • Azure AI Search: de chat-app maakt gebruik van Azure AI Search om de gegevens uit uw eigen documenten op te slaan.
  • Generator voor voorbeeldvragen: kan veel vragen genereren voor elk document, samen met het antwoord op de grondwaar. Hoe meer vragen, hoe langer de evaluatie.
  • Evaluator voert voorbeeldvragen en prompts uit voor de chat-app en retourneert de resultaten.
  • Met het beoordelingsprogramma kunt u de resultaten van de evaluaties bekijken.
  • Met het hulpprogramma Diff kunt u de antwoorden tussen evaluaties vergelijken.

Wanneer u deze evaluatie implementeert in Azure, wordt het Azure OpenAI-eindpunt gemaakt voor het GPT-4 model met een eigen capaciteit. Bij het evalueren van chattoepassingen is het belangrijk dat de evaluator een eigen OpenAI-resource heeft die met zijn eigen capaciteit wordt gebruikt GPT-4 .

Vereisten

  • Azure-abonnement. Maak er gratis een

  • Een chat-app implementeren.

  • Deze chat-apps laden de gegevens in de Azure AI Search-resource. Deze resource is vereist om de evaluatie-app te laten werken. Voltooi de sectie Resources opschonen van de vorige procedure niet.

    U hebt de volgende Azure-resourcegegevens van die implementatie nodig. Deze wordt in dit artikel de chat-app genoemd:

    • Chat-API-URI: het eindpunt van de service-back-end dat aan het einde van het azd up proces wordt weergegeven.
    • Azure AI Search. De volgende waarden zijn vereist:
      • Resourcenaam: de naam van de Azure AI Search-resource, die tijdens het Search service proces wordt azd up gerapporteerd.
      • Indexnaam: de naam van de Azure AI Search-index waarin uw documenten worden opgeslagen. U vindt dit in Azure Portal voor de Search-service.

    Met de URL van de Chat-API kunnen de evaluaties aanvragen doen via uw back-endtoepassing. Met de Azure AI Search-informatie kunnen de evaluatiescripts dezelfde implementatie gebruiken als uw back-end, geladen met de documenten.

    Zodra u deze gegevens hebt verzameld, hoeft u de ontwikkelomgeving van de chat-app niet meer te gebruiken. Verderop in dit artikel wordt er meerdere keren naar verwezen om aan te geven hoe de chat-app wordt gebruikt door de app Evaluaties. Verwijder de resources van de chat-app pas nadat u de volledige procedure in dit artikel hebt voltooid.

  • Er is een ontwikkelcontaineromgeving beschikbaar met alle afhankelijkheden die nodig zijn om dit artikel te voltooien. U kunt de ontwikkelcontainer uitvoeren in GitHub Codespaces (in een browser) of lokaal met behulp van Visual Studio Code.

    • GitHub-account

Open ontwikkelomgeving

Begin nu met een ontwikkelomgeving waarop alle afhankelijkheden zijn geïnstalleerd om dit artikel te voltooien. U moet uw monitorwerkruimte rangschikken, zodat u deze documentatie en de ontwikkelomgeving tegelijkertijd kunt zien.

Dit artikel is getest met de switzerlandnorth regio voor de evaluatie-implementatie.

GitHub Codespaces voert een ontwikkelcontainer uit die wordt beheerd door GitHub met Visual Studio Code voor het web als de gebruikersinterface. Voor de eenvoudigste ontwikkelomgeving gebruikt u GitHub Codespaces zodat u de juiste ontwikkelhulpprogramma's en afhankelijkheden vooraf hebt geïnstalleerd om dit artikel te voltooien.

Belangrijk

Alle GitHub-accounts kunnen Codespaces elke maand maximaal 60 uur gratis gebruiken met 2 kernexemplaren. Zie GitHub Codespaces maandelijks inbegrepen opslag- en kernuren voor meer informatie.

  1. Start het proces om een nieuwe GitHub Codespace te maken op de main vertakking van de Azure-Samples/ai-rag-chat-evaluator GitHub-opslagplaats.

  2. Als u de ontwikkelomgeving en de documentatie tegelijk wilt weergeven, klikt u met de rechtermuisknop op de volgende knop en selecteert u De koppeling Openen in een nieuw venster.

    Openen in GitHub Codespaces

  3. Controleer op de pagina Codespace maken de configuratie-instellingen van de codespace en selecteer vervolgens Nieuwe coderuimte maken

    Schermopname van het bevestigingsscherm voordat u een nieuwe coderuimte maakt.

  4. Wacht tot de coderuimte is gestart. Dit opstartproces kan enkele minuten duren.

  5. Meld u in de terminal onderaan het scherm aan bij Azure met de Azure Developer CLI.

    azd auth login --use-device-code
    
  6. Kopieer de code uit de terminal en plak deze in een browser. Volg de instructies voor verificatie met uw Azure-account.

  7. Richt de vereiste Azure-resource, Azure OpenAI, in voor de evaluatie-app.

    azd up
    

    Hiermee AZD command wordt de evaluatie-app niet geïmplementeerd, maar wordt de Azure OpenAI-resource gemaakt met een vereiste GPT-4 implementatie om de evaluaties uit te voeren in de lokale ontwikkelomgeving.

  8. De resterende taken in dit artikel vinden plaats in de context van deze ontwikkelingscontainer.

  9. De naam van de GitHub-opslagplaats wordt weergegeven in de zoekbalk. Met deze visuele indicator kunt u de evaluaties-app onderscheiden van de chat-app. Deze ai-rag-chat-evaluator opslagplaats wordt in dit artikel de app Evaluaties genoemd.

Omgevingswaarden en configuratiegegevens voorbereiden

Werk de omgevingswaarden en configuratiegegevens bij met de informatie die u hebt verzameld tijdens de vereisten voor de evaluatie-app.

  1. .env Een bestand maken op .env.samplebasis van:

    cp .env.sample .env
    
  2. Voer deze opdrachten uit om de vereiste waarden voor AZURE_OPENAI_EVAL_DEPLOYMENT en AZURE_OPENAI_SERVICE uit de geïmplementeerde resourcegroep op te halen en deze waarden in het .env bestand te plakken:

    azd env get-value AZURE_OPENAI_EVAL_DEPLOYMENT
    azd env get-value AZURE_OPENAI_SERVICE
    
  3. Voeg de volgende waarden uit de chat-app voor het Azure AI Search-exemplaar toe aan de .envsectie met vereisten die u hebt verzameld:

    AZURE_SEARCH_SERVICE="<service-name>"
    AZURE_SEARCH_INDEX="<index-name>"
    

Het Microsoft AI Chat Protocol gebruiken voor configuratiegegevens

De chat-app en de evaluatie-app implementeren zowel het Microsoft AI Chat Protocol specification, een opensource-, cloud- en taalneutraal AI-eindpunt-API-contract dat wordt gebruikt voor gebruik en evaluatie. Wanneer de eindpunten van de client- en middelste laag voldoen aan deze API-specificatie, kunt u consistent evaluaties gebruiken en uitvoeren op uw AI-back-ends.

  1. Maak een nieuw bestand met de naam my_config.json en kopieer de volgende inhoud naar het bestand:

    {
        "testdata_path": "my_input/qa.jsonl",
        "results_dir": "my_results/experiment<TIMESTAMP>",
        "target_url": "http://localhost:50505/chat",
        "target_parameters": {
            "overrides": {
                "top": 3,
                "temperature": 0.3,
                "retrieval_mode": "hybrid",
                "semantic_ranker": false,
                "prompt_template": "<READFILE>my_input/prompt_refined.txt",
                "seed": 1
            }
        }
    }
    

    Met het evaluatiescript wordt de my_results map gemaakt.

    Het overrides object bevat configuratie-instellingen die nodig zijn voor de toepassing. Elke toepassing definieert een eigen set instellingeneigenschappen.

  2. Gebruik de volgende tabel om inzicht te krijgen in de betekenis van de instellingeneigenschappen die naar de chat-app worden verzonden:

    Eigenschap Instellingen Beschrijving
    semantic_ranker Of u nu semantische rangschikking wilt gebruiken, een model dat zoekresultaten opnieuw rangschikt op basis van semantische overeenkomsten met de query van de gebruiker. We schakelen deze uit voor deze zelfstudie om de kosten te verlagen.
    retrieval_mode De ophaalmodus die moet worden gebruikt. De standaardwaarde is hybrid.
    temperatuur De temperatuurinstelling voor het model. De standaardwaarde is 0.3.
    top Het aantal zoekresultaten dat moet worden geretourneerd. De standaardwaarde is 3.
    prompt_template Een onderdrukking van de prompt die wordt gebruikt om het antwoord te genereren op basis van de vraag en zoekresultaten.
    seed De seed-waarde voor alle aanroepen naar GPT-modellen. Het instellen van een seed resulteert in consistentere resultaten in evaluaties.
  3. Wijzig de target_url URI-waarde van uw chat-app, die u hebt verzameld in de sectie Vereisten . De chat-app moet voldoen aan het chatprotocol. De URI heeft de volgende indeling https://CHAT-APP-URL/chat. Zorg ervoor dat het protocol en de chat route deel uitmaken van de URI.

Voorbeeldgegevens genereren

Om nieuwe antwoorden te evalueren, moeten ze worden vergeleken met een "grond waarheid" antwoord, wat het ideale antwoord is voor een bepaalde vraag. Genereer vragen en antwoorden van documenten die zijn opgeslagen in Azure AI Search voor de chat-app.

  1. Kopieer de example_input map naar een nieuwe map met de naammy_input.

  2. Voer in een terminal de volgende opdracht uit om de voorbeeldgegevens te genereren:

    python -m evaltools generate --output=my_input/qa.jsonl --persource=2 --numquestions=14
    

De vraag-/antwoordparen worden gegenereerd en opgeslagen in my_input/qa.jsonl (JSONL-indeling) als invoer voor de evaluator die in de volgende stap wordt gebruikt. Voor een productie-evaluatie genereert u meer QA-paren, meer dan 200 voor deze gegevensset.

Notitie

Het aantal vragen en antwoorden per bron is bedoeld om u in staat te stellen deze procedure snel te voltooien. Het is niet bedoeld om een productie-evaluatie te zijn die meer vragen en antwoorden per bron moet hebben.

Voer de eerste evaluatie uit met een verfijnde prompt

  1. Bewerk de eigenschappen van het my_config.json configuratiebestand:

    Eigenschappen Nieuwe waarde
    results_dir my_results/experiment_refined
    prompt_template <READFILE>my_input/prompt_refined.txt

    De verfijnde prompt is specifiek over het onderwerpdomein.

    If there isn't enough information below, say you don't know. Do not generate answers that don't use the sources below. If asking a clarifying question to the user would help, ask the question.
    
    Use clear and concise language and write in a confident yet friendly tone. In your answers ensure the employee understands how your response connects to the information in the sources and include all citations necessary to help the employee validate the answer provided.
    
    For tabular information return it as an html table. Do not return markdown format. If the question is not in English, answer in the language used in the question.
    
    Each source has a name followed by colon and the actual information, always include the source name for each fact you use in the response. Use square brackets to reference the source, e.g. [info1.txt]. Don't combine sources, list each source separately, e.g. [info1.txt][info2.pdf].
    
  2. Voer in een terminal de volgende opdracht uit om de evaluatie uit te voeren:

    python -m evaltools evaluate --config=my_config.json --numquestions=14
    

    Met dit script is een nieuwe experimentmap gemaakt in my_results/ combinatie met de evaluatie. De map bevat de resultaten van de evaluatie, waaronder:

    Bestandsnaam Beschrijving
    config.json Een kopie van het configuratiebestand dat wordt gebruikt voor de evaluatie.
    evaluate_parameters.json De parameters die worden gebruikt voor de evaluatie. Zeer vergelijkbaar met config.json , maar bevat aanvullende metagegevens, zoals tijdstempel.
    eval_results.jsonl Elke vraag en elk antwoord, samen met de gpt-metrische gegevens voor elk QA-paar.
    summary.json De algemene resultaten, zoals de gemiddelde GPT-metrische gegevens.

Tweede evaluatie uitvoeren met een zwakke prompt

  1. Bewerk de eigenschappen van het my_config.json configuratiebestand:

    Eigenschappen Nieuwe waarde
    results_dir my_results/experiment_weak
    prompt_template <READFILE>my_input/prompt_weak.txt

    Deze zwakke prompt heeft geen context over het onderwerpdomein:

    You are a helpful assistant.
    
  2. Voer in een terminal de volgende opdracht uit om de evaluatie uit te voeren:

    python -m evaltools evaluate --config=my_config.json --numquestions=14
    

Derde evaluatie uitvoeren met een specifieke temperatuur

Gebruik een prompt die meer creativiteit mogelijk maakt.

  1. Bewerk de eigenschappen van het my_config.json configuratiebestand:

    Bestaand Eigenschappen Nieuwe waarde
    Bestaand results_dir my_results/experiment_ignoresources_temp09
    Bestaand prompt_template <READFILE>my_input/prompt_ignoresources.txt
    Nieuw temperatuur 0.9

    De standaardwaarde temperature is 0,7. Hoe hoger de temperatuur, hoe creatiever de antwoorden.

    De ignore prompt is kort:

    Your job is to answer questions to the best of your ability. You will be given sources but you should IGNORE them. Be creative!
    
  2. Het configuratieobject moet er als volgt uitzien, behalve vervangen door results_dir uw pad:

    {
        "testdata_path": "my_input/qa.jsonl",
        "results_dir": "my_results/prompt_ignoresources_temp09",
        "target_url": "https://YOUR-CHAT-APP/chat",
        "target_parameters": {
            "overrides": {
                "temperature": 0.9,
                "semantic_ranker": false,
                "prompt_template": "<READFILE>my_input/prompt_ignoresources.txt"
            }
        }
    }
    
  3. Voer in een terminal de volgende opdracht uit om de evaluatie uit te voeren:

    python -m evaltools evaluate --config=my_config.json --numquestions=14
    

De evaluatieresultaten beoordelen

U hebt drie evaluaties uitgevoerd op basis van verschillende prompts en app-instellingen. De resultaten worden opgeslagen in de my_results map. Bekijk hoe de resultaten verschillen op basis van de instellingen.

  1. Gebruik het beoordelingsprogramma om de resultaten van de evaluaties te bekijken:

    python -m evaltools summary my_results
    
  2. De resultaten zien er ongeveer als volgt uit:

    Schermopname van het beoordelingsprogramma voor evaluaties met de drie evaluaties.

    Elke waarde wordt geretourneerd als een getal en een percentage.

  3. Gebruik de volgende tabel om inzicht te krijgen in de betekenis van de waarden.

    Weergegeven als Beschrijving
    Grondgebondenheid Dit verwijst naar hoe goed de reacties van het model zijn gebaseerd op feitelijke, verifieerbare informatie. Een antwoord wordt beschouwd als geaard als het feitelijk nauwkeurig is en de realiteit weerspiegelt.
    Relevantie Dit meet hoe dicht de reacties van het model overeenkomen met de context of de prompt. Een relevant antwoord heeft rechtstreeks betrekking op de query of instructie van de gebruiker.
    Samenhang Dit verwijst naar hoe logisch consistent de reacties van het model zijn. Een coherent antwoord onderhoudt een logische stroom en spreekt zichzelf niet tegen.
    Gegevensvermelding Dit geeft aan of het antwoord is geretourneerd in de indeling die is aangevraagd in de prompt.
    Lengte Hiermee wordt de lengte van het antwoord berekend.
  4. De resultaten moeten aangeven dat alle drie de evaluaties een hoge relevantie hadden, terwijl de experiment_ignoresources_temp09 laagste relevantie had.

  5. Selecteer de map om de configuratie voor de evaluatie te bekijken.

  6. Voer Ctrl + C in om de app af te sluiten en terug te keren naar de terminal.

De antwoorden vergelijken

Vergelijk de geretourneerde antwoorden uit de evaluaties.

  1. Selecteer twee van de evaluaties die u wilt vergelijken en gebruik vervolgens hetzelfde beoordelingsprogramma om de antwoorden te vergelijken:

    python -m evaltools diff my_results/experiment_refined my_results/experiment_ignoresources_temp09
    
  2. Controleer de resultaten. Uw resultaten kunnen variëren.

    Schermopname van de vergelijking van evaluatieantwoorden tussen evaluaties.

  3. Voer Ctrl + C in om de app af te sluiten en terug te keren naar de terminal.

Suggesties voor verdere evaluaties

  • Bewerk de aanwijzingen om my_input de antwoorden zoals onderwerpdomein, lengte en andere factoren aan te passen.
  • Bewerk het my_config.json bestand om de parameters te wijzigen, zoals temperatureen semantic_ranker voer experimenten opnieuw uit.
  • Vergelijk verschillende antwoorden om te begrijpen hoe de prompt en vraag van invloed zijn op de antwoordkwaliteit.
  • Genereer een afzonderlijke set vragen en antwoorden op basis van waarheid voor elk document in de Azure AI Search-index . Voer vervolgens de evaluaties opnieuw uit om te zien hoe de antwoorden verschillen.
  • Wijzig de aanwijzingen om kortere of langere antwoorden aan te geven door de vereiste toe te voegen aan het einde van de prompt. Bijvoorbeeld: Please answer in about 3 sentences..

Resources en afhankelijkheden opschonen

Azure-resources opschonen

De Azure-resources die in dit artikel zijn gemaakt, worden gefactureerd voor uw Azure-abonnement. Als u deze resources in de toekomst niet meer nodig hebt, verwijdert u deze om te voorkomen dat er meer kosten in rekening worden gebracht.

Als u de Azure-resources wilt verwijderen en de broncode wilt verwijderen, voert u de volgende Azure Developer CLI-opdracht uit:

azd down --purge

GitHub Codespaces opschonen

Als u de GitHub Codespaces-omgeving verwijdert, zorgt u ervoor dat u de hoeveelheid gratis rechten per kernuren kunt maximaliseren die u voor uw account krijgt.

Belangrijk

Zie GitHub Codespaces maandelijks inbegrepen opslag- en kernuren voor meer informatie over de rechten van uw GitHub-account.

  1. Meld u aan bij het GitHub Codespaces-dashboard (https://github.com/codespaces).

  2. Zoek uw momenteel uitgevoerde Codespaces die afkomstig zijn uit de Azure-Samples/ai-rag-chat-evaluator GitHub-opslagplaats.

    Schermopname van alle actieve Codespaces, inclusief hun status en sjablonen.

  3. Open het contextmenu voor de coderuimte en selecteer Vervolgens Verwijderen.

    Schermopname van het contextmenu voor één coderuimte met de optie Verwijderen gemarkeerd.

Ga terug naar het artikel van de chat-app om deze resources op te schonen.

Volgende stappen