Delen via


Wanneer u Azure OpenAI-afstemming gebruikt

Wanneer u besluit of het afstemmen de juiste oplossing is om te verkennen voor een bepaalde use-case, zijn er enkele belangrijke termen die handig zijn om vertrouwd te zijn met:

  • Prompt Engineering is een techniek waarbij prompts voor verwerking van natuurlijke taal worden ontworpen. Dit proces verbetert de nauwkeurigheid en relevantie in reacties, waardoor de prestaties van het model worden geoptimaliseerd.
  • Het ophalen van Augmented Generation (RAG) verbetert de prestaties van Large Language Model (LLM) door gegevens op te halen uit externe bronnen en deze op te nemen in een prompt. RAG stelt bedrijven in staat om aangepaste oplossingen te bereiken terwijl de relevantie van gegevens behouden blijft en de kosten worden geoptimaliseerd.
  • Door een bestaand Large Language Model opnieuw af te stemmen met voorbeeldgegevens, resulteert dit in een nieuw 'aangepast' Large Language-model dat is geoptimaliseerd met behulp van de opgegeven voorbeelden.

Wat is Fine Tuning met Azure OpenAI?

Als we het hebben over fine tuning, bedoelen we echt dat er geen continue pre-training of Reinforcement Learning via Human Feedback (RLHF) onder supervisie is. Bij het afstemmen onder supervisie wordt verwezen naar het proces van het opnieuw trainen van vooraf getrainde modellen op specifieke gegevenssets, meestal om de modelprestaties voor specifieke taken te verbeteren of informatie te introduceren die niet goed werd weergegeven toen het basismodel oorspronkelijk werd getraind.

Fine-tuning is een geavanceerde techniek die expertise vereist om op de juiste wijze te kunnen gebruiken. De onderstaande vragen helpen u te evalueren of u klaar bent voor afstemming en hoe goed u het proces hebt doorlopen. U kunt deze gebruiken om uw volgende stappen te begeleiden of andere benaderingen te identificeren die mogelijk geschikter zijn.

Waarom wilt u een model verfijnen?

  • U moet een specifieke use case duidelijk kunnen formuleren voor het verfijnen en identificeren van het model dat u wilt verfijnen.
  • Goede gebruiksvoorbeelden voor het verfijnen zijn het sturen van het model naar uitvoerinhoud in een specifieke en aangepaste stijl, toon of indeling, of scenario's waarin de informatie die nodig is om het model te sturen te lang of complex is om in het promptvenster te passen.

Veelvoorkomende tekenen die u mogelijk nog niet kunt afstemmen:

  • Geen duidelijke use case voor het verfijnen of een onvermogen om veel meer te formuleren dan 'Ik wil een model beter maken'.
  • Als u kosten identificeert als uw primaire motiverende functie, wees dan voorzichtig. Het afstemmen kan de kosten voor bepaalde gebruiksvoorbeelden verlagen door prompts te verkorten of u een kleiner model te laten gebruiken, maar er zijn hogere kosten vooraf voor de training en u moet betalen voor het hosten van uw eigen aangepaste model. Raadpleeg de pagina met prijzen voor meer informatie over azure OpenAI-kosten voor het afstemmen van de kosten.
  • Als u kennis van het domein aan het model wilt toevoegen, moet u beginnen met het ophalen van augmented generation (RAG) met functies zoals Azure OpenAI's op uw gegevens of insluitingen. Vaak is dit een goedkopere, beter aanpasbare en potentieel effectievere optie, afhankelijk van de use-case en gegevens.

Wat heb je tot nu toe geprobeerd?

Fine-tuning is een geavanceerde mogelijkheid, niet het startpunt voor uw generatieve AI-reis. U moet al bekend zijn met de basisprincipes van het gebruik van GROTE taalmodellen (LLM's). U moet beginnen met het evalueren van de prestaties van een basismodel met prompt engineering en/of ophalen van Augmented Generation (RAG) om een basislijn voor prestaties te verkrijgen.

Het hebben van een basislijn voor prestaties zonder af te stemmen is essentieel om te weten of de prestaties van het model al dan niet zijn verbeterd. Door het afstemmen van slechte gegevens wordt het basismodel erger, maar zonder basislijn is het moeilijk om regressies te detecteren.

Als u klaar bent om u af te stemmen:

  • Moet bewijs en kennis van prompt engineering- en RAG-benaderingen kunnen demonstreren.
  • U kunt specifieke ervaringen en uitdagingen delen met andere technieken dan afstemming die al zijn geprobeerd voor uw use-case.
  • Er moeten, indien mogelijk, kwantitatieve evaluaties van de basislijnprestaties worden uitgevoerd.

Veelvoorkomende tekenen die u mogelijk nog niet kunt afstemmen:

  • Beginnen met fine-tuning zonder andere technieken te hebben getest.
  • Onvoldoende kennis of inzicht in hoe afstemming specifiek van toepassing is op GROTE taalmodellen (LLM's).
  • Er zijn geen benchmarkmetingen om af te stemmen op.

Wat werkt er niet met alternatieve benaderingen?

Inzicht in waar prompt-engineering kort is, moet richtlijnen bieden voor het afstemmen van uw werk. Mislukt het basismodel in edge-gevallen of uitzonderingen? Biedt het basismodel niet consistent uitvoer in de juiste indeling en kunt u niet voldoende voorbeelden in het contextvenster aanpassen om dit te herstellen?

Voorbeelden van fouten met het basismodel en prompt-engineering helpen u bij het identificeren van de gegevens die ze moeten verzamelen voor het afstemmen en hoe u uw nauwkeurig afgestemde model moet evalueren.

Hier volgt een voorbeeld: een klant wilde GPT-3.5-Turbo gebruiken om vragen in natuurlijke taal om te zetten in query's in een specifieke, niet-standaardquerytaal. Ze bieden richtlijnen in de prompt ('Altijd GQL retourneren') en gebruikt RAG om het databaseschema op te halen. De syntaxis was echter niet altijd correct en is vaak mislukt voor edge-gevallen. Ze verzamelden duizenden voorbeelden van vragen in natuurlijke taal en de equivalente query's voor hun database, waaronder gevallen waarin het model eerder was mislukt, en gebruikten die gegevens om het model af te stemmen. Door hun nieuwe verfijnde model te combineren met hun ontworpen prompt en ophalen, is de nauwkeurigheid van de modeluitvoer tot aanvaardbare normen voor gebruik gekomen.

Als u klaar bent om u af te stemmen:

  • Bekijk duidelijke voorbeelden van hoe u de uitdagingen in alternatieve benaderingen hebt benaderd en wat er zo goed mogelijk is getest om de prestaties te verbeteren.
  • Er zijn tekortkomingen geïdentificeerd met behulp van een basismodel, zoals inconsistente prestaties in edge-gevallen, waardoor er onvoldoende shotprompts in het contextvenster kunnen worden gebruikt om het model, hoge latentie, enzovoort te sturen.

Veelvoorkomende tekenen die u mogelijk niet kunt afstemmen, zijn onder andere:

  • Onvoldoende kennis van het model of de gegevensbron.
  • Het is niet mogelijk om de juiste gegevens te vinden voor het model.

Welke gegevens gaat u gebruiken voor het afstemmen?

Zelfs met een geweldige use-case is fine-tuning slechts zo goed als de kwaliteit van de gegevens die u kunt leveren. U moet bereid zijn om de tijd en moeite te investeren om goed af te stemmen. Voor verschillende modellen zijn verschillende gegevensvolumes vereist, maar u moet vaak redelijk grote hoeveelheden gecureerde gegevens van hoge kwaliteit kunnen leveren.

Een ander belangrijk punt is zelfs met gegevens van hoge kwaliteit als uw gegevens niet de benodigde indeling hebben voor het afstemmen, moet u technische resources doorvoeren om de gegevens op de juiste manier op te maken.

Gegevens Babbage-002
Davinci-002
GPT-3.5-Turbo
GPT-4o & GPT-4o mini
GPT-4
Volume Duizenden voorbeelden Duizenden voorbeelden
Notatie Prompt/voltooiing Gesprekschat

Als u klaar bent om u af te stemmen:

  • Er is een gegevensset geïdentificeerd voor het afstemmen.
  • De gegevensset is op de juiste manier opgemaakt voor training.
  • De gegevensset gecureerd om de kwaliteit te garanderen.

Veelvoorkomende tekenen die u mogelijk nog niet kunt afstemmen:

  • De gegevensset is nog niet geïdentificeerd.
  • De indeling van de gegevensset komt niet overeen met het model dat u wilt verfijnen.

Hoe meet u de kwaliteit van uw verfijnde model?

Er is niet één goed antwoord op deze vraag, maar u moet duidelijk gedefinieerde doelen hebben voor hoe succes met fine-tuning eruitziet. In het ideale geval moet dit niet alleen kwalitatief zijn, maar ook kwantitatieve maatstaven voor succes bevatten, zoals het gebruik van een bewaringsset gegevens voor validatie, evenals het testen van gebruikersacceptatie of het A/B-testen van het nauwkeurig afgestemde model op basismodel.

Volgende stappen