Uw aangepaste Text Analytics trainen voor statusmodel
Artikel
Training is het proces waarbij het model leert van uw gelabelde gegevens. Nadat de training is voltooid, kunt u de prestaties van het model bekijken om te bepalen of u uw model moet verbeteren.
Als u een model wilt trainen, start u een trainingstaak en maakt u alleen voltooide taken een model. Trainingstaken verlopen na zeven dagen, wat betekent dat u de taakdetails na deze tijd niet meer kunt ophalen. Als uw trainingstaak is voltooid en er een model is gemaakt, wordt het model niet beïnvloed. U kunt slechts één trainingstaak tegelijk uitvoeren en u kunt geen andere taken in hetzelfde project starten.
De trainingstijden kunnen een willekeurige plaats hebben van een paar minuten bij het verwerken van enkele documenten, tot enkele uren, afhankelijk van de grootte van de gegevensset en de complexiteit van uw schema.
Vereisten
Een project gemaakt met een geconfigureerd Azure Blob Storage-account
Tekstgegevens die zijn geüpload naar uw opslagaccount.
Voordat u het trainingsproces start, worden gelabelde documenten in uw project onderverdeeld in een trainingsset en een testset. Elk van deze dient een andere functie.
De trainingsset wordt gebruikt bij het trainen van het model. Dit is de set waaruit het model de gelabelde entiteiten leert en welke tekstspanne als entiteiten moeten worden geëxtraheerd.
De testset is een blinde set die niet is geïntroduceerd in het model tijdens de training, maar alleen tijdens de evaluatie.
Nadat de modeltraining is voltooid, wordt het model gebruikt om voorspellingen te doen van de documenten in het testen en op basis van deze metrische gegevens voor de evaluatie van voorspellingen berekend. Modeltraining en -evaluatie zijn alleen voor nieuw gedefinieerde entiteiten met geleerde onderdelen; Text Analytics voor statusentiteiten wordt daarom uitgesloten van modeltraining en -evaluatie omdat ze entiteiten met vooraf gedefinieerde onderdelen zijn. Het is raadzaam ervoor te zorgen dat al uw gelabelde entiteiten adequaat worden weergegeven in zowel de trainings- als testset.
Aangepaste Text Analytics voor status ondersteunt twee methoden voor het splitsen van gegevens:
Automatisch de testset splitsen op basis van trainingsgegevens: het systeem splitst uw gelabelde gegevens tussen de trainings- en testsets, afhankelijk van de percentages die u kiest. De aanbevolen percentagesplitsing is 80% voor training en 20% voor testen.
Notitie
Als u de testset automatisch splitst op basis van de optie trainingsgegevens , worden alleen de gegevens die aan de trainingsset zijn toegewezen, gesplitst volgens de opgegeven percentages.
Gebruik een handmatige splitsing van trainings- en testgegevens: met deze methode kunnen gebruikers definiëren welke gelabelde documenten bij welke set moeten horen. Deze stap is alleen ingeschakeld als u documenten hebt toegevoegd aan uw testset tijdens het labelen van gegevens.
Ga als volgende te werk om uw model te trainen vanuit Language Studio:
Selecteer Trainingstaken in het menu aan de linkerkant.
Selecteer Een trainingstaak starten in het bovenste menu.
Selecteer Een nieuw model trainen en typ de naam van het model in het tekstvak. U kunt ook een bestaand model overschrijven door deze optie te selecteren en het model te kiezen dat u wilt overschrijven in de vervolgkeuzelijst. Het overschrijven van een getraind model kan niet ongedaan worden gemaakt, maar dit heeft geen invloed op uw geïmplementeerde modellen totdat u het nieuwe model implementeert.
Selecteer de methode voor het splitsen van gegevens. U kunt ervoor kiezen om de testset automatisch te splitsen op basis van trainingsgegevens , waarbij het systeem uw gelabelde gegevens splitst tussen de trainings- en testsets, volgens de opgegeven percentages. U kunt ook een handmatige splitsing van trainings- en testgegevens gebruiken. Deze optie is alleen ingeschakeld als u documenten hebt toegevoegd aan uw testset. Zie gegevenslabels en hoe u een model traint voor informatie over het splitsen van gegevens.
Selecteer de knop Trainen .
Als u de id van de trainingstaak in de lijst selecteert, wordt er een zijvenster weergegeven waarin u de voortgang van de training, de taakstatus en andere details voor deze taak kunt controleren.
Notitie
Alleen voltooide trainingstaken genereren modellen.
Training kan enige tijd duren tussen een paar minuten en enkele uren op basis van de grootte van uw gelabelde gegevens.
U kunt slechts één trainingstaak tegelijk uitvoeren. U kunt pas met een andere trainingstaak binnen hetzelfde project beginnen als de actieve taak is voltooid.
Trainingstaak starten
Dien een POST-aanvraag in met behulp van de volgende URL, headers en JSON-hoofdtekst om een trainingstaak te verzenden. Vervang de tijdelijke aanduidingen door uw eigen waarden.
De naam van uw project. Deze waarde is hoofdlettergevoelig.
myProject
{API-VERSION}
De versie van de API die u aanroept. De waarde waarnaar hier wordt verwezen, is voor de nieuwste versie die is uitgebracht. Zie de levenscyclus van het model voor meer informatie over andere beschikbare API-versies.
2022-05-01
Kopteksten
Gebruik de volgende header om uw aanvraag te verifiëren.
Sleutel
Weergegeven als
Ocp-Apim-Subscription-Key
De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.
Aanvraagtekst
Gebruik de volgende JSON in de hoofdtekst van uw aanvraag. Het model krijgt het model zodra de {MODEL-NAME} training is voltooid. Alleen succesvolle trainingstaken produceren modellen.
De modelnaam die is toegewezen aan uw model nadat deze is getraind.
myModel
trainingConfigVersion
{CONFIG-VERSION}
Dit is de modelversie die wordt gebruikt om het model te trainen.
2022-05-01
evaluationOptions
Optie voor het splitsen van uw gegevens in trainings- en testsets.
{}
soort
percentage
Splitsmethoden. Mogelijke waarden zijn percentage en manual. Zie Hoe u een model traint voor meer informatie.
percentage
trainingSplitPercentage
80
Percentage van uw getagde gegevens die moeten worden opgenomen in de trainingsset. Aanbevolen waarde is 80.
80
testingSplitPercentage
20
Percentage van uw getagde gegevens die moeten worden opgenomen in de testset. Aanbevolen waarde is 20.
20
Notitie
De trainingSplitPercentage en testingSplitPercentage zijn alleen vereist als Kind deze is ingesteld percentage op en de som van beide percentages moet gelijk zijn aan 100.
Zodra u uw API-aanvraag hebt verzonden, ontvangt u een 202 antwoord dat aangeeft dat de taak correct is verzonden. Pak de location waarde uit in de antwoordheaders. De indeling is als volgt:
{JOB-ID} wordt gebruikt om uw aanvraag te identificeren, omdat deze bewerking asynchroon is. U kunt deze URL gebruiken om de trainingsstatus op te halen.
Trainingstaakstatus ophalen
Training kan enige tijd duren, afhankelijk van de grootte van uw trainingsgegevens en complexiteit van uw schema. U kunt de volgende aanvraag gebruiken om de status van de trainingstaak te peilen totdat deze is voltooid.
Gebruik de volgende GET-aanvraag om de status van de trainingsvoortgang van uw model op te halen. Vervang de waarden van de tijdelijke aanduiding hieronder door uw eigen waarden.
De naam van uw project. Deze waarde is hoofdlettergevoelig.
myProject
{JOB-ID}
De id voor het zoeken naar de trainingsstatus van uw model. Deze waarde bevindt zich in de location headerwaarde die u in de vorige stap hebt ontvangen.
xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx
{API-VERSION}
De versie van de API die u aanroept. De waarde waarnaar hier wordt verwezen, is voor de nieuwste versie die is uitgebracht. Zie de levenscyclus van het model voor meer informatie over andere beschikbare API-versies.
2022-05-01
Kopteksten
Gebruik de volgende header om uw aanvraag te verifiëren.
Sleutel
Weergegeven als
Ocp-Apim-Subscription-Key
De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.
Hoofdtekst van antwoord
Nadat u de aanvraag hebt verzonden, krijgt u het volgende antwoord.
Als u een trainingstaak vanuit Language Studio wilt annuleren, gaat u naar de pagina Trainingstaken . Selecteer de trainingstaak die u wilt annuleren en selecteer Annuleren in het bovenste menu.
Maak een POST-aanvraag met behulp van de volgende URL, headers en JSON-hoofdtekst om een trainingstaak te annuleren.
Aanvraag-URL
Gebruik de volgende URL bij het maken van uw API-aanvraag. Vervang de waarden van de tijdelijke aanduiding hieronder door uw eigen waarden.
De naam voor uw project. Deze waarde is hoofdlettergevoelig.
EmailApp
{JOB-ID}
Deze waarde is de id van de trainingstaak.
XXXXX-XXXXX-XXXX-XX
{API-VERSION}
De versie van de API die u aanroept. De waarde waarnaar wordt verwezen, is voor de meest recente uitgebrachte modelversie.
2022-05-01
Kopteksten
Gebruik de volgende header om uw aanvraag te verifiëren.
Sleutel
Weergegeven als
Ocp-Apim-Subscription-Key
De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.
Nadat u uw API-aanvraag hebt verzonden, ontvangt u een 202-antwoord met een Operation-Location header die wordt gebruikt om de status van de taak te controleren.
Volgende stappen
Nadat de training is voltooid, kunt u de prestaties van het model bekijken om desgewenst uw model te verbeteren, indien nodig. Zodra u tevreden bent met uw model, kunt u het implementeren, zodat het beschikbaar is voor gebruik voor het extraheren van entiteiten uit tekst.