Delen via


Een aangepast model voor tekstclassificatie trainen

Training is het proces waarbij het model leert van uw gelabelde gegevens. Nadat de training is voltooid, kunt u de prestaties van het model bekijken om te bepalen of u uw model moet verbeteren.

Als u een model wilt trainen, start u een trainingstaak. Alleen voltooide taken maken een bruikbaar model. Trainingstaken verlopen na zeven dagen. Na deze periode kunt u de taakgegevens niet meer ophalen. Als uw trainingstaak is voltooid en er een model is gemaakt, wordt dit niet beïnvloed door het verlopen van de taak. U kunt slechts één trainingstaak tegelijk uitvoeren en u kunt geen andere taken in hetzelfde project starten.

De trainingstijden kunnen een willekeurige plaats hebben van een paar minuten bij het verwerken van enkele documenten, tot enkele uren, afhankelijk van de grootte van de gegevensset en de complexiteit van uw schema.

Vereisten

Voordat u uw model traint, hebt u het volgende nodig:

Zie de levenscyclus van projectontwikkeling voor meer informatie.

Gegevens splitsen

Voordat u het trainingsproces start, worden gelabelde documenten in uw project onderverdeeld in een trainingsset en een testset. Elk van deze dient een andere functie. De trainingsset wordt gebruikt bij het trainen van het model. Dit is de set waaruit het model de klassen/klassen leert die aan elk document zijn toegewezen. De testset is een blinde set die niet is geïntroduceerd in het model tijdens de training, maar alleen tijdens de evaluatie. Nadat het model is getraind, wordt het gebruikt om voorspellingen te doen van de documenten in de testset. Op basis van deze voorspellingen worden de metrische evaluatiegegevens van het model berekend. Het wordt aanbevolen om ervoor te zorgen dat al uw klassen adequaat worden vertegenwoordigd in zowel de trainings- als testset.

Aangepaste tekstclassificatie ondersteunt twee methoden voor het splitsen van gegevens:

  • Automatisch de testset splitsen op basis van trainingsgegevens: het systeem splitst uw gelabelde gegevens tussen de trainings- en testsets, afhankelijk van de percentages die u kiest. Het systeem probeert alle klassen in uw trainingsset weer te geven. De aanbevolen percentagesplitsing is 80% voor training en 20% voor testen.

Notitie

Als u de testset automatisch splitst op basis van de optie trainingsgegevens , worden alleen de gegevens die aan de trainingsset zijn toegewezen, gesplitst volgens de opgegeven percentages.

  • Gebruik een handmatige splitsing van trainings- en testgegevens: met deze methode kunnen gebruikers definiëren welke gelabelde documenten bij welke set moeten horen. Deze stap is alleen ingeschakeld als u documenten hebt toegevoegd aan uw testset tijdens het labelen van gegevens.

Model trainen

Ga als volgende te werk om uw model te trainen vanuit Language Studio:

  1. Selecteer Trainingstaken in het menu aan de linkerkant.

  2. Selecteer Een trainingstaak starten in het bovenste menu.

  3. Selecteer Een nieuw model trainen en typ de naam van het model in het tekstvak. U kunt ook een bestaand model overschrijven door deze optie te selecteren en het model te kiezen dat u wilt overschrijven in de vervolgkeuzelijst. Het overschrijven van een getraind model kan niet ongedaan worden gemaakt, maar dit heeft geen invloed op uw geïmplementeerde modellen totdat u het nieuwe model implementeert.

    Een nieuwe trainingstaak maken

  4. Selecteer de methode voor het splitsen van gegevens. U kunt ervoor kiezen om de testset automatisch te splitsen op basis van trainingsgegevens , waarbij het systeem uw gelabelde gegevens splitst tussen de trainings- en testsets, volgens de opgegeven percentages. U kunt ook een handmatige splitsing van trainings- en testgegevens gebruiken. Deze optie is alleen ingeschakeld als u documenten hebt toegevoegd aan uw testset tijdens het labelen van gegevens. Zie Hoe u een model traint voor meer informatie over het splitsen van gegevens.

  5. Selecteer de knop Trainen .

  6. Als u de id van de trainingstaak in de lijst selecteert, wordt er een zijvenster weergegeven waarin u de voortgang van de training, de taakstatus en andere details voor deze taak kunt controleren.

    Notitie

    • Alleen voltooide trainingstaken genereren modellen.
    • De tijd voor het trainen van het model kan een paar minuten tot enkele uren duren op basis van de grootte van uw gelabelde gegevens.
    • U kunt slechts één trainingstaak tegelijk uitvoeren. U kunt pas met een andere trainingstaak binnen hetzelfde project beginnen als de actieve taak is voltooid.

Trainingstaak annuleren

Als u een trainingstaak in Language Studio wilt annuleren, gaat u naar de pagina Trainingstaken . Selecteer de trainingstaak die u wilt annuleren en selecteer Annuleren in het bovenste menu.

Volgende stappen

Nadat de training is voltooid, kunt u de prestaties van het model bekijken om eventueel uw model te verbeteren. Zodra u tevreden bent met uw model, kunt u het implementeren, zodat het beschikbaar is voor gebruik voor het classificeren van tekst.