Autolabeling gebruiken voor aangepaste tekstclassificatie
Het labelproces is een belangrijk onderdeel van het voorbereiden van uw gegevensset. Omdat voor dit proces veel tijd en moeite nodig is, kunt u de functie voor automatisch labelen van uw documenten met de klassen waarnaar u ze wilt categoriseren. U kunt momenteel automatisch labelen van taken starten op basis van een model met GPT-modellen, waarbij u onmiddellijk een taak voor automatisch labelen kunt activeren zonder voorafgaande modeltraining. Met deze functie kunt u tijd en moeite besparen om uw documenten handmatig te labelen.
Vereisten
Voordat u autolabeling met GPT kunt gebruiken, hebt u het volgende nodig:
- Een project gemaakt met een geconfigureerd Azure Blob Storage-account.
- Tekstgegevens die zijn geüpload naar uw opslagaccount.
- Klassennamen die zinvol zijn. De GPT-modellen labelen documenten op basis van de namen van de klassen die u hebt opgegeven.
- Gelabelde gegevens zijn niet vereist.
- Een Azure OpenAI-resource en -implementatie.
Een taak voor automatisch labelen activeren
Wanneer u een taak voor automatisch labelen activeert met GPT, worden er kosten in rekening gebracht voor uw Azure OpenAI-resource op basis van uw verbruik. Er wordt een schatting in rekening gebracht van het aantal tokens in elk document dat automatisch wordt gelabeld. Raadpleeg de pagina met Prijzen van Azure OpenAI voor een gedetailleerde uitsplitsing van prijzen per token van verschillende modellen.
Selecteer gegevenslabeling in het linkernavigatiemenu.
Selecteer de knop Autolabel onder het deelvenster Activiteit rechts van de pagina.
Kies Autolabel met GPT en selecteer Volgende.
Kies uw Azure OpenAI-resource en -implementatie. U moet een Azure OpenAI-resource maken en een model implementeren om door te gaan.
Selecteer de klassen die u wilt opnemen in de taak voor automatisch labelen. Standaard zijn alle klassen geselecteerd. Het is raadzaam om beschrijvende namen voor klassen te hebben en voorbeelden voor elke klasse op te geven voor een goede kwaliteit labeling met GPT.
Kies de documenten die u automatisch wilt labelen. Het is raadzaam om de niet-gelabelde documenten in het filter te kiezen.
Notitie
- Als een document automatisch is gelabeld, maar dit label al door de gebruiker is gedefinieerd, wordt alleen het door de gebruiker gedefinieerde label gebruikt.
- U kunt de documenten bekijken door op de documentnaam te klikken.
Selecteer Taak starten om de taak voor automatisch labelen te activeren. U wordt omgeleid naar de pagina voor automatisch labelen met de geïnitieerde taken voor automatisch labelen. Het automatisch labelen van taken kan een paar seconden tot een paar minuten duren, afhankelijk van het aantal documenten dat u hebt opgenomen.
De automatisch gelabelde documenten controleren
Wanneer de taak voor automatisch labelen is voltooid, ziet u de uitvoerdocumenten op de pagina Gegevenslabeling van Language Studio. Selecteer Documenten controleren met autolabels om de documenten weer te geven waarop het filter Met automatisch label is toegepast.
Documenten die automatisch zijn geclassificeerd, hebben voorgestelde labels in het activiteitenvenster gemarkeerd in paars. Elk voorgesteld label heeft twee selectors (een vinkje en een pictogram annuleren) waarmee u het automatische label kunt accepteren of weigeren.
Zodra een label is geaccepteerd, verandert de paarse kleur in de standaardblauwe kleur en wordt het label opgenomen in elke verdere modeltraining die een door de gebruiker gedefinieerd label wordt.
Nadat u de labels voor de automatisch gelabelde documenten hebt geaccepteerd of geweigerd, selecteert u Labels opslaan om de wijzigingen toe te passen.
Notitie
- U wordt aangeraden automatisch gelabelde documenten te valideren voordat u ze accepteert.
- Alle labels die niet zijn geaccepteerd, worden verwijderd wanneer u uw model traint.
Volgende stappen
- Meer informatie over het labelen van uw gegevens.