Étiqueter vos données
L’étiquetage correct de vos données est une partie importante du processus de création d’un modèle d’extraction d’entités personnalisées. Les étiquettes identifient des exemples d’entités spécifiques dans le texte utilisé pour entraîner le modèle. Voici trois choses importantes à prendre en compte :
- Cohérence : étiquetez vos données de la même façon sur tous les fichiers destinés à l’entraînement. La cohérence permet à votre modèle d’apprendre sans rencontrer d’entrées en conflit.
- Précision : étiquetez vos entités de façon cohérente, sans utiliser de mots supplémentaires non nécessaires. La précision garantit que seules les données correctes sont incluses dans votre entité extraite.
- Exhaustivité : étiquetez complètement vos données et n’oubliez aucune entité. L’exhaustivité permet à votre modèle de toujours reconnaître les entités présentes.
Guide pratique pour étiqueter vos données
Language Studio est la méthode la plus simple pour étiqueter vos données. Language Studio vous permet de visualiser le fichier, de sélectionner le début et la fin de votre entité, et de spécifier de quelle entité il s’agit.
Chaque étiquette que vous identifiez est enregistrée dans un fichier qui se trouve dans votre compte de stockage avec votre jeu de données, dans un fichier JSON généré automatiquement. Ce fichier est ensuite utilisé par le modèle pour apprendre à extraire des entités personnalisées. Il est possible de fournir ce fichier lors de la création de votre projet (par exemple si vous importez les mêmes étiquettes depuis un autre projet), mais il doit être aux formats de données personnalisés de NER acceptés. Par exemple :
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Champ | Description |
---|---|
documents |
Tableau de documents étiquetés |
location |
Chemin du fichier au sein du conteneur connecté au projet |
language |
Langue du fichier |
entities |
Tableau des entités présentes dans le document actif |
regionOffset |
Position inclusive du caractère pour le début du texte |
regionLength |
Longueur en caractères des données utilisées pour l’entraînement |
category |
Nom de l’entité à extraire |
labels |
Tableau d’entités étiquetées dans les fichiers |
offset |
Position inclusive du caractère pour le début de l’entité |
length |
Longueur en caractères de l’entité |
dataset |
Jeu de données auquel le fichier est affecté |