Étiqueter vos données

Effectué

L’étiquetage correct de vos données est une partie importante du processus de création d’un modèle d’extraction d’entités personnalisées. Les étiquettes identifient des exemples d’entités spécifiques dans le texte utilisé pour entraîner le modèle. Voici trois choses importantes à prendre en compte :

  • Cohérence : étiquetez vos données de la même façon sur tous les fichiers destinés à l’entraînement. La cohérence permet à votre modèle d’apprendre sans rencontrer d’entrées en conflit.
  • Précision : étiquetez vos entités de façon cohérente, sans utiliser de mots supplémentaires non nécessaires. La précision garantit que seules les données correctes sont incluses dans votre entité extraite.
  • Exhaustivité : étiquetez complètement vos données et n’oubliez aucune entité. L’exhaustivité permet à votre modèle de toujours reconnaître les entités présentes.

Screenshot of labeling an entity in Language Studio.

Guide pratique pour étiqueter vos données

Language Studio est la méthode la plus simple pour étiqueter vos données. Language Studio vous permet de visualiser le fichier, de sélectionner le début et la fin de votre entité, et de spécifier de quelle entité il s’agit.

Chaque étiquette que vous identifiez est enregistrée dans un fichier qui se trouve dans votre compte de stockage avec votre jeu de données, dans un fichier JSON généré automatiquement. Ce fichier est ensuite utilisé par le modèle pour apprendre à extraire des entités personnalisées. Il est possible de fournir ce fichier lors de la création de votre projet (par exemple si vous importez les mêmes étiquettes depuis un autre projet), mais il doit être aux formats de données personnalisés de NER acceptés. Par exemple :


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Champ Description
documents Tableau de documents étiquetés
location Chemin du fichier au sein du conteneur connecté au projet
language Langue du fichier
entities Tableau des entités présentes dans le document actif
regionOffset Position inclusive du caractère pour le début du texte
regionLength Longueur en caractères des données utilisées pour l’entraînement
category Nom de l’entité à extraire
labels Tableau d’entités étiquetées dans les fichiers
offset Position inclusive du caractère pour le début de l’entité
length Longueur en caractères de l’entité
dataset Jeu de données auquel le fichier est affecté