Conseils pour la création de jeux de données étiquetés
Ce contenu s’applique à la version : v4.0 (disponibilité générale) | Versions précédentes : v3.1 (disponibilité générale) v3.0 (disponibilité générale)
Ce contenu s’applique à la version : v3.1 (disponibilité générale) | Dernière version : v4.0 (disponibilité générale) | Versions précédentes : v3.0
Ce contenu s’applique à la version : v3.0 (disponibilité générale) | Dernières versions : v4.0 (disponibilité générale) v3.1
Cet article met en évidence les meilleures méthodes d’étiquetage des jeux de données de modèles personnalisés dans le Document Intelligence Studio. L’étiquetage de documents peut prendre du temps lorsque vous avez un grand nombre d’étiquettes, de documents longs ou de documents de structure variable. Ces conseils doivent vous aider à étiqueter les documents plus efficacement.
Vidéo : Meilleures pratiques relatives aux étiquettes personnalisées
La vidéo suivante est la deuxième des deux présentations destinées à vous aider à créer des modèles personnalisés avec une plus grande précision (la première présentation explique Comment créer un jeu de données équilibré).
Nous allons examiner les meilleures pratiques relatives à l’étiquetage des documents sélectionnés. Avec l’étiquetage sémantiquement pertinent et cohérent, vous devriez voir une amélioration des performances du modèle.
Recherche
Studio inclut désormais une zone de recherche pour les cas où vous savez que vous devez trouver des mots spécifiques à étiqueter, mais que vous ne savez pas où ils se trouvent dans le document. Recherchez simplement le mot ou l’expression et accédez à la section spécifique du document pour étiqueter l’occurrence.
Tables d’étiquettes automatiques
Les tableaux peuvent être difficiles à étiqueter lorsqu’ils ont de nombreuses lignes ou du texte dense. Si la table de disposition extrait le résultat dont vous avez besoin, vous devez simplement utiliser ce résultat et ignorer le processus d’étiquetage. Dans les cas où la table de disposition n’est pas exactement ce dont vous avez besoin, vous pouvez commencer par générer le champ de table à partir des valeurs extraites de la disposition. Commencez par sélectionner l’icône de tableau sur la page, puis sélectionnez le bouton d’étiquette automatique. Vous pouvez ensuite modifier les valeurs selon vos besoins. L’étiquette automatique ne prend actuellement en charge que les tables à page unique.
Maj select
Lors de l’étiquetage d’une grande étendue de texte, au lieu de marquer chaque mot dans l’étendue, maintenez la touche Maj enfoncée lorsque vous sélectionnez les mots pour accélérer l’étiquetage et vous assurer de ne manquer aucun mot dans l’étendue de texte.
Étiquetage de la région
Une deuxième option pour l’étiquetage de grandes étendues de texte consiste à utiliser l’étiquetage de région. Lorsque l’étiquetage de région est utilisé, les résultats de la reconnaissance optique de caractères (OCR
) sont renseignés dans la valeur au moment de la formation. La différence entre la sélection shift et l’étiquetage de région se trouve uniquement dans le retour visuel fourni par l’approche d’étiquetage shift.
Étiqueter les champs avec chevauchement
Les champs avec chevauchement sont pris en charge pour les champs et les cellules de tableau. Si vous vous attendez à ce que les résultats de votre analyse contiennent des champs avec chevauchement, vous devez ajouter au moins un échantillon au jeu de données de formation en veillant à étiqueter les chevauchements de champs spécifiques. Pour étiqueter un champ avec chevauchement, utilisez la fonctionnalité d’étiquetage de région pour sélectionner les régions pour chaque champ. Les chevauchements complets et partiels sont pris en charge. Tout mot unique du document ne peut être étiqueté que pour deux champs.
Sous-types de champs
Lors de la création d’un champ, sélectionnez le sous-type approprié pour réduire le post-traitement. Par exemple, sélectionnez l’option dmy
dates pour extraire les valeurs dans un formatdd-mm-yyyy
.
Étapes suivantes
En savoir plus sur l’étiquetage personnalisé :
En savoir plus sur les modèles de modèle personnalisé :