Baliser les documents
En catégorisant les documents que vous avez téléchargés, vous apprenez à votre modèle AI Builder à extraire les champs et les tables que vous avez spécifiés.
Pour commencer la catégorisation, sélectionnez l’une des collections dans le volet de droite.
Catégoriser des champs
Pour baliser un champ, il suffit de tracer un rectangle autour du champ qui vous intéresse et de sélectionner le nom du champ auquel il correspond.
Vous pouvez le redimensionner à tout moment pour ajuster votre sélection.
Si un champ se termine sur une ligne et commence sur une autre, vous pouvez le baliser à l’aide de l’option ’Continuer le marquage’.
Vous pouvez également utiliser la touche Contrôle sous Windows ou Commande ⌘ sous macOS pour baliser plusieurs mots à la fois. Vous pouvez également utiliser la touche Majuscule pour sélectionner le premier et le dernier mot pour étiqueter tous les mots entre les deux.
Lorsque vous survolez des mots dans vos documents, des cadres bleu clair peuvent apparaître. Ils indiquent que vous pouvez dessiner un rectangle autour de ces mots pour sélectionner un champ.
Pour le modèle de factures personnalisé uniquement
Vous pouvez remplacer le comportement d’un champ par défaut en redessinant un cadre englobant existant.
Les champs par défaut de la facture qui n’ont pas été automatiquement détectés dans votre document sont marqués comme « Pas dans le document ». Vous pouvez modifier ce paramètre en Disponible dans le document et le marquer manuellement s’il est présent.
Lors du balisage, sélectionnez Personnalisé pour afficher la liste des champs non balisés que vous avez ajoutés, et sélectionnez Par défaut pour afficher les champs par défaut non balisés marqués comme « Disponibles dans le document ».
Catégoriser des tables
Dessinez un rectangle autour de la table dans le document qui vous intéresse, puis sélectionnez le nom de table correspondant. Le contenu du volet à droite est modifié.
Dessinez des lignes en cliquant avec le bouton gauche entre les séparateurs de lignes.
Dessinez des colonnes en appuyant sur Ctrl + clic gauche.
Une fois les lignes et les colonnes définies, affectez les en-têtes à extraire en sélectionnant la colonne d’en-tête et en la mappant à celle souhaitée.
Un aperçu de la façon dont le tableau sera extrait apparaît dans le panneau de droite.
Si l’en-tête du tableau a été balisé, sélectionnez Ignorer la première ligne afin que l’en-tête du tableau ne soit pas extrait en tant que contenu du tableau.
L’animation suivante illustre ce processus :
Une autre façon de définir les lignes et les colonnes d’un tableau consiste à sélectionner Délimiter les lignes et les colonnes en haut de l’écran.
Utiliser le mode de balisage avancé
Le mode de balisage avancé vous permet de baliser les tableaux au niveau de la cellule. Utilisez ce mode pour les tableaux complexes tels que :
- Tableaux asymétriques, où le balisage avec une grille n’est pas possible.
- Lorsque vous devez extraire des éléments imbriqués, comme un élément dans une cellule.
Étant donné le tableau de l’exemple suivant, pour extraire le prix unitaire, nous le définirons comme une colonne distincte à l’étape Choisir les informations à extraire. Nous définissons Description, Prix unitaire, Quantité et Montant en tant que colonne individuelle du tableau et les balisons en conséquence en utilisant le mode de balisage avancé. Consultez l’animation ci-dessous.
Vous pouvez commencer à baliser dans le mode par défaut pour capturer rapidement toutes les lignes et colonnes. Passez ensuite en mode avancé pour ajuster chaque cellule et baliser les éléments imbriqués.
Éléments imbriqués dans les tableaux
Vous pouvez catégoriser des éléments imbriqués dans une ligne en les définissant comme des colonnes. Étant donné le tableau de l’exemple ci-dessous, pour extraire le prix unitaire, nous le définirons comme une colonne distincte à l’étape Choisir les informations à extraire auparavant dans cette rubrique. Définissez Description, Prix unitaire, Quantité et Montant en tant que colonne individuelle du tableau et les balisons en conséquence.
Tables à plusieurs pages
Si une table s’étend sur plusieurs pages, assurez-vous de le baliser sur toutes les pages. Une fois que vous avez terminé de baliser le tableau sur une page, sélectionnez Ce tableau continue à la page suivante et continuez à baliser le tableau sur la page suivante. Ce faisant, vous apprendrez au modèle que le tableau peut s’étendre sur plusieurs pages.
Une fois que vous avez tagué toutes les pages où le tableau est présent. Sélectionner Terminé pour marquer la table comme entièrement étiquetée.
Vous pouvez marquer des tableaux complexes qui ont des cellules fusionnées, des éléments imbriqués, des bordures ou aucune bordure, ou même des éléments inattendus comme une tache de café, comme illustré dans l’exemple suivant.
Pourboire
Comme bonne pratique, assurez-vous de charger des documents pour la formation avec les variations attendues. Par exemple, incluez des exemples où le tableau entier se trouve sur une seule page et où les tableaux s’étendent sur deux pages ou plus.
Baliser des cases à cocher
Pour baliser une case à cocher, il suffit de tracer un rectangle autour de la case à cocher que vous souhaitez extraire et de sélectionner le nom de la case à cocher à laquelle il correspond.
Si la qualité du document est faible, AI Builder peut ne pas être en mesure de détecter la case à cocher. Si vous ne pouvez pas baliser une case à cocher, procédez comme suit :
Dans le panneau de droite, sélectionnez les trois points à côté de la case à cocher que vous souhaitez extraire.
Sélectionnez Non disponible dans le document.
AI Builder prend en charge la détection et l’extraction des marques de sélection telles que les cases à cocher et les boutons radio, avec différents marqueurs pour indiquer si la sélection est marquée ou non.
Champ, case à cocher ou table absent(e) d’un document ou d’une collection
Si un champ, une case à cocher ou une table n’est pas présent dans l’un des documents ou la collection que vous avez téléchargés pour la formation, sélectionnez Non disponible dans le document ou Non disponible dans la collection sur le panneau de droite, à côté d’un champ, d’une case à cocher ou d’une table.
Catégoriser tous les documents dans toutes les collections
Tous les documents que vous avez chargés sont affichés afin que vous puissiez les baliser. Si vous avez créé plusieurs collections, étiquetez tous les documents dans toutes les collections.
Si les champs ne peuvent pas être balisés dans votre document, accédez à Les champs n’ont pas pu être chargés pour ce document pour d’éventuelles résolutions.
Étape suivante
Extraire des dates et des nombres
Informations associées
Formation : traiter les documents personnalisés avec AI Builder (module)