Partager via


Modèle de facture Intelligence Documentaire

Ce contenu s’applique à : coche v4.0 (GA) | Versions précédentes : coche-bleue v3.1 (GA) coche-bleue v3.0 (GA) coche-bleue v2.1 (GA)

::: moniker-end

Ce contenu s’applique à : coche v3.1 (GA) | Dernière version : coche violette v4.0 (GA) | Versions précédentes : coche-bleue v3.0 coche-bleue v2.1

Ce contenu s’applique à : coche v3.0 (GA) | Dernières versions : coche violette v4.0 (GA) coche-violette v3.1 | Version précédente : coche-bleue v2.1

Ce contenu s’applique à : coche v2.1 | Dernière version : Coche bleue v4.0 (GA)

Le modèle de facture d’Intelligence documentaire utilise de puissantes capacités de reconnaissance optique de caractères (OCR) pour analyser et extraire les champs clés et les éléments de ligne des factures de vente, des factures de service et des bons de commande. Les factures peuvent être de formats et de qualités divers, notamment des images capturées par téléphone, des documents numérisés et des fichiers PDF. L’API analyse le texte de la facture, extrait les informations clés, telles que le nom du client, l’adresse de facturation, la date d’échéance et le montant dû, et renvoie une représentation structurée des données JSON. Le modèle prend actuellement en charge les factures en 27 langues.

Types de documents pris en charge :

  • Factures
  • Factures de service
  • Commandes client
  • Bons de commande

Traitement automatisé des factures

Le processus de traitement automatisé des factures consiste à extraire les champs accounts payable clés des documents de facturation. Les données extraites incluent des éléments de ligne à partir de factures intégrées à vos workflows de comptes fournisseurs (AP) pour les révisions et les paiements. Historiquement, le processus de gestion des comptes créditeurs était effectué manuellement et prenait donc beaucoup de temps. L’extraction précise des données clés à partir de factures est généralement la première et l’une des étapes les plus critiques du processus d’automatisation des factures.

Exemple de facture traitée avec le Studio d’Intelligence documentaire :

Capture d’écran d’un exemple de facture analysée dans le Studio d’Intelligence documentaire.

Exemple d’une facture traitée avec l’outil d’Étiquetage des exemples d’Intelligence documentaire :

Capture d’écran d’un exemple de facture.

Options de développement

Intelligence documentaire v4.0 : 2024-11-30 (GA) prend en charge les outils, applications et bibliothèques suivants :

Fonctionnalité Ressources ID de modèle
Modèle de facture Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
Facture prédéfinie

Intelligence documentaire v3.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèle de facture Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
Facture prédéfinie

Intelligence documentaire v3.0 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèle de facture Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
Facture prédéfinie

Intelligence documentaire v2.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources
Modèle de facture ● Outil d’étiquetage Intelligence Documentaire
API REST
Kit de développement logiciel (SDK) Bibliothèque client
Intelligence Documentaire Conteneur Docker

Critères des entrées

  • Formats de fichiers pris en charge :

    Modèle PDF Image :
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office :
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Lire
    Layout
    Document général
    Prédéfinie
    Extraction personnalisée
    Classification personnalisée
  • Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.

  • Pour les PDF et TIFF, jusqu'à 2 000 pages peuvent être traitées (avec un abonnement gratuit, seules les deux premières pages sont traitées).

  • La taille de fichier pour l’analyse de documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).

  • Les dimensions de l’image doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.

  • Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.

  • La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond environ à un texte de 8 points à 150 points par pouce (ppp).

  • Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.

    • Pour l’apprentissage du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle de gabarit et de 1 Go pour le modèle neuronal.

    • Pour l’apprentissage du modèle de classification personnalisé, la taille totale des données d’entraînement est de 1 Go, avec un maximum de 10 000 pages. Pour la version 2024-11-30 (GA), la taille totale des données d’apprentissage est de 2 Go avec un maximum de 10 000 pages.

  • Formats de fichiers pris en charge : JPEG, PNG, PDF et TIFF.
  • PDF et TIFF pris en charge, jusqu’à 2 000 pages sont traitées. Abonnés du niveau Gratuit : seules les deux premières pages sont traitées.
  • La taille du fichier pris en charge doit être inférieure à 50 Mo, et les dimensions doivent être comprises entre 50 × 50 pixels et 10 000 × 10 000 pixels.

Extraction de données de modèle de facture

Découvrez comment les données, y compris les informations sur les clients, les détails du fournisseur et les articles, sont extraites des factures. Vous avez besoin des ressources suivantes :

  • Un abonnement Azure. Vous pouvez en créer un gratuitement.

  • Instance Intelligence documentaire dans le Portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour accéder à la clé et au point de terminaison.

Capture d’écran de l’emplacement des clés et des points de terminaison dans le Portail Azure.

  1. Dans la page d’accueil Document Intelligence Studio, sélectionnez Factures.

  2. Vous pouvez analyser l’exemple de facture ou charger vos propres fichiers.

  3. Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les Options d’analyse :

    Capture d’écran des boutons Exécuter l’analyse et Options d’analyse dans Document Intelligence Studio.

Outil d’étiquetage d’exemples d’Intelligence documentaire

  1. Accédez à l’outil d’exemples Document Intelligence.

  2. Dans la page d’accueil de l’outil d’étiquetage d’échantillon, sélectionnez la vignette Utiliser un modèle prédéfini pour obtenir des données.

    Capture d’écran du processus d’analyse des résultats du modèle de disposition.

  3. Sélectionnez le Type de formulaire à analyser dans le menu déroulant.

  4. Choisissez un URL pour le fichier que vous souhaitez analyser à partir des options ci-dessous :

  5. Dans le champ Source, sélectionnez URL dans le menu déroulant, collez l’URL sélectionnée, puis sélectionnez le bouton Récupérer.

    Capture d'écran du menu déroulant de l'emplacement de la source.

  6. Dans le champ Point de terminaison du service Document Intelligence, collez le point de terminaison que vous avez obtenu avec votre abonnement Document Intelligence.

  7. Dans le champ Clé, collez la clé que vous avez obtenue de votre ressource Document Intelligence.

    Capture d’écran montrant le menu déroulant sélectionner un type de formulaire.

  8. Cliquez sur Exécuter l’analyse. L’outil d’étiquetage des exemples d’Intelligence Documentaire appelle l’API Analyze Prebuilt et analyse le document.

  9. Afficher les résultats : consultez les paires clé-valeur extraites, les articles, le texte mis en évidence extrait et les tableaux détectés.

    Capture d’écran de l’opération d’analyse des résultats du modèle de disposition.

Notes

L’outil d’étiquetage des exemples ne prend pas en charge le format de fichier BMP. Il s’agit d’une limite de l’outil et non du service d’Intelligence documentaire.

Langues et régions prises en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des langues du modèle prédéfini.

Extraction de champ

  • Pour connaître les champs d’extraction de documents pris en charge, consultez la page relative au schéma de modèle de facture dans notre exemple de référentiel GitHub.

  • Les paires clé-valeur et les éléments de ligne de facture extraits se trouvent dans la section documentResults de la sortie JSON.

Paires clé-valeur

Le modèle de facture prédéfini prend en charge le retour facultatif de paires clé-valeur. Par défaut, le retour des paires clé-valeur est désactivé. Les paires clé-valeur sont des portions spécifiques dans la facture qui identifient une étiquette ou une clé, ainsi que la réponse ou la valeur associée. Dans une facture, ces paires peuvent être l’étiquette et la valeur saisie par l’utilisateur pour ce champ ou ce numéro de téléphone. Le modèle d’IA est formé à l’extraction des clés et des valeurs identifiables à partir d’une grande variété de types, de formats et de structures de documents.

Les clés peuvent également exister de manière isolée lorsque le modèle détecte qu’une clé existe sans valeur associée ou lors du traitement de champs facultatifs. Par exemple, le champ du second prénom peut être laissé vide sur un formulaire dans certains cas. Les paires clé-valeur sont toujours des étendues de texte contenues dans le document. Si, dans certains documents, la même valeur est décrite de plusieurs manières, par exemple client/utilisateur, la clé associée est soit client, soit utilisateur (en fonction du contexte).

Sortie JSON

La sortie JSON comporte trois parties :

  • Le nœud "readResults" contient tout le texte reconnu et toutes les marques de sélection. Le texte est organisé par page, puis par ligne et ensuite par mots individuels.
  • Le nœud "pageResults" contient les tables et les cellules extraites avec leurs cadres englobants, la confiance et une référence aux lignes et aux mots qui se trouvent dans readResults.
  • Le nœud "documentResults" contient les valeurs et les éléments de ligne spécifiques à la facture que le modèle a découverts. C’est là que vous trouvez tous les champs de la facture, tels que l’ID de la facture, l’adresse d’expédition, l’adresse de facturation, le client, le total, les éléments de ligne et bien plus encore.

Guide de migration

::: moniker-end

Étapes suivantes