Modèle de facture Intelligence Documentaire

Article
12/16/2024

Ce contenu s’applique à : v4.0 (GA) | Versions précédentes : v3.1 (GA) v3.0 (GA) v2.1 (GA)

::: moniker-end

Ce contenu s’applique à : v3.1 (GA) | Dernière version : v4.0 (GA) | Versions précédentes : v3.0 v2.1

Ce contenu s’applique à : v3.0 (GA) | Dernières versions : v4.0 (GA) v3.1 | Version précédente : v2.1

Ce contenu s’applique à : v2.1 | Dernière version : v4.0 (GA)

Le modèle de facture d’Intelligence documentaire utilise de puissantes capacités de reconnaissance optique de caractères (OCR) pour analyser et extraire les champs clés et les éléments de ligne des factures de vente, des factures de service et des bons de commande. Les factures peuvent être de formats et de qualités divers, notamment des images capturées par téléphone, des documents numérisés et des fichiers PDF. L’API analyse le texte de la facture, extrait les informations clés, telles que le nom du client, l’adresse de facturation, la date d’échéance et le montant dû, et renvoie une représentation structurée des données JSON. Le modèle prend actuellement en charge les factures en 27 langues.

Types de documents pris en charge :

Factures
Factures de service
Commandes client
Bons de commande

Traitement automatisé des factures

Le processus de traitement automatisé des factures consiste à extraire les champs accounts payable clés des documents de facturation. Les données extraites incluent des éléments de ligne à partir de factures intégrées à vos workflows de comptes fournisseurs (AP) pour les révisions et les paiements. Historiquement, le processus de gestion des comptes créditeurs était effectué manuellement et prenait donc beaucoup de temps. L’extraction précise des données clés à partir de factures est généralement la première et l’une des étapes les plus critiques du processus d’automatisation des factures.

Exemple de facture traitée avec le Studio d’Intelligence documentaire :

Exemple d’une facture traitée avec l’outil d’Étiquetage des exemples d’Intelligence documentaire :

Capture d’écran d’un exemple de facture.

Options de développement

Intelligence documentaire v4.0 : 2024-11-30 (GA) prend en charge les outils, applications et bibliothèques suivants :

Fonctionnalité	Ressources	ID de modèle
Modèle de facture	• Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript	Facture prédéfinie

Intelligence documentaire v3.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction	Ressources	ID de modèle
Modèle de facture	• Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript	Facture prédéfinie

Intelligence documentaire v3.0 prend en charge les outils, applications et bibliothèques suivants :

Fonction	Ressources	ID de modèle
Modèle de facture	• Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript	Facture prédéfinie

Intelligence documentaire v2.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction	Ressources
Modèle de facture	● Outil d’étiquetage Intelligence Documentaire • API REST • Kit de développement logiciel (SDK) Bibliothèque client • Intelligence Documentaire Conteneur Docker

Critères des entrées

Formats de fichiers pris en charge :

Modèle	PDF	Image : `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office : Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lire	✔	✔	✔
Layout	✔	✔	✔
Document général	✔	✔
Prédéfinie	✔	✔
Extraction personnalisée	✔	✔
Classification personnalisée	✔	✔	✔

Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.
Pour les PDF et TIFF, jusqu'à 2 000 pages peuvent être traitées (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse de documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions de l’image doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond environ à un texte de 8 points à 150 points par pouce (ppp).
Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
- Pour l’apprentissage du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle de gabarit et de 1 Go pour le modèle neuronal.
- Pour l’apprentissage du modèle de classification personnalisé, la taille totale des données d’entraînement est de 1 Go, avec un maximum de 10 000 pages. Pour la version 2024-11-30 (GA), la taille totale des données d’apprentissage est de 2 Go avec un maximum de 10 000 pages.

Formats de fichiers pris en charge : JPEG, PNG, PDF et TIFF.
PDF et TIFF pris en charge, jusqu’à 2 000 pages sont traitées. Abonnés du niveau Gratuit : seules les deux premières pages sont traitées.
La taille du fichier pris en charge doit être inférieure à 50 Mo, et les dimensions doivent être comprises entre 50 × 50 pixels et 10 000 × 10 000 pixels.

Extraction de données de modèle de facture

Découvrez comment les données, y compris les informations sur les clients, les détails du fournisseur et les articles, sont extraites des factures. Vous avez besoin des ressources suivantes :

Un abonnement Azure. Vous pouvez en créer un gratuitement.
Instance Intelligence documentaire dans le Portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour accéder à la clé et au point de terminaison.

Capture d’écran de l’emplacement des clés et des points de terminaison dans le Portail Azure.

Dans la page d’accueil Document Intelligence Studio, sélectionnez Factures.
Vous pouvez analyser l’exemple de facture ou charger vos propres fichiers.
Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les Options d’analyse :

Essayer le Studio d’Intelligence documentaire

Outil d’étiquetage d’exemples d’Intelligence documentaire

Accédez à l’outil d’exemples Document Intelligence.
Dans la page d’accueil de l’outil d’étiquetage d’échantillon, sélectionnez la vignette Utiliser un modèle prédéfini pour obtenir des données.
Sélectionnez le Type de formulaire à analyser dans le menu déroulant.
Choisissez un URL pour le fichier que vous souhaitez analyser à partir des options ci-dessous :
Dans le champ Source, sélectionnez URL dans le menu déroulant, collez l’URL sélectionnée, puis sélectionnez le bouton Récupérer.
Dans le champ Point de terminaison du service Document Intelligence, collez le point de terminaison que vous avez obtenu avec votre abonnement Document Intelligence.
Dans le champ Clé, collez la clé que vous avez obtenue de votre ressource Document Intelligence.
Cliquez sur Exécuter l’analyse. L’outil d’étiquetage des exemples d’Intelligence Documentaire appelle l’API Analyze Prebuilt et analyse le document.
Afficher les résultats : consultez les paires clé-valeur extraites, les articles, le texte mis en évidence extrait et les tableaux détectés.

Notes

L’outil d’étiquetage des exemples ne prend pas en charge le format de fichier BMP. Il s’agit d’une limite de l’outil et non du service d’Intelligence documentaire.

Langues et régions prises en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des langues du modèle prédéfini.

Extraction de champ

Pour connaître les champs d’extraction de documents pris en charge, consultez la page relative au schéma de modèle de facture dans notre exemple de référentiel GitHub.
Les paires clé-valeur et les éléments de ligne de facture extraits se trouvent dans la section documentResults de la sortie JSON.

Paires clé-valeur

Le modèle de facture prédéfini prend en charge le retour facultatif de paires clé-valeur. Par défaut, le retour des paires clé-valeur est désactivé. Les paires clé-valeur sont des portions spécifiques dans la facture qui identifient une étiquette ou une clé, ainsi que la réponse ou la valeur associée. Dans une facture, ces paires peuvent être l’étiquette et la valeur saisie par l’utilisateur pour ce champ ou ce numéro de téléphone. Le modèle d’IA est formé à l’extraction des clés et des valeurs identifiables à partir d’une grande variété de types, de formats et de structures de documents.

Les clés peuvent également exister de manière isolée lorsque le modèle détecte qu’une clé existe sans valeur associée ou lors du traitement de champs facultatifs. Par exemple, le champ du second prénom peut être laissé vide sur un formulaire dans certains cas. Les paires clé-valeur sont toujours des étendues de texte contenues dans le document. Si, dans certains documents, la même valeur est décrite de plusieurs manières, par exemple client/utilisateur, la clé associée est soit client, soit utilisateur (en fonction du contexte).

Sortie JSON

La sortie JSON comporte trois parties :

Le nœud "readResults" contient tout le texte reconnu et toutes les marques de sélection. Le texte est organisé par page, puis par ligne et ensuite par mots individuels.
Le nœud "pageResults" contient les tables et les cellules extraites avec leurs cadres englobants, la confiance et une référence aux lignes et aux mots qui se trouvent dans readResults.
Le nœud "documentResults" contient les valeurs et les éléments de ligne spécifiques à la facture que le modèle a découverts. C’est là que vous trouvez tous les champs de la facture, tels que l’ID de la facture, l’adresse d’expédition, l’adresse de facturation, le client, le total, les éléments de ligne et bien plus encore.

Guide de migration

Suivez notre Guide de migration Intelligence documentaire v3.1 pour découvrir comment utiliser la version 3.0 dans vos applications et workflows.