Obtenir des insights de reconnaissance optique de caractères (OCR)
Reconnaissance optique de caractères (OCR)
OCR extrait du texte d’images telles que des images, des panneaux de rue et des produits dans des fichiers multimédias pour créer des insights.
OCR extrait des insights du texte imprimé et manuscrit dans plus de 50 langues, y compris à partir d’une image avec du texte dans plusieurs langues. Pour plus d’informations, consultez les langues prises en charge par OCR.
Pour plus d’informations sur l’OCR, consultez la technologie OCR.
Cas d’usage de l’OCR
- Recherche approfondie de séquences multimédias pour des images avec des panneaux de signalisation, des noms de rue ou des plaques d’immatriculation de voiture, par exemple dans l’application de la loi.
- Extraire du texte d’images dans des fichiers multimédias, puis le traduire en plusieurs langues dans des étiquettes pour l’accessibilité, par exemple dans les médias ou le divertissement.
- Détection des noms de marque dans les images et leur étiquetage à des fins de traduction, par exemple dans la publicité et la personnalisation.
- Extraction de texte dans des images qui sont ensuite étiquetées et classées automatiquement pour l’accessibilité et l’utilisation future, par exemple pour générer du contenu dans une agence de presse.
- Extraction de texte dans des avertissements dans des instructions en ligne, puis traduction du texte en conformité avec les normes locales, par exemple, instructions d’apprentissage électronique pour l’utilisation de l’équipement.
Afficher le json d’insight avec le portail web
Une fois que vous avez chargé et indexé une vidéo, les insights sont disponibles au format JSON pour téléchargement à l’aide du portail web.
- Sélectionnez l’onglet Bibliothèque .
- Sélectionnez le média avec lequel vous souhaitez travailler.
- Sélectionnez Télécharger et Insights (JSON). Le fichier JSON s’ouvre dans un nouvel onglet de navigateur.
- Recherchez la paire de clés décrite dans l’exemple de réponse.
Utilisation de l’API
- Utilisez la requête Get Video Index . Nous vous recommandons de passer
&includeSummarizedInsights=false
. - Recherchez les paires de clés décrites dans l’exemple de réponse.
Exemple de réponse
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Important
Il est important de lire la vue d’ensemble de la note de transparence pour toutes les fonctionnalités vi. Chaque insight a également des notes de transparence de ses propres :
Notes OCR
- Video Indexer a une limite OCR de 50 000 mots par vidéo indexée. Une fois la limite atteinte, aucun résultat OCR supplémentaire n’est généré.
- Examinez attentivement la précision des résultats, pour promouvoir des détections plus précises, vérifier la qualité de l’image, les images de faible qualité peuvent affecter les insights détectés.
- Prenez soigneusement en compte lors de l’utilisation pour l’application de la loi. L’OCR peut mal lu ou ne pas détecter des parties du texte. Pour garantir des déterminations vi équitables et de haute qualité, associez l’automatisation basée sur OCR à la supervision humaine.
- Lors de l’extraction de texte manuscrit, évitez d’utiliser les résultats OCR des signatures difficiles à lire pour les humains et les machines. Une meilleure façon d’utiliser OCR consiste à l’utiliser pour détecter la présence d’une signature pour une analyse plus approfondie.
- N’utilisez pas l’OCR pour les décisions susceptibles d’avoir de graves répercussions négatives sur les individus ou les groupes. Les modèles Machine Learning qui extraient du texte peuvent entraîner une sortie de texte non détectée ou incorrecte. Les décisions basées sur une sortie incorrecte pourraient avoir de graves répercussions négatives qui doivent être évitées. Vous devez toujours inclure l’examen humain des décisions susceptibles d’avoir des répercussions graves sur les individus.
Composants OCR
Pendant la procédure OCR, les images texte d’un fichier multimédia sont traitées comme suit :
Composant | Définition |
---|---|
Fichier source | L’utilisateur charge le fichier source pour l’indexation. |
Modèle Read | Les images sont détectées dans le fichier multimédia et le texte, puis extraites et analysées par les services Azure AI. |
Obtenir le modèle de résultats de lecture | La sortie du texte extrait s’affiche dans un fichier JSON. |
Valeur de confiance | Le niveau de confiance estimé de chaque mot est calculé sous la forme d’une plage de 0 à 1. Le score de confiance représente la certitude dans la précision du résultat. Par exemple, une certitude de 82 % est représentée sous la forme d’un score de 0,82. |