Abrufen von Erkenntnissen zur optischen Zeichenerkennung (OCR)
Optische Zeichenerkennung (OCR)
OCR extrahiert Text aus Bildern wie Bildern, Straßenschildern und Produkten in Mediendateien, um Einblicke zu schaffen.
OCR extrahiert Erkenntnisse aus gedruckten und handschriftlichen Texten in über 50 Sprachen, einschließlich eines Bilds mit Text in mehreren Sprachen. Weitere Informationen finden Sie unter OCR unterstützte Sprachen.
Weitere Informationen zu OCR finden Sie unter OCR-Technologie.
OCR-Anwendungsfälle
- Deep searching media footage for images with signposts, street names or car license plates, for example, in law enforcement.
- Extrahieren von Text aus Bildern in Mediendateien und anschließendes Übersetzen in mehrere Sprachen in Bezeichnungen für Barrierefreiheit, z. B. in Medien oder Unterhaltung.
- Erkennen von Markennamen in Bildern und Kategorisieren für Übersetzungszwecke, z. B. in Werbung und Branding.
- Extrahieren von Text in Bildern, die dann automatisch für Barrierefreiheit und zukünftige Nutzung kategorisiert werden, z. B. zum Generieren von Inhalten in einer Nachrichtenagentur.
- Extrahieren von Text in Warnungen in Onlineanweisungen und anschließendes Übersetzen des Texts zur Einhaltung lokaler Standards, z. B. E-Learning-Anweisungen für die Verwendung von Geräten.
Anzeigen des Einblicks-JSON mit dem Webportal
Nachdem Sie ein Video hochgeladen und indiziert haben, stehen Einblicke im JSON-Format zum Download über das Webportal zur Verfügung.
- Wählen Sie die Registerkarte "Bibliothek" aus.
- Wählen Sie Medien aus, mit dem Sie arbeiten möchten.
- Wählen Sie "Herunterladen " und " Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
- Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.
Verwenden der API
- Verwenden Sie die Anforderung "Videoindex abrufen". Es wird empfohlen, die Übergabe zu übergeben
&includeSummarizedInsights=false
. - Suchen Sie nach den in der Beispielantwort beschriebenen Schlüsselpaaren.
Beispielantwort
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Wichtig
Es ist wichtig, die Übersicht über die Transparenzhinweise für alle VI-Features zu lesen. Jeder Einblick hat auch eigene Transparenzhinweise:
OCR-Notizen
- Der Videoindexer hat einen OCR-Grenzwert von 50.000 Wörtern pro indiziertem Video. Sobald der Grenzwert erreicht ist, werden keine zusätzlichen OCR-Ergebnisse generiert.
- Berücksichtigen Sie sorgfältig die Genauigkeit der Ergebnisse, um genauere Erkennungen zu fördern, die Qualität des Bilds zu überprüfen, bilder mit niedriger Qualität können sich auf die erkannten Erkenntnisse auswirken.
- Berücksichtigen Sie bei der Verwendung der Strafverfolgung sorgfältig. OCR kann Teile des Texts falsch gelesen oder nicht erkennen. Um faire und qualitativ hochwertige VI-Bestimmungen zu gewährleisten, kombinieren Sie OCR-basierte Automatisierung mit menschlicher Aufsicht.
- Vermeiden Sie beim Extrahieren handschriftlicher Texte die VERWENDUNG der OCR-Ergebnisse von Signaturen, die für Menschen und Maschinen schwer zu lesen sind. Eine bessere Möglichkeit, OCR zu verwenden, besteht darin, es zum Erkennen des Vorhandenseins einer Signatur zur weiteren Analyse zu verwenden.
- Verwenden Sie OCR nicht für Entscheidungen, die schwerwiegende nachteilige Auswirkungen auf Einzelpersonen oder Gruppen haben könnten. Machine Learning-Modelle, die Text extrahieren, können zu einer nicht erkannten oder falschen Textausgabe führen. Entscheidungen, die auf einer falschen Ausgabe basieren, könnten schwerwiegende nachteilige Auswirkungen haben, die vermieden werden müssen. Sie sollten immer die menschliche Überprüfung von Entscheidungen einbeziehen, die das Potenzial für schwerwiegende Auswirkungen auf Einzelpersonen haben.
OCR-Komponenten
Während der OCR-Prozedur werden Textbilder in einer Mediendatei wie folgt verarbeitet:
Komponente | Definition |
---|---|
Quelldatei | Der Benutzer lädt die Quelldatei für die Indizierung hoch. |
Lesemodell | Bilder werden in der Mediendatei und in Text erkannt, dann von Azure AI-Diensten extrahiert und analysiert. |
Abrufen des Leseergebnissemodells | Die Ausgabe des extrahierten Texts wird in einer JSON-Datei angezeigt. |
Konfidenzwert | Die geschätzte Konfidenzstufe jedes Worts wird als Bereich von 0 bis 1 berechnet. Die Konfidenzbewertung stellt die Sicherheit in der Genauigkeit des Ergebnisses dar. Beispielsweise wird eine Sicherheit von 82 % als 0,82 Punkt dargestellt. |