Abrufen von Erkenntnissen zur optischen Zeichenerkennung (OCR)

Artikel
10/09/2024

Optische Zeichenerkennung (OCR)

OCR extrahiert Text aus Bildern wie Bildern, Straßenschildern und Produkten in Mediendateien, um Einblicke zu schaffen.

OCR extrahiert Erkenntnisse aus gedruckten und handschriftlichen Texten in über 50 Sprachen, einschließlich eines Bilds mit Text in mehreren Sprachen. Weitere Informationen finden Sie unter OCR unterstützte Sprachen.

Weitere Informationen zu OCR finden Sie unter OCR-Technologie.

OCR-Anwendungsfälle

Deep searching media footage for images with signposts, street names or car license plates, for example, in law enforcement.
Extrahieren von Text aus Bildern in Mediendateien und anschließendes Übersetzen in mehrere Sprachen in Bezeichnungen für Barrierefreiheit, z. B. in Medien oder Unterhaltung.
Erkennen von Markennamen in Bildern und Kategorisieren für Übersetzungszwecke, z. B. in Werbung und Branding.
Extrahieren von Text in Bildern, die dann automatisch für Barrierefreiheit und zukünftige Nutzung kategorisiert werden, z. B. zum Generieren von Inhalten in einer Nachrichtenagentur.
Extrahieren von Text in Warnungen in Onlineanweisungen und anschließendes Übersetzen des Texts zur Einhaltung lokaler Standards, z. B. E-Learning-Anweisungen für die Verwendung von Geräten.

Anzeigen des Einblicks-JSON mit dem Webportal

Nachdem Sie ein Video hochgeladen und indiziert haben, stehen Einblicke im JSON-Format zum Download über das Webportal zur Verfügung.

Wählen Sie die Registerkarte "Bibliothek" aus.
Wählen Sie Medien aus, mit dem Sie arbeiten möchten.
Wählen Sie "Herunterladen " und " Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.

Verwenden der API

Verwenden Sie die Anforderung "Videoindex abrufen". Es wird empfohlen, die Übergabe zu übergeben &includeSummarizedInsights=false.
Suchen Sie nach den in der Beispielantwort beschriebenen Schlüsselpaaren.

Beispielantwort

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Wichtig

Es ist wichtig, die Übersicht über die Transparenzhinweise für alle VI-Features zu lesen. Jeder Einblick hat auch eigene Transparenzhinweise:

OCR-Notizen

Der Videoindexer hat einen OCR-Grenzwert von 50.000 Wörtern pro indiziertem Video. Sobald der Grenzwert erreicht ist, werden keine zusätzlichen OCR-Ergebnisse generiert.
Berücksichtigen Sie sorgfältig die Genauigkeit der Ergebnisse, um genauere Erkennungen zu fördern, die Qualität des Bilds zu überprüfen, bilder mit niedriger Qualität können sich auf die erkannten Erkenntnisse auswirken.
Berücksichtigen Sie bei der Verwendung der Strafverfolgung sorgfältig. OCR kann Teile des Texts falsch gelesen oder nicht erkennen. Um faire und qualitativ hochwertige VI-Bestimmungen zu gewährleisten, kombinieren Sie OCR-basierte Automatisierung mit menschlicher Aufsicht.
Vermeiden Sie beim Extrahieren handschriftlicher Texte die VERWENDUNG der OCR-Ergebnisse von Signaturen, die für Menschen und Maschinen schwer zu lesen sind. Eine bessere Möglichkeit, OCR zu verwenden, besteht darin, es zum Erkennen des Vorhandenseins einer Signatur zur weiteren Analyse zu verwenden.
Verwenden Sie OCR nicht für Entscheidungen, die schwerwiegende nachteilige Auswirkungen auf Einzelpersonen oder Gruppen haben könnten. Machine Learning-Modelle, die Text extrahieren, können zu einer nicht erkannten oder falschen Textausgabe führen. Entscheidungen, die auf einer falschen Ausgabe basieren, könnten schwerwiegende nachteilige Auswirkungen haben, die vermieden werden müssen. Sie sollten immer die menschliche Überprüfung von Entscheidungen einbeziehen, die das Potenzial für schwerwiegende Auswirkungen auf Einzelpersonen haben.

OCR-Komponenten

Während der OCR-Prozedur werden Textbilder in einer Mediendatei wie folgt verarbeitet:

Komponente	Definition
Quelldatei	Der Benutzer lädt die Quelldatei für die Indizierung hoch.
Lesemodell	Bilder werden in der Mediendatei und in Text erkannt, dann von Azure AI-Diensten extrahiert und analysiert.
Abrufen des Leseergebnissemodells	Die Ausgabe des extrahierten Texts wird in einer JSON-Datei angezeigt.
Konfidenzwert	Die geschätzte Konfidenzstufe jedes Worts wird als Bereich von 0 bis 1 berechnet. Die Konfidenzbewertung stellt die Sicherheit in der Genauigkeit des Ergebnisses dar. Beispielsweise wird eine Sicherheit von 82 % als 0,82 Punkt dargestellt.

Beispielcode

Alle Beispiele für VI anzeigen

Freigeben über