Udostępnij za pośrednictwem


Uzyskiwanie szczegółowych informacji o optycznej rozpoznawaniu znaków (OCR)

Optyczne rozpoznawanie znaków (OCR)

Funkcja OCR wyodrębnia tekst z obrazów, takich jak obrazy, znaki uliczne i produkty w plikach multimedialnych w celu utworzenia szczegółowych informacji.

Funkcja OCR wyodrębnia szczegółowe informacje z tekstu drukowanego i odręcznego w ponad 50 językach, w tym z obrazu z tekstem w wielu językach. Aby uzyskać więcej informacji, zobacz języki obsługiwane przez funkcję OCR.

Aby uzyskać więcej informacji na temat OCR, zobacz Technologia OCR.

Przypadki użycia OCR

  • Głębokie wyszukiwanie materiałów multimedialnych na potrzeby obrazów z znakami, nazwami ulic lub tablicami rejestracyjnymi samochodów, na przykład w organach ścigania.
  • Wyodrębnianie tekstu z obrazów w plikach multimedialnych, a następnie tłumaczenie go na wiele języków w etykietach ułatwień dostępu, na przykład w mediach lub rozrywkach.
  • Wykrywanie nazw marek na obrazach i tagowanie ich do celów tłumaczenia, na przykład w reklamie i znakowaniu.
  • Wyodrębnianie tekstu na obrazach, które są następnie automatycznie oznaczane i kategoryzowane pod kątem ułatwień dostępu i przyszłego użycia, na przykład w celu wygenerowania zawartości w agencji informacyjnej.
  • Wyodrębnianie tekstu w ostrzeżeniach w instrukcjach online, a następnie tłumaczenie tekstu w celu zachowania zgodności z lokalnymi standardami, na przykład instrukcje uczenia elektronicznego dotyczące używania sprzętu.

Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego

Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.

  1. Wybierz kartę Biblioteka .
  2. Wybierz multimedia, z którym chcesz pracować.
  3. Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
  4. Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Używanie interfejsu API

  1. Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie &includeSummarizedInsights=falseelementu .
  2. Poszukaj par kluczy opisanych w przykładowej odpowiedzi.

Przykładowa odpowiedź

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Ważne

Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:

Notatki OCR

  • Usługa Video Indexer ma limit OCR 50 000 słów na indeksowane wideo. Po osiągnięciu limitu nie są generowane żadne dodatkowe wyniki OCR.
  • Starannie zastanów się nad dokładnością wyników, aby podwyższyć poziom dokładności wykrywania, sprawdzić jakość obrazu, obrazy o niskiej jakości mogą mieć wpływ na wykryte szczegółowe informacje.
  • Podczas korzystania z organów ścigania należy dokładnie rozważyć. Funkcja OCR może błędnie odczytywać lub nie wykrywać części tekstu. Aby zapewnić uczciwe i wysokiej jakości determinacje VI, połącz automatyzację opartą na protokole OCR z nadzorem człowieka.
  • Podczas wyodrębniania tekstu odręcznego należy unikać używania wyników OCR podpisów, które są trudne do odczytania zarówno dla ludzi, jak i maszyn. Lepszym sposobem użycia OCR jest użycie go do wykrywania obecności podpisu w celu dalszej analizy.
  • Nie używaj OCR do podejmowania decyzji, które mogą mieć poważny negatywny wpływ na osoby lub grupy. Modele uczenia maszynowego, które wyodrębniają tekst, mogą spowodować niewykryte lub nieprawidłowe dane wyjściowe tekstu. Decyzje oparte na nieprawidłowych danych wyjściowych mogą mieć poważne negatywne skutki, których należy unikać. Zawsze należy uwzględnić ludzki przegląd decyzji, które mogą mieć poważny wpływ na osoby.

Składniki OCR

Podczas procedury OCR obrazy tekstowe w pliku multimedialnym są przetwarzane w następujący sposób:

Składnik Definicja
Plik źródłowy Użytkownik przekazuje plik źródłowy do indeksowania.
Odczyt modelu Obrazy są wykrywane w pliku multimedialnym i tekście, a następnie wyodrębniane i analizowane przez usługi Azure AI.
Pobieranie modelu wyników odczytu Dane wyjściowe wyodrębnionego tekstu są wyświetlane w pliku JSON.
Wartość ufności Szacowany poziom ufności każdego słowa jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Przykładowy kod

Zobacz wszystkie przykłady dla vi