Udostępnij za pośrednictwem


Recognize Printed Text In Stream - Recognize Printed Text In Stream

Optyczne rozpoznawanie znaków (OCR) wykrywa tekst na obrazie i wyodrębnia rozpoznane znaki do strumienia znaków do użytku maszynowego. Po powodzeniu wyniki OCR zostaną zwrócone. Po awarii zostanie zwrócony kod błędu wraz z komunikatem o błędzie. Kod błędu może być jednym z invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage lub InternalServerError.

POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}
POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}&language={language}&model-version={model-version}

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
Endpoint
path True

string

Obsługiwane punkty końcowe usług Cognitive Services.

detectOrientation
query True

boolean

Czy wykryć orientację tekstu na obrazie. Za pomocą funkcji detectOrientation=true usługa OCR próbuje wykryć orientację obrazu i poprawić ją przed dalszym przetwarzaniem (np. jeśli jest ona do góry nogami).

language
query

OcrLanguages

Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment".

model-version
query

string

Opcjonalny parametr określający wersję modelu sztucznej inteligencji. Akceptowane wartości to: "latest", "2021-04-01", "2021-05-01". Wartość domyślna to "latest" (najnowsza wersja).

Wzorzec wyrażenia regularnego: ^(latest|\d{4}-\d{2}-\d{2})(-preview)?$

Nagłówek żądania

Media Types: "application/octet-stream", "multipart/form-data"

Nazwa Wymagane Typ Opis
Ocp-Apim-Subscription-Key True

string

Treść żądania

Media Types: "application/octet-stream", "multipart/form-data"

Nazwa Typ Opis
Image

object

Strumień obrazu.

Odpowiedzi

Nazwa Typ Opis
200 OK

OcrResult

Funkcja OCR powoduje, że hierarchia regionu/wiersza/wyrazu. Wyniki obejmują tekst, pole ograniczenia dla regionów, wierszy i wyrazów. Kąt w radianach wykrytego tekstu w odniesieniu do najbliższego kierunku poziomego lub pionowego. Po obracaniu obrazu wejściowego zgodnie z tym kątem rozpoznane linie tekstowe stają się poziome lub pionowe. W połączeniu z właściwością orientacji może służyć do poprawnego rozpoznawania nakładek wyników na oryginalnym obrazie, obracając oryginalny obraz lub wyniki rozpoznawania przez odpowiedni kąt wokół środka oryginalnego obrazu. Jeśli nie można bezpiecznie wykryć kąta, ta właściwość nie jest obecna. Jeśli obraz zawiera tekst pod różnymi kątami, tylko część tekstu zostanie prawidłowo rozpoznana.

Other Status Codes

ComputerVisionErrorResponse

Odpowiedź na błąd.

Zabezpieczenia

Ocp-Apim-Subscription-Key

Typ: apiKey
W: header

Przykłady

Successful RecognizePrintedText request

Przykładowe żądanie

POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?overload=stream&detectOrientation=true&language=en


"{binary}"

Przykładowa odpowiedź

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ],
  "modelVersion": "2021-04-01"
}

Definicje

Nazwa Opis
ComputerVisionError

Błąd żądania interfejsu API.

ComputerVisionErrorCodes

Kod błędu.

ComputerVisionErrorResponse

Odpowiedź na błąd interfejsu API.

ComputerVisionInnerError

Szczegóły dotyczące błędu żądania interfejsu API.

ComputerVisionInnerErrorCodeValue

Kod błędu.

OcrLanguages

Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment".

OcrLine

Obiekt opisujący pojedynczy rozpoznany wiersz tekstu.

OcrRegion

Region składa się z wielu wierszy (np. kolumny tekstu w dokumencie wielokolumnam).

OcrResult
OcrWord

Informacje o rozpoznanym słowie.

ComputerVisionError

Błąd żądania interfejsu API.

Nazwa Typ Opis
code

ComputerVisionErrorCodes

Kod błędu.

innererror

ComputerVisionInnerError

Błąd wewnętrzny zawiera bardziej szczegółowe informacje.

message

string

Komunikat wyjaśniający błąd zgłoszony przez usługę.

ComputerVisionErrorCodes

Kod błędu.

Nazwa Typ Opis
InternalServerError

string

InvalidArgument

string

InvalidRequest

string

ServiceUnavailable

string

ComputerVisionErrorResponse

Odpowiedź na błąd interfejsu API.

Nazwa Typ Opis
error

ComputerVisionError

Zawartość błędu.

ComputerVisionInnerError

Szczegóły dotyczące błędu żądania interfejsu API.

Nazwa Typ Opis
code

ComputerVisionInnerErrorCodeValue

Kod błędu.

message

string

Komunikat o błędzie.

ComputerVisionInnerErrorCodeValue

Kod błędu.

Nazwa Typ Opis
BadArgument

string

CancelledRequest

string

DetectFaceError

string

FailedToProcess

string

InternalServerError

string

InvalidDetails

string

InvalidImageFormat

string

InvalidImageSize

string

InvalidImageUrl

string

InvalidModel

string

InvalidThumbnailSize

string

NotSupportedFeature

string

NotSupportedImage

string

NotSupportedLanguage

string

NotSupportedVisualFeature

string

StorageException

string

Timeout

string

Unspecified

string

UnsupportedMediaType

string

OcrLanguages

Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment".

Nazwa Typ Opis
ar

string

cs

string

da

string

de

string

el

string

en

string

es

string

fi

string

fr

string

hu

string

it

string

ja

string

ko

string

nb

string

nl

string

pl

string

pt

string

ro

string

ru

string

sk

string

sr-Cyrl

string

sr-Latn

string

sv

string

tr

string

unk

string

zh-Hans

string

zh-Hant

string

OcrLine

Obiekt opisujący pojedynczy rozpoznany wiersz tekstu.

Nazwa Typ Opis
boundingBox

string

Pole ograniczenia rozpoznanego wiersza. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół.

words

OcrWord[]

Tablica obiektów, w której każdy obiekt reprezentuje rozpoznane słowo.

OcrRegion

Region składa się z wielu wierszy (np. kolumny tekstu w dokumencie wielokolumnam).

Nazwa Typ Opis
boundingBox

string

Pole ograniczenia rozpoznanego regionu. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół.

lines

OcrLine[]

Tablica rozpoznanych wierszy tekstu.

OcrResult

Nazwa Typ Opis
language

string

Kod języka BCP-47 tekstu na obrazie.

modelVersion

string

Wersja modelu sztucznej inteligencji.

orientation

string

Orientacja tekstu rozpoznanego na obrazie, jeśli jest to wymagane. Wartość (w górę, w dół, w lewo lub w prawo) odnosi się do kierunku, w którym znajduje się górna część rozpoznanego tekstu, po obróceniu obrazu wokół środka zgodnie z wykrytym kątem tekstu (zobacz właściwość textAngle). Jeśli nie zażądano wykrywania orientacji lub nie wykryto żadnego tekstu, wartość to NotDetected.

regions

OcrRegion[]

Tablica obiektów, w której każdy obiekt reprezentuje region rozpoznanego tekstu.

textAngle

number

Kąt w radianach wykrytego tekstu w odniesieniu do najbliższego kierunku poziomego lub pionowego. Po obracaniu obrazu wejściowego zgodnie z tym kątem rozpoznane linie tekstowe stają się poziome lub pionowe. W połączeniu z właściwością orientacji może służyć do poprawnego rozpoznawania nakładek wyników na oryginalnym obrazie, obracając oryginalny obraz lub wyniki rozpoznawania przez odpowiedni kąt wokół środka oryginalnego obrazu. Jeśli nie można bezpiecznie wykryć kąta, ta właściwość nie jest obecna. Jeśli obraz zawiera tekst pod różnymi kątami, tylko część tekstu zostanie prawidłowo rozpoznana.

OcrWord

Informacje o rozpoznanym słowie.

Nazwa Typ Opis
boundingBox

string

Pole ograniczenia rozpoznanego słowa. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół.

text

string

Wartość ciągu rozpoznanego wyrazu.