Recognize Printed Text In Stream - Recognize Printed Text In Stream

Odwołanie

Usługa:: Azure AI Services

Wersja interfejsu API:: 3.2

Optyczne rozpoznawanie znaków (OCR) wykrywa tekst na obrazie i wyodrębnia rozpoznane znaki do strumienia znaków do użytku maszynowego. Po powodzeniu wyniki OCR zostaną zwrócone. Po awarii zostanie zwrócony kod błędu wraz z komunikatem o błędzie. Kod błędu może być jednym z invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage lub InternalServerError.

POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}

Z parametrami opcjonalnymi:

POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}&language={language}&model-version={model-version}

Parametry identyfikatora URI

Nazwa	W	Wymagane	Typ	Opis
Endpoint	path	True	string	Obsługiwane punkty końcowe usług Cognitive Services.
detectOrientation	query	True	boolean	Czy wykryć orientację tekstu na obrazie. Za pomocą funkcji detectOrientation=true usługa OCR próbuje wykryć orientację obrazu i poprawić ją przed dalszym przetwarzaniem (np. jeśli jest ona do góry nogami).
language	query		OcrLanguages	Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment".
model-version	query		string	Opcjonalny parametr określający wersję modelu sztucznej inteligencji. Akceptowane wartości to: "latest", "2021-04-01", "2021-05-01". Wartość domyślna to "latest" (najnowsza wersja). Wzorzec wyrażenia regularnego: `^(latest\|\d{4}-\d{2}-\d{2})(-preview)?$`

Nagłówek żądania

Media Types: "application/octet-stream", "multipart/form-data"

Nazwa	Wymagane	Typ	Opis
Ocp-Apim-Subscription-Key	True	string

Treść żądania

Media Types: "application/octet-stream", "multipart/form-data"

Nazwa	Typ	Opis
Image	object	Strumień obrazu.

Odpowiedzi

Nazwa	Typ	Opis
200 OK	OcrResult	Funkcja OCR powoduje, że hierarchia regionu/wiersza/wyrazu. Wyniki obejmują tekst, pole ograniczenia dla regionów, wierszy i wyrazów. Kąt w radianach wykrytego tekstu w odniesieniu do najbliższego kierunku poziomego lub pionowego. Po obracaniu obrazu wejściowego zgodnie z tym kątem rozpoznane linie tekstowe stają się poziome lub pionowe. W połączeniu z właściwością orientacji może służyć do poprawnego rozpoznawania nakładek wyników na oryginalnym obrazie, obracając oryginalny obraz lub wyniki rozpoznawania przez odpowiedni kąt wokół środka oryginalnego obrazu. Jeśli nie można bezpiecznie wykryć kąta, ta właściwość nie jest obecna. Jeśli obraz zawiera tekst pod różnymi kątami, tylko część tekstu zostanie prawidłowo rozpoznana.
Other Status Codes	ComputerVisionErrorResponse	Odpowiedź na błąd.

Zabezpieczenia

Ocp-Apim-Subscription-Key

Typ: apiKey
W: header

Przykłady

Successful RecognizePrintedText request

Przykładowe żądanie

HTTP

POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?overload=stream&detectOrientation=true&language=en


"{binary}"

Przykładowa odpowiedź

Kod stanu:: 200

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ],
  "modelVersion": "2021-04-01"
}

Definicje

Nazwa	Opis
ComputerVisionError	Błąd żądania interfejsu API.
ComputerVisionErrorCodes	Kod błędu.
ComputerVisionErrorResponse	Odpowiedź na błąd interfejsu API.
ComputerVisionInnerError	Szczegóły dotyczące błędu żądania interfejsu API.
ComputerVisionInnerErrorCodeValue	Kod błędu.
OcrLanguages	Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment".
OcrLine	Obiekt opisujący pojedynczy rozpoznany wiersz tekstu.
OcrRegion	Region składa się z wielu wierszy (np. kolumny tekstu w dokumencie wielokolumnam).
OcrResult
OcrWord	Informacje o rozpoznanym słowie.

ComputerVisionError

Błąd żądania interfejsu API.

Nazwa	Typ	Opis
code	ComputerVisionErrorCodes	Kod błędu.
innererror	ComputerVisionInnerError	Błąd wewnętrzny zawiera bardziej szczegółowe informacje.
message	string	Komunikat wyjaśniający błąd zgłoszony przez usługę.

ComputerVisionErrorCodes

Kod błędu.

Nazwa	Typ	Opis
InternalServerError	string
InvalidArgument	string
InvalidRequest	string
ServiceUnavailable	string

ComputerVisionErrorResponse

Odpowiedź na błąd interfejsu API.

Nazwa	Typ	Opis
error	ComputerVisionError	Zawartość błędu.

ComputerVisionInnerError

Szczegóły dotyczące błędu żądania interfejsu API.

Nazwa	Typ	Opis
code	ComputerVisionInnerErrorCodeValue	Kod błędu.
message	string	Komunikat o błędzie.

ComputerVisionInnerErrorCodeValue

Kod błędu.

Nazwa	Typ	Opis
BadArgument	string
CancelledRequest	string
DetectFaceError	string
FailedToProcess	string
InternalServerError	string
InvalidDetails	string
InvalidImageFormat	string
InvalidImageSize	string
InvalidImageUrl	string
InvalidModel	string
InvalidThumbnailSize	string
NotSupportedFeature	string
NotSupportedImage	string
NotSupportedLanguage	string
NotSupportedVisualFeature	string
StorageException	string
Timeout	string
Unspecified	string
UnsupportedMediaType	string

OcrLanguages

Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment".

Nazwa	Typ	Opis
ar	string
cs	string
da	string
de	string
el	string
en	string
es	string
fi	string
fr	string
hu	string
it	string
ja	string
ko	string
nb	string
nl	string
pl	string
pt	string
ro	string
ru	string
sk	string
sr-Cyrl	string
sr-Latn	string
sv	string
tr	string
unk	string
zh-Hans	string
zh-Hant	string

OcrLine

Obiekt opisujący pojedynczy rozpoznany wiersz tekstu.

Nazwa	Typ	Opis
boundingBox	string	Pole ograniczenia rozpoznanego wiersza. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół.
words	OcrWord[]	Tablica obiektów, w której każdy obiekt reprezentuje rozpoznane słowo.

OcrRegion

Region składa się z wielu wierszy (np. kolumny tekstu w dokumencie wielokolumnam).

Nazwa	Typ	Opis
boundingBox	string	Pole ograniczenia rozpoznanego regionu. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół.
lines	OcrLine[]	Tablica rozpoznanych wierszy tekstu.

OcrResult

Nazwa	Typ	Opis
language	string	Kod języka BCP-47 tekstu na obrazie.
modelVersion	string	Wersja modelu sztucznej inteligencji.
orientation	string	Orientacja tekstu rozpoznanego na obrazie, jeśli jest to wymagane. Wartość (w górę, w dół, w lewo lub w prawo) odnosi się do kierunku, w którym znajduje się górna część rozpoznanego tekstu, po obróceniu obrazu wokół środka zgodnie z wykrytym kątem tekstu (zobacz właściwość textAngle). Jeśli nie zażądano wykrywania orientacji lub nie wykryto żadnego tekstu, wartość to NotDetected.
regions	OcrRegion[]	Tablica obiektów, w której każdy obiekt reprezentuje region rozpoznanego tekstu.
textAngle	number	Kąt w radianach wykrytego tekstu w odniesieniu do najbliższego kierunku poziomego lub pionowego. Po obracaniu obrazu wejściowego zgodnie z tym kątem rozpoznane linie tekstowe stają się poziome lub pionowe. W połączeniu z właściwością orientacji może służyć do poprawnego rozpoznawania nakładek wyników na oryginalnym obrazie, obracając oryginalny obraz lub wyniki rozpoznawania przez odpowiedni kąt wokół środka oryginalnego obrazu. Jeśli nie można bezpiecznie wykryć kąta, ta właściwość nie jest obecna. Jeśli obraz zawiera tekst pod różnymi kątami, tylko część tekstu zostanie prawidłowo rozpoznana.

OcrWord

Informacje o rozpoznanym słowie.

Nazwa	Typ	Opis
boundingBox	string	Pole ograniczenia rozpoznanego słowa. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół.
text	string	Wartość ciągu rozpoznanego wyrazu.

Udostępnij za pośrednictwem