Recognize Printed Text In Stream - Recognize Printed Text In Stream
Optyczne rozpoznawanie znaków (OCR) wykrywa tekst na obrazie i wyodrębnia rozpoznane znaki do strumienia znaków do użytku maszynowego. Po powodzeniu wyniki OCR zostaną zwrócone. Po awarii zostanie zwrócony kod błędu wraz z komunikatem o błędzie. Kod błędu może być jednym z invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage lub InternalServerError.
POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}
POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}&language={language}&model-version={model-version}
Parametry identyfikatora URI
Nazwa | W | Wymagane | Typ | Opis |
---|---|---|---|---|
Endpoint
|
path | True |
string |
Obsługiwane punkty końcowe usług Cognitive Services. |
detect
|
query | True |
boolean |
Czy wykryć orientację tekstu na obrazie. Za pomocą funkcji detectOrientation=true usługa OCR próbuje wykryć orientację obrazu i poprawić ją przed dalszym przetwarzaniem (np. jeśli jest ona do góry nogami). |
language
|
query |
Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment". |
||
model-version
|
query |
string |
Opcjonalny parametr określający wersję modelu sztucznej inteligencji. Akceptowane wartości to: "latest", "2021-04-01", "2021-05-01". Wartość domyślna to "latest" (najnowsza wersja). Wzorzec wyrażenia regularnego: |
Nagłówek żądania
Media Types: "application/octet-stream", "multipart/form-data"
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Treść żądania
Media Types: "application/octet-stream", "multipart/form-data"
Nazwa | Typ | Opis |
---|---|---|
Image |
object |
Strumień obrazu. |
Odpowiedzi
Nazwa | Typ | Opis |
---|---|---|
200 OK |
Funkcja OCR powoduje, że hierarchia regionu/wiersza/wyrazu. Wyniki obejmują tekst, pole ograniczenia dla regionów, wierszy i wyrazów. Kąt w radianach wykrytego tekstu w odniesieniu do najbliższego kierunku poziomego lub pionowego. Po obracaniu obrazu wejściowego zgodnie z tym kątem rozpoznane linie tekstowe stają się poziome lub pionowe. W połączeniu z właściwością orientacji może służyć do poprawnego rozpoznawania nakładek wyników na oryginalnym obrazie, obracając oryginalny obraz lub wyniki rozpoznawania przez odpowiedni kąt wokół środka oryginalnego obrazu. Jeśli nie można bezpiecznie wykryć kąta, ta właściwość nie jest obecna. Jeśli obraz zawiera tekst pod różnymi kątami, tylko część tekstu zostanie prawidłowo rozpoznana. |
|
Other Status Codes |
Odpowiedź na błąd. |
Zabezpieczenia
Ocp-Apim-Subscription-Key
Typ:
apiKey
W:
header
Przykłady
Successful RecognizePrintedText request
Przykładowe żądanie
POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?overload=stream&detectOrientation=true&language=en
"{binary}"
Przykładowa odpowiedź
{
"language": "en",
"textAngle": -2.0000000000000338,
"orientation": "Up",
"regions": [
{
"boundingBox": "462,379,497,258",
"lines": [
{
"boundingBox": "462,379,497,74",
"words": [
{
"boundingBox": "462,379,41,73",
"text": "A"
},
{
"boundingBox": "523,379,153,73",
"text": "GOAL"
},
{
"boundingBox": "694,379,265,74",
"text": "WITHOUT"
}
]
},
{
"boundingBox": "565,471,289,74",
"words": [
{
"boundingBox": "565,471,41,73",
"text": "A"
},
{
"boundingBox": "626,471,150,73",
"text": "PLAN"
},
{
"boundingBox": "801,472,53,73",
"text": "IS"
}
]
},
{
"boundingBox": "519,563,375,74",
"words": [
{
"boundingBox": "519,563,149,74",
"text": "JUST"
},
{
"boundingBox": "683,564,41,72",
"text": "A"
},
{
"boundingBox": "741,564,153,73",
"text": "WISH"
}
]
}
]
}
],
"modelVersion": "2021-04-01"
}
Definicje
Nazwa | Opis |
---|---|
Computer |
Błąd żądania interfejsu API. |
Computer |
Kod błędu. |
Computer |
Odpowiedź na błąd interfejsu API. |
Computer |
Szczegóły dotyczące błędu żądania interfejsu API. |
Computer |
Kod błędu. |
Ocr |
Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment". |
Ocr |
Obiekt opisujący pojedynczy rozpoznany wiersz tekstu. |
Ocr |
Region składa się z wielu wierszy (np. kolumny tekstu w dokumencie wielokolumnam). |
Ocr |
|
Ocr |
Informacje o rozpoznanym słowie. |
ComputerVisionError
Błąd żądania interfejsu API.
Nazwa | Typ | Opis |
---|---|---|
code |
Kod błędu. |
|
innererror |
Błąd wewnętrzny zawiera bardziej szczegółowe informacje. |
|
message |
string |
Komunikat wyjaśniający błąd zgłoszony przez usługę. |
ComputerVisionErrorCodes
Kod błędu.
Nazwa | Typ | Opis |
---|---|---|
InternalServerError |
string |
|
InvalidArgument |
string |
|
InvalidRequest |
string |
|
ServiceUnavailable |
string |
ComputerVisionErrorResponse
Odpowiedź na błąd interfejsu API.
Nazwa | Typ | Opis |
---|---|---|
error |
Zawartość błędu. |
ComputerVisionInnerError
Szczegóły dotyczące błędu żądania interfejsu API.
Nazwa | Typ | Opis |
---|---|---|
code |
Kod błędu. |
|
message |
string |
Komunikat o błędzie. |
ComputerVisionInnerErrorCodeValue
Kod błędu.
Nazwa | Typ | Opis |
---|---|---|
BadArgument |
string |
|
CancelledRequest |
string |
|
DetectFaceError |
string |
|
FailedToProcess |
string |
|
InternalServerError |
string |
|
InvalidDetails |
string |
|
InvalidImageFormat |
string |
|
InvalidImageSize |
string |
|
InvalidImageUrl |
string |
|
InvalidModel |
string |
|
InvalidThumbnailSize |
string |
|
NotSupportedFeature |
string |
|
NotSupportedImage |
string |
|
NotSupportedLanguage |
string |
|
NotSupportedVisualFeature |
string |
|
StorageException |
string |
|
Timeout |
string |
|
Unspecified |
string |
|
UnsupportedMediaType |
string |
OcrLanguages
Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "fragment".
Nazwa | Typ | Opis |
---|---|---|
ar |
string |
|
cs |
string |
|
da |
string |
|
de |
string |
|
el |
string |
|
en |
string |
|
es |
string |
|
fi |
string |
|
fr |
string |
|
hu |
string |
|
it |
string |
|
ja |
string |
|
ko |
string |
|
nb |
string |
|
nl |
string |
|
pl |
string |
|
pt |
string |
|
ro |
string |
|
ru |
string |
|
sk |
string |
|
sr-Cyrl |
string |
|
sr-Latn |
string |
|
sv |
string |
|
tr |
string |
|
unk |
string |
|
zh-Hans |
string |
|
zh-Hant |
string |
OcrLine
Obiekt opisujący pojedynczy rozpoznany wiersz tekstu.
Nazwa | Typ | Opis |
---|---|---|
boundingBox |
string |
Pole ograniczenia rozpoznanego wiersza. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół. |
words |
Ocr |
Tablica obiektów, w której każdy obiekt reprezentuje rozpoznane słowo. |
OcrRegion
Region składa się z wielu wierszy (np. kolumny tekstu w dokumencie wielokolumnam).
Nazwa | Typ | Opis |
---|---|---|
boundingBox |
string |
Pole ograniczenia rozpoznanego regionu. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół. |
lines |
Ocr |
Tablica rozpoznanych wierszy tekstu. |
OcrResult
Nazwa | Typ | Opis |
---|---|---|
language |
string |
Kod języka BCP-47 tekstu na obrazie. |
modelVersion |
string |
Wersja modelu sztucznej inteligencji. |
orientation |
string |
Orientacja tekstu rozpoznanego na obrazie, jeśli jest to wymagane. Wartość (w górę, w dół, w lewo lub w prawo) odnosi się do kierunku, w którym znajduje się górna część rozpoznanego tekstu, po obróceniu obrazu wokół środka zgodnie z wykrytym kątem tekstu (zobacz właściwość textAngle). Jeśli nie zażądano wykrywania orientacji lub nie wykryto żadnego tekstu, wartość to NotDetected. |
regions |
Tablica obiektów, w której każdy obiekt reprezentuje region rozpoznanego tekstu. |
|
textAngle |
number |
Kąt w radianach wykrytego tekstu w odniesieniu do najbliższego kierunku poziomego lub pionowego. Po obracaniu obrazu wejściowego zgodnie z tym kątem rozpoznane linie tekstowe stają się poziome lub pionowe. W połączeniu z właściwością orientacji może służyć do poprawnego rozpoznawania nakładek wyników na oryginalnym obrazie, obracając oryginalny obraz lub wyniki rozpoznawania przez odpowiedni kąt wokół środka oryginalnego obrazu. Jeśli nie można bezpiecznie wykryć kąta, ta właściwość nie jest obecna. Jeśli obraz zawiera tekst pod różnymi kątami, tylko część tekstu zostanie prawidłowo rozpoznana. |
OcrWord
Informacje o rozpoznanym słowie.
Nazwa | Typ | Opis |
---|---|---|
boundingBox |
string |
Pole ograniczenia rozpoznanego słowa. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu go wokół środka zgodnie z wykrytym kątem tekstu (patrz właściwość textAngle), ze źródłem w lewym górnym rogu i osią y wskazującą w dół. |
text |
string |
Wartość ciągu rozpoznanego wyrazu. |