你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Document Classifiers - Get Classify Result

获取文档分类器的结果。

GET {endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-11-30

URI 参数

名称 必需 类型 说明
classifierId
path True

string

唯一的文档分类器名称。

正则表达式模式: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$

endpoint
path True

string

uri

文档智能服务终结点。

resultId
path True

string

uuid

分析操作结果 ID。

api-version
query True

string

用于此操作的 API 版本。

响应

名称 类型 说明
200 OK

AnalyzeOperation

请求已成功。

Other Status Codes

DocumentIntelligenceErrorResponse

意外的错误响应。

安全性

Ocp-Apim-Subscription-Key

类型: apiKey
在: header

OAuth2Auth

类型: oauth2
流向: accessCode
授权 URL: https://login.microsoftonline.com/common/oauth2/authorize
令牌 URL: https://login.microsoftonline.com/common/oauth2/token

作用域

名称 说明
https://cognitiveservices.azure.com/.default

示例

Get Classify Document Result

示例请求

GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/myClassifier/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034?api-version=2024-11-30

示例响应

{
  "status": "succeeded",
  "createdDateTime": "2021-09-24T13:00:46Z",
  "lastUpdatedDateTime": "2021-09-24T13:00:49Z",
  "analyzeResult": {
    "apiVersion": "2024-11-30",
    "modelId": "myClassifier",
    "stringIndexType": "textElements",
    "contentFormat": "text",
    "content": "",
    "pages": [
      {
        "pageNumber": 1,
        "width": 8.5,
        "height": 11,
        "unit": "inch",
        "spans": []
      },
      {
        "pageNumber": 2,
        "width": 8.5,
        "height": 11,
        "unit": "inch",
        "spans": []
      },
      {
        "pageNumber": 3,
        "width": 8.5,
        "height": 11,
        "unit": "inch",
        "spans": []
      }
    ],
    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          {
            "pageNumber": 1,
            "polygon": [
              0,
              0,
              8.5,
              0,
              8.5,
              11,
              0,
              11
            ]
          },
          {
            "pageNumber": 2,
            "polygon": [
              0,
              0,
              8.5,
              0,
              8.5,
              11,
              0,
              11
            ]
          }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          {
            "pageNumber": 3,
            "polygon": [
              0,
              0,
              8.5,
              0,
              8.5,
              11,
              0,
              11
            ]
          }
        ],
        "confidence": 0.97,
        "spans": []
      }
    ]
  }
}

定义

名称 说明
AddressValue

地址字段值。

AnalyzedDocument

描述文档的位置和语义内容的对象。

AnalyzeOperation

分析操作的状态和结果。

AnalyzeResult

文档分析结果。

BoundingRegion

输入的特定页上的边界多边形。

CurrencyValue

货币字段值。

DocumentBarcode

条形码对象。

DocumentBarcodeKind

条形码类型。

DocumentCaption

描述表格或图形的题注对象。

DocumentContentFormat

分析结果中内容的格式。

DocumentField

一个对象,表示字段值的内容和位置。

DocumentFieldType

字段值的语义数据类型。

DocumentFigure

一个对象,表示文档中的图。

DocumentFontStyle

字形。

DocumentFontWeight

字体粗细。

DocumentFootnote

描述表格或图形的脚注对象。

DocumentFormula

公式对象。

DocumentFormulaKind

公式类型。

DocumentIntelligenceError

错误对象。

DocumentIntelligenceErrorResponse

错误响应对象。

DocumentIntelligenceInnerError

包含有关错误的更具体信息的对象。

DocumentIntelligenceOperationStatus

操作状态。

DocumentIntelligenceWarning

错误对象。

DocumentKeyValueElement

一个对象,表示键值对中的字段键或值。

DocumentKeyValuePair

一个对象,表示具有不同字段标签(键)和字段值(可能为空)的窗体字段。

DocumentLanguage

一个对象,表示给定文本范围的检测到的语言。

DocumentLine

内容行对象,由相邻的内容元素序列(如字词和选择标记)组成。

DocumentPage

从输入页中提取的内容和布局元素。

DocumentParagraph

包含连续线条的段落对象通常具有常见的对齐和间距。

DocumentSection

一个对象,表示文档中的节。

DocumentSelectionMark

表示复选框、单选按钮和其他指示所选内容的元素的选择标记对象。

DocumentSelectionMarkState

选择标记的状态。

DocumentSignatureType

存在签名。

DocumentSpan

串联内容属性的连续区域,指定为偏移量和长度。

DocumentStyle

表示观察到的文本样式的对象。

DocumentTable

一个表格对象,该对象由排列在矩形布局中的表格单元格组成。

DocumentTableCell

一个对象,表示表单元格的位置和内容。

DocumentTableCellKind

表单元格类型。

DocumentWord

由连续字符序列组成的单词对象。 对于非空格分隔语言(如中文、日语和朝鲜语),每个字符都表示为自己的单词。

LengthUnit

宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。

ParagraphRole

段落的语义角色。

StringIndexType

用于计算字符串偏移量和长度的方法。

AddressValue

地址字段值。

名称 类型 说明
city

string

市、镇、村等的名称。

cityDistrict

string

纽约市的布鲁克林或伦敦威斯敏斯特市等城市内的地区或区。

countryRegion

string

国家/地区。

house

string

生成名称,如世贸中心。

houseNumber

string

房屋或建筑号。

level

string

楼层号,如 3F。

poBox

string

邮局票房号码。

postalCode

string

用于邮件排序的邮政编码。

road

string

街道名称。

state

string

一级行政分区。

stateDistrict

string

某些区域设置中使用的二级行政分区。

streetAddress

string

街道级别地址,不包括城市、州、国家/地区和邮政编码。

suburb

string

非官方邻里名称,如唐人街。

unit

string

公寓或办公室号码

AnalyzedDocument

描述文档的位置和语义内容的对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖文档的边界区域。

confidence

number

正确提取文档的置信度。

docType

string

文档类型。

fields

<string,  DocumentField>

命名字段值的字典。

spans

DocumentSpan[]

以阅读顺序连接内容的文档的位置。

AnalyzeOperation

分析操作的状态和结果。

名称 类型 说明
analyzeResult

AnalyzeResult

文档分析结果。

createdDateTime

string

提交分析操作的日期和时间(UTC)。

error

DocumentIntelligenceError

在文档分析过程中遇到错误。

lastUpdatedDateTime

string

上次更新状态的日期和时间(UTC)。

status

DocumentIntelligenceOperationStatus

操作状态。 notStarted、running、succeeded 或 failed

AnalyzeResult

文档分析结果。

名称 类型 说明
apiVersion

string

用于生成此结果的 API 版本。

content

string

按阅读顺序连接所有文本元素和视觉元素的字符串表示形式。

contentFormat

DocumentContentFormat

分析结果顶级内容的格式。

documents

AnalyzedDocument[]

提取的文档。

figures

DocumentFigure[]

提取的数字。

keyValuePairs

DocumentKeyValuePair[]

提取的键值对。

languages

DocumentLanguage[]

检测到的语言。

modelId

string

用于生成此结果的文档模型 ID。

pages

DocumentPage[]

已分析的页面。

paragraphs

DocumentParagraph[]

提取的段落。

sections

DocumentSection[]

提取的分区。

stringIndexType

StringIndexType

用于计算字符串偏移量和长度的方法。

styles

DocumentStyle[]

提取的字体样式。

tables

DocumentTable[]

提取的表。

warnings

DocumentIntelligenceWarning[]

遇到的警告列表。

BoundingRegion

输入的特定页上的边界多边形。

名称 类型 说明
pageNumber

integer

包含边界区域的基于 1 的页码。

polygon

number[]

页面上的边界多边形,或整个页面(如果未指定)。 相对于页面左上角指定的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

CurrencyValue

货币字段值。

名称 类型 说明
amount

number

货币金额。

currencyCode

string

已解析的货币代码(ISO 4217),如果有。

currencySymbol

string

货币符号标签(如果有)。

DocumentBarcode

条形码对象。

名称 类型 说明
confidence

number

正确提取条形码的信心。

kind

DocumentBarcodeKind

条形码类型。

polygon

number[]

条形码的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span

DocumentSpan

条形码在阅读顺序中连接内容的位置。

value

string

条形码值。

DocumentBarcodeKind

条形码类型。

名称 类型 说明
Aztec

string

Aztec 代码,如 ISO/IEC 24778:2008 中所述。

Codabar

string

Codabar 条形码,如 ANSI/AIM BC3-1995 中定义。

Code128

string

在 ISO/IEC 15417:2007 中定义的代码 128 条形码。

Code39

string

代码 39 条形码,在 ISO/IEC 16388:2007 中定义。

Code93

string

代码 93 条形码,如 ANSI/AIM BC5-1995 中定义。

DataBar

string

GS1 DataBar 条形码。

DataBarExpanded

string

GS1 DataBar 扩展条形码。

DataMatrix

string

ISO/IEC 16022:2006 中定义的数据矩阵代码。

EAN13

string

GS1 13 位国际项目编号(欧洲项目编号)。

EAN8

string

GS1 8 位国际项目编号(欧洲项目编号)。

ITF

string

交错 5 个条形码中的 2 个,如 ANSI/AIM BC2-1995 中定义。

MaxiCode

string

MaxiCode,在 ISO/IEC 16023:2000 中定义。

MicroQRCode

string

在 ISO/IEC 23941:2022 中定义的微 QR 码。

PDF417

string

PDF417,在 ISO 15438 中定义。

QRCode

string

QR 码,如 ISO/IEC 18004:2015 中定义。

UPCA

string

GS1 12 位通用产品代码。

UPCE

string

GS1 6 位通用产品代码。

DocumentCaption

描述表格或图形的题注对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖标题的边界区域。

content

string

标题的内容。

elements

string[]

标题的子元素。

spans

DocumentSpan[]

阅读顺序中标题的位置连接内容。

DocumentContentFormat

分析结果中内容的格式。

名称 类型 说明
markdown

string

带有节标题、表格等的文档内容的 Markdown 表示形式。

text

string

不带任何格式的文档内容的纯文本表示形式。

DocumentField

一个对象,表示字段值的内容和位置。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖字段的边界区域。

confidence

number

正确提取字段的置信度。

content

string

字段内容。

spans

DocumentSpan[]

读取顺序中字段的位置连接内容。

type

DocumentFieldType

字段值的数据类型。

valueAddress

AddressValue

地址值。

valueArray

DocumentField[]

字段值的数组。

valueBoolean

boolean

布尔值。

valueCountryRegion

string

3 字母国家/地区代码值 (ISO 3166-1 alpha-3)。

valueCurrency

CurrencyValue

货币值。

valueDate

string

YYYYMM-DD 格式(ISO 8601)格式的日期值。

valueInteger

integer

整数值。

valueNumber

number

浮点值。

valueObject

<string,  DocumentField>

命名字段值的字典。

valuePhoneNumber

string

E.164 格式的电话号码值(例如 +19876543210)。

valueSelectionGroup

string[]

选择组值。

valueSelectionMark

DocumentSelectionMarkState

选择标记值。

valueSignature

DocumentSignatureType

存在签名。

valueString

string

字符串值。

valueTime

string

hh:mm:ss 格式的时间值(ISO 8601)。

DocumentFieldType

字段值的语义数据类型。

名称 类型 说明
address

string

已分析的地址。

array

string

相同类型的子字段列表。

boolean

string

布尔值,规范化为 true 或 false。

countryRegion

string

国家/地区,规范化为 ISO 3166-1 alpha-3 格式(例如美国)。

currency

string

具有可选货币符号和单位的货币金额。

date

string

日期,规范化为 ISO 8601 (YYYY-MM-DD) 格式。

integer

string

整数,规范化为 64 位有符号整数。

number

string

浮点数,规范化为双精度浮点。

object

string

可能不同类型的子字段的命名列表。

phoneNumber

string

电话号码,规范化为 E.164 (+{CountryCode}{SubscriberNumber}) 格式。

selectionGroup

string

所选字符串值的数组。

selectionMark

string

是否选择了字段?

signature

string

签名是否存在?

string

string

纯文本。

time

string

时间,规范化为 ISO 8601 (hh:mm:ss) 格式。

DocumentFigure

一个对象,表示文档中的图。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖该图的边界区域。

caption

DocumentCaption

与该图关联的标题。

elements

string[]

图的子元素,不包括任何标题或脚注。

footnotes

DocumentFootnote[]

与该图关联的脚注列表。

id

string

图 ID。

spans

DocumentSpan[]

读取顺序中图的位置连接内容。

DocumentFontStyle

字形。

名称 类型 说明
italic

string

字符在视觉上倾斜到右侧。

normal

string

字符通常表示。

DocumentFontWeight

字体粗细。

名称 类型 说明
bold

string

字符用更粗的笔划来表示。

normal

string

字符通常表示。

DocumentFootnote

描述表格或图形的脚注对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖脚注的边界区域。

content

string

脚注的内容。

elements

string[]

脚注的子元素。

spans

DocumentSpan[]

阅读顺序中脚注的位置连接内容。

DocumentFormula

公式对象。

名称 类型 说明
confidence

number

正确提取公式的置信度。

kind

DocumentFormulaKind

公式类型。

polygon

number[]

公式的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span

DocumentSpan

公式在阅读顺序串联内容中的位置。

value

string

描述公式的 LaTex 表达式。

DocumentFormulaKind

公式类型。

名称 类型 说明
display

string

显示模式下占用整行的公式。

inline

string

嵌入段落内容的公式。

DocumentIntelligenceError

错误对象。

名称 类型 说明
code

string

服务器定义的错误代码集之一。

details

DocumentIntelligenceError[]

导致此报告错误的特定错误的详细信息数组。

innererror

DocumentIntelligenceInnerError

包含与当前对象有关错误的更具体信息的对象。

message

string

错误的人工可读表示形式。

target

string

错误的目标。

DocumentIntelligenceErrorResponse

错误响应对象。

名称 类型 说明
error

DocumentIntelligenceError

错误信息。

DocumentIntelligenceInnerError

包含有关错误的更具体信息的对象。

名称 类型 说明
code

string

服务器定义的错误代码集之一。

innererror

DocumentIntelligenceInnerError

内部错误。

message

string

错误的人工可读表示形式。

DocumentIntelligenceOperationStatus

操作状态。

名称 类型 说明
canceled

string

操作已被取消。

failed

string

操作失败。

notStarted

string

操作尚未启动。

running

string

操作正在进行中。

skipped

string

操作已被跳过。

succeeded

string

操作已成功。

DocumentIntelligenceWarning

错误对象。

名称 类型 说明
code

string

服务器定义的警告代码集之一。

message

string

警告的可读表示形式。

target

string

错误的目标。

DocumentKeyValueElement

一个对象,表示键值对中的字段键或值。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖键值元素的边界区域。

content

string

键值元素的串联内容(按读取顺序)。

spans

DocumentSpan[]

键值元素在读取顺序串联内容中的位置。

DocumentKeyValuePair

一个对象,表示具有不同字段标签(键)和字段值(可能为空)的窗体字段。

名称 类型 说明
confidence

number

正确提取键值对的置信度。

key

DocumentKeyValueElement

键值对的字段标签。

value

DocumentKeyValueElement

键值对的字段值。

DocumentLanguage

一个对象,表示给定文本范围的检测到的语言。

名称 类型 说明
confidence

number

正确标识语言的置信度。

locale

string

检测到的语言。 值可以是 ISO 639-1 语言代码(例如“en”、“fr”)或 BCP 47 语言标记(例如“zh-Hans”)。

spans

DocumentSpan[]

语言所应用于的串联内容中文本元素的位置。

DocumentLine

内容行对象,由相邻的内容元素序列(如字词和选择标记)组成。

名称 类型 说明
content

string

按阅读顺序连接包含元素的内容。

polygon

number[]

线条的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

spans

DocumentSpan[]

阅读顺序中行的位置连接内容。

DocumentPage

从输入页中提取的内容和布局元素。

名称 类型 说明
angle

number

内容以顺时针方向的一般方向,以度为单位(-180,180)。

barcodes

DocumentBarcode[]

从页面中提取的条形码。

formulas

DocumentFormula[]

从页面中提取的公式。

height

number

图像/PDF 的高度(以像素/英寸为单位)。

lines

DocumentLine[]

从页面中提取的行,可能同时包含文本元素和视觉元素。

pageNumber

integer

输入文档中基于 1 的页码。

selectionMarks

DocumentSelectionMark[]

从页面中提取的选择标记。

spans

DocumentSpan[]

页面在阅读顺序中连接内容的位置。

unit

LengthUnit

宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。

width

number

图像/PDF 的宽度(以像素/英寸为单位)。

words

DocumentWord[]

从页面中提取的字词。

DocumentParagraph

包含连续线条的段落对象通常具有常见的对齐和间距。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖段落的边界区域。

content

string

按阅读顺序连接段落的内容。

role

ParagraphRole

段落的语义角色。

spans

DocumentSpan[]

阅读顺序中段落的位置连接内容。

DocumentSection

一个对象,表示文档中的节。

名称 类型 说明
elements

string[]

节的子元素。

spans

DocumentSpan[]

阅读顺序中分区的位置连接内容。

DocumentSelectionMark

表示复选框、单选按钮和其他指示所选内容的元素的选择标记对象。

名称 类型 说明
confidence

number

正确提取选择标记的置信度。

polygon

number[]

所选标记的边界多边形,其坐标相对于页面左上角指定。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span

DocumentSpan

阅读顺序中所选内容的位置。

state

DocumentSelectionMarkState

选择标记的状态。

DocumentSelectionMarkState

选择标记的状态。

名称 类型 说明
selected

string

所选内容标记处于选中状态,通常由选中标记内的复选标记或交叉 X 指示。

unselected

string

未选择选择标记。

DocumentSignatureType

存在签名。

名称 类型 说明
signed

string

检测到签名。

unsigned

string

未检测到任何签名。

DocumentSpan

串联内容属性的连续区域,指定为偏移量和长度。

名称 类型 说明
length

integer

范围所表示的内容中的字符数。

offset

integer

范围所表示的内容的从零开始的索引。

DocumentStyle

表示观察到的文本样式的对象。

名称 类型 说明
backgroundColor

string

#rrggbb 十六进制格式的背景色。

color

string

#rrggbb 十六进制格式的前景色。

confidence

number

正确标识样式的置信度。

fontStyle

DocumentFontStyle

字形。

fontWeight

DocumentFontWeight

字体粗细。

isHandwritten

boolean

内容是否手写?

similarFontFamily

string

从受支持的字体系列中直观上最相似的字体,回退字体遵循 CSS 约定(例如“Arial, sans-serif”)。

spans

DocumentSpan[]

样式应用于的串联内容中文本元素的位置。

DocumentTable

一个表格对象,该对象由排列在矩形布局中的表格单元格组成。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖表的边界区域。

caption

DocumentCaption

与表格关联的标题。

cells

DocumentTableCell[]

表格中包含的单元格。

columnCount

integer

表中的列数。

footnotes

DocumentFootnote[]

与表关联的脚注列表。

rowCount

integer

表中的行数。

spans

DocumentSpan[]

读取顺序中表的位置连接内容。

DocumentTableCell

一个对象,表示表单元格的位置和内容。

名称 类型 默认值 说明
boundingRegions

BoundingRegion[]

覆盖表单元格的边界区域。

columnIndex

integer

单元格的列索引。

columnSpan

integer

1

此单元格跨越的列数。

content

string

按阅读顺序连接表单元格的内容。

elements

string[]

表单元格的子元素。

kind

DocumentTableCellKind

content

表单元格类型。

rowIndex

integer

单元格的行索引。

rowSpan

integer

1

此单元格跨越的行数。

spans

DocumentSpan[]

按阅读顺序串联内容的表单元格的位置。

DocumentTableCellKind

表单元格类型。

名称 类型 说明
columnHeader

string

描述列的内容。

content

string

包含主要内容/数据。

description

string

描述表(部分)中的内容。

rowHeader

string

描述行的内容。

stubHead

string

描述行标题,通常位于表格的左上角。

DocumentWord

由连续字符序列组成的单词对象。 对于非空格分隔语言(如中文、日语和朝鲜语),每个字符都表示为自己的单词。

名称 类型 说明
confidence

number

正确提取单词的置信度。

content

string

单词的文本内容。

polygon

number[]

单词的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span

DocumentSpan

阅读顺序中单词的位置连接内容。

LengthUnit

宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。

名称 类型 说明
inch

string

PDF 文件的长度单位。

pixel

string

图像文件的长度单位。

ParagraphRole

段落的语义角色。

名称 类型 说明
footnote

string

通常将备注放在页面上的主要内容之后。

formulaBlock

string

公式块,通常采用共享对齐方式。

pageFooter

string

页面下边缘附近的文本。

pageHeader

string

页面上边缘附近的文本。

pageNumber

string

页码。

sectionHeading

string

描述文档部分的子标题。

title

string

描述整个文档的顶级标题。

StringIndexType

用于计算字符串偏移量和长度的方法。

名称 类型 说明
textElements

string

由 Unicode 8.0.0 定义的用户感知显示字符或 grapheme 群集。

unicodeCodePoint

string

由单个 unicode 代码点表示的字符单元。 由 Python 3 使用。

utf16CodeUnit

string

由 16 位 Unicode 代码单元表示的字符单元。 由 JavaScript、Java 和 .NET 使用。