你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Document Classifiers - Get Classify Result
获取文档分类器的结果。
GET {endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-11-30
URI 参数
名称 | 在 | 必需 | 类型 | 说明 |
---|---|---|---|---|
classifier
|
path | True |
string |
唯一的文档分类器名称。 正则表达式模式: |
endpoint
|
path | True |
string uri |
文档智能服务终结点。 |
result
|
path | True |
string uuid |
分析操作结果 ID。 |
api-version
|
query | True |
string |
用于此操作的 API 版本。 |
响应
名称 | 类型 | 说明 |
---|---|---|
200 OK |
请求已成功。 |
|
Other Status Codes |
意外的错误响应。 |
安全性
Ocp-Apim-Subscription-Key
类型:
apiKey
在:
header
OAuth2Auth
类型:
oauth2
流向:
accessCode
授权 URL:
https://login.microsoftonline.com/common/oauth2/authorize
令牌 URL:
https://login.microsoftonline.com/common/oauth2/token
作用域
名称 | 说明 |
---|---|
https://cognitiveservices.azure.com/.default |
示例
Get Classify Document Result
示例请求
GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/myClassifier/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034?api-version=2024-11-30
示例响应
{
"status": "succeeded",
"createdDateTime": "2021-09-24T13:00:46Z",
"lastUpdatedDateTime": "2021-09-24T13:00:49Z",
"analyzeResult": {
"apiVersion": "2024-11-30",
"modelId": "myClassifier",
"stringIndexType": "textElements",
"contentFormat": "text",
"content": "",
"pages": [
{
"pageNumber": 1,
"width": 8.5,
"height": 11,
"unit": "inch",
"spans": []
},
{
"pageNumber": 2,
"width": 8.5,
"height": 11,
"unit": "inch",
"spans": []
},
{
"pageNumber": 3,
"width": 8.5,
"height": 11,
"unit": "inch",
"spans": []
}
],
"documents": [
{
"docType": "formA",
"boundingRegions": [
{
"pageNumber": 1,
"polygon": [
0,
0,
8.5,
0,
8.5,
11,
0,
11
]
},
{
"pageNumber": 2,
"polygon": [
0,
0,
8.5,
0,
8.5,
11,
0,
11
]
}
],
"confidence": 0.97,
"spans": []
},
{
"docType": "formB",
"boundingRegions": [
{
"pageNumber": 3,
"polygon": [
0,
0,
8.5,
0,
8.5,
11,
0,
11
]
}
],
"confidence": 0.97,
"spans": []
}
]
}
}
定义
AddressValue
地址字段值。
名称 | 类型 | 说明 |
---|---|---|
city |
string |
市、镇、村等的名称。 |
cityDistrict |
string |
纽约市的布鲁克林或伦敦威斯敏斯特市等城市内的地区或区。 |
countryRegion |
string |
国家/地区。 |
house |
string |
生成名称,如世贸中心。 |
houseNumber |
string |
房屋或建筑号。 |
level |
string |
楼层号,如 3F。 |
poBox |
string |
邮局票房号码。 |
postalCode |
string |
用于邮件排序的邮政编码。 |
road |
string |
街道名称。 |
state |
string |
一级行政分区。 |
stateDistrict |
string |
某些区域设置中使用的二级行政分区。 |
streetAddress |
string |
街道级别地址,不包括城市、州、国家/地区和邮政编码。 |
suburb |
string |
非官方邻里名称,如唐人街。 |
unit |
string |
公寓或办公室号码 |
AnalyzedDocument
描述文档的位置和语义内容的对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖文档的边界区域。 |
|
confidence |
number |
正确提取文档的置信度。 |
docType |
string |
文档类型。 |
fields |
<string,
Document |
命名字段值的字典。 |
spans |
以阅读顺序连接内容的文档的位置。 |
AnalyzeOperation
分析操作的状态和结果。
名称 | 类型 | 说明 |
---|---|---|
analyzeResult |
文档分析结果。 |
|
createdDateTime |
string |
提交分析操作的日期和时间(UTC)。 |
error |
在文档分析过程中遇到错误。 |
|
lastUpdatedDateTime |
string |
上次更新状态的日期和时间(UTC)。 |
status |
操作状态。 notStarted、running、succeeded 或 failed |
AnalyzeResult
文档分析结果。
名称 | 类型 | 说明 |
---|---|---|
apiVersion |
string |
用于生成此结果的 API 版本。 |
content |
string |
按阅读顺序连接所有文本元素和视觉元素的字符串表示形式。 |
contentFormat |
分析结果顶级内容的格式。 |
|
documents |
提取的文档。 |
|
figures |
提取的数字。 |
|
keyValuePairs |
提取的键值对。 |
|
languages |
检测到的语言。 |
|
modelId |
string |
用于生成此结果的文档模型 ID。 |
pages |
已分析的页面。 |
|
paragraphs |
提取的段落。 |
|
sections |
提取的分区。 |
|
stringIndexType |
用于计算字符串偏移量和长度的方法。 |
|
styles |
提取的字体样式。 |
|
tables |
提取的表。 |
|
warnings |
遇到的警告列表。 |
BoundingRegion
输入的特定页上的边界多边形。
名称 | 类型 | 说明 |
---|---|---|
pageNumber |
integer |
包含边界区域的基于 1 的页码。 |
polygon |
number[] |
页面上的边界多边形,或整个页面(如果未指定)。 相对于页面左上角指定的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。 |
CurrencyValue
货币字段值。
名称 | 类型 | 说明 |
---|---|---|
amount |
number |
货币金额。 |
currencyCode |
string |
已解析的货币代码(ISO 4217),如果有。 |
currencySymbol |
string |
货币符号标签(如果有)。 |
DocumentBarcode
条形码对象。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取条形码的信心。 |
kind |
条形码类型。 |
|
polygon |
number[] |
条形码的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。 |
span |
条形码在阅读顺序中连接内容的位置。 |
|
value |
string |
条形码值。 |
DocumentBarcodeKind
条形码类型。
名称 | 类型 | 说明 |
---|---|---|
Aztec |
string |
Aztec 代码,如 ISO/IEC 24778:2008 中所述。 |
Codabar |
string |
Codabar 条形码,如 ANSI/AIM BC3-1995 中定义。 |
Code128 |
string |
在 ISO/IEC 15417:2007 中定义的代码 128 条形码。 |
Code39 |
string |
代码 39 条形码,在 ISO/IEC 16388:2007 中定义。 |
Code93 |
string |
代码 93 条形码,如 ANSI/AIM BC5-1995 中定义。 |
DataBar |
string |
GS1 DataBar 条形码。 |
DataBarExpanded |
string |
GS1 DataBar 扩展条形码。 |
DataMatrix |
string |
ISO/IEC 16022:2006 中定义的数据矩阵代码。 |
EAN13 |
string |
GS1 13 位国际项目编号(欧洲项目编号)。 |
EAN8 |
string |
GS1 8 位国际项目编号(欧洲项目编号)。 |
ITF |
string |
交错 5 个条形码中的 2 个,如 ANSI/AIM BC2-1995 中定义。 |
MaxiCode |
string |
MaxiCode,在 ISO/IEC 16023:2000 中定义。 |
MicroQRCode |
string |
在 ISO/IEC 23941:2022 中定义的微 QR 码。 |
PDF417 |
string |
PDF417,在 ISO 15438 中定义。 |
QRCode |
string |
QR 码,如 ISO/IEC 18004:2015 中定义。 |
UPCA |
string |
GS1 12 位通用产品代码。 |
UPCE |
string |
GS1 6 位通用产品代码。 |
DocumentCaption
描述表格或图形的题注对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖标题的边界区域。 |
|
content |
string |
标题的内容。 |
elements |
string[] |
标题的子元素。 |
spans |
阅读顺序中标题的位置连接内容。 |
DocumentContentFormat
分析结果中内容的格式。
名称 | 类型 | 说明 |
---|---|---|
markdown |
string |
带有节标题、表格等的文档内容的 Markdown 表示形式。 |
text |
string |
不带任何格式的文档内容的纯文本表示形式。 |
DocumentField
一个对象,表示字段值的内容和位置。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖字段的边界区域。 |
|
confidence |
number |
正确提取字段的置信度。 |
content |
string |
字段内容。 |
spans |
读取顺序中字段的位置连接内容。 |
|
type |
字段值的数据类型。 |
|
valueAddress |
地址值。 |
|
valueArray |
字段值的数组。 |
|
valueBoolean |
boolean |
布尔值。 |
valueCountryRegion |
string |
3 字母国家/地区代码值 (ISO 3166-1 alpha-3)。 |
valueCurrency |
货币值。 |
|
valueDate |
string |
YYYYMM-DD 格式(ISO 8601)格式的日期值。 |
valueInteger |
integer |
整数值。 |
valueNumber |
number |
浮点值。 |
valueObject |
<string,
Document |
命名字段值的字典。 |
valuePhoneNumber |
string |
E.164 格式的电话号码值(例如 +19876543210)。 |
valueSelectionGroup |
string[] |
选择组值。 |
valueSelectionMark |
选择标记值。 |
|
valueSignature |
存在签名。 |
|
valueString |
string |
字符串值。 |
valueTime |
string |
hh:mm:ss 格式的时间值(ISO 8601)。 |
DocumentFieldType
字段值的语义数据类型。
名称 | 类型 | 说明 |
---|---|---|
address |
string |
已分析的地址。 |
array |
string |
相同类型的子字段列表。 |
boolean |
string |
布尔值,规范化为 true 或 false。 |
countryRegion |
string |
国家/地区,规范化为 ISO 3166-1 alpha-3 格式(例如美国)。 |
currency |
string |
具有可选货币符号和单位的货币金额。 |
date |
string |
日期,规范化为 ISO 8601 (YYYY-MM-DD) 格式。 |
integer |
string |
整数,规范化为 64 位有符号整数。 |
number |
string |
浮点数,规范化为双精度浮点。 |
object |
string |
可能不同类型的子字段的命名列表。 |
phoneNumber |
string |
电话号码,规范化为 E.164 (+{CountryCode}{SubscriberNumber}) 格式。 |
selectionGroup |
string |
所选字符串值的数组。 |
selectionMark |
string |
是否选择了字段? |
signature |
string |
签名是否存在? |
string |
string |
纯文本。 |
time |
string |
时间,规范化为 ISO 8601 (hh:mm:ss) 格式。 |
DocumentFigure
一个对象,表示文档中的图。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖该图的边界区域。 |
|
caption |
与该图关联的标题。 |
|
elements |
string[] |
图的子元素,不包括任何标题或脚注。 |
footnotes |
与该图关联的脚注列表。 |
|
id |
string |
图 ID。 |
spans |
读取顺序中图的位置连接内容。 |
DocumentFontStyle
字形。
名称 | 类型 | 说明 |
---|---|---|
italic |
string |
字符在视觉上倾斜到右侧。 |
normal |
string |
字符通常表示。 |
DocumentFontWeight
字体粗细。
名称 | 类型 | 说明 |
---|---|---|
bold |
string |
字符用更粗的笔划来表示。 |
normal |
string |
字符通常表示。 |
DocumentFootnote
描述表格或图形的脚注对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖脚注的边界区域。 |
|
content |
string |
脚注的内容。 |
elements |
string[] |
脚注的子元素。 |
spans |
阅读顺序中脚注的位置连接内容。 |
DocumentFormula
公式对象。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取公式的置信度。 |
kind |
公式类型。 |
|
polygon |
number[] |
公式的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。 |
span |
公式在阅读顺序串联内容中的位置。 |
|
value |
string |
描述公式的 LaTex 表达式。 |
DocumentFormulaKind
公式类型。
名称 | 类型 | 说明 |
---|---|---|
display |
string |
显示模式下占用整行的公式。 |
inline |
string |
嵌入段落内容的公式。 |
DocumentIntelligenceError
错误对象。
名称 | 类型 | 说明 |
---|---|---|
code |
string |
服务器定义的错误代码集之一。 |
details |
导致此报告错误的特定错误的详细信息数组。 |
|
innererror |
包含与当前对象有关错误的更具体信息的对象。 |
|
message |
string |
错误的人工可读表示形式。 |
target |
string |
错误的目标。 |
DocumentIntelligenceErrorResponse
错误响应对象。
名称 | 类型 | 说明 |
---|---|---|
error |
错误信息。 |
DocumentIntelligenceInnerError
包含有关错误的更具体信息的对象。
名称 | 类型 | 说明 |
---|---|---|
code |
string |
服务器定义的错误代码集之一。 |
innererror |
内部错误。 |
|
message |
string |
错误的人工可读表示形式。 |
DocumentIntelligenceOperationStatus
操作状态。
名称 | 类型 | 说明 |
---|---|---|
canceled |
string |
操作已被取消。 |
failed |
string |
操作失败。 |
notStarted |
string |
操作尚未启动。 |
running |
string |
操作正在进行中。 |
skipped |
string |
操作已被跳过。 |
succeeded |
string |
操作已成功。 |
DocumentIntelligenceWarning
错误对象。
名称 | 类型 | 说明 |
---|---|---|
code |
string |
服务器定义的警告代码集之一。 |
message |
string |
警告的可读表示形式。 |
target |
string |
错误的目标。 |
DocumentKeyValueElement
一个对象,表示键值对中的字段键或值。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖键值元素的边界区域。 |
|
content |
string |
键值元素的串联内容(按读取顺序)。 |
spans |
键值元素在读取顺序串联内容中的位置。 |
DocumentKeyValuePair
一个对象,表示具有不同字段标签(键)和字段值(可能为空)的窗体字段。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取键值对的置信度。 |
key |
键值对的字段标签。 |
|
value |
键值对的字段值。 |
DocumentLanguage
一个对象,表示给定文本范围的检测到的语言。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确标识语言的置信度。 |
locale |
string |
检测到的语言。 值可以是 ISO 639-1 语言代码(例如“en”、“fr”)或 BCP 47 语言标记(例如“zh-Hans”)。 |
spans |
语言所应用于的串联内容中文本元素的位置。 |
DocumentLine
内容行对象,由相邻的内容元素序列(如字词和选择标记)组成。
名称 | 类型 | 说明 |
---|---|---|
content |
string |
按阅读顺序连接包含元素的内容。 |
polygon |
number[] |
线条的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。 |
spans |
阅读顺序中行的位置连接内容。 |
DocumentPage
从输入页中提取的内容和布局元素。
名称 | 类型 | 说明 |
---|---|---|
angle |
number |
内容以顺时针方向的一般方向,以度为单位(-180,180)。 |
barcodes |
从页面中提取的条形码。 |
|
formulas |
从页面中提取的公式。 |
|
height |
number |
图像/PDF 的高度(以像素/英寸为单位)。 |
lines |
从页面中提取的行,可能同时包含文本元素和视觉元素。 |
|
pageNumber |
integer |
输入文档中基于 1 的页码。 |
selectionMarks |
从页面中提取的选择标记。 |
|
spans |
页面在阅读顺序中连接内容的位置。 |
|
unit |
宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。 |
|
width |
number |
图像/PDF 的宽度(以像素/英寸为单位)。 |
words |
从页面中提取的字词。 |
DocumentParagraph
包含连续线条的段落对象通常具有常见的对齐和间距。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖段落的边界区域。 |
|
content |
string |
按阅读顺序连接段落的内容。 |
role |
段落的语义角色。 |
|
spans |
阅读顺序中段落的位置连接内容。 |
DocumentSection
一个对象,表示文档中的节。
名称 | 类型 | 说明 |
---|---|---|
elements |
string[] |
节的子元素。 |
spans |
阅读顺序中分区的位置连接内容。 |
DocumentSelectionMark
表示复选框、单选按钮和其他指示所选内容的元素的选择标记对象。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取选择标记的置信度。 |
polygon |
number[] |
所选标记的边界多边形,其坐标相对于页面左上角指定。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。 |
span |
阅读顺序中所选内容的位置。 |
|
state |
选择标记的状态。 |
DocumentSelectionMarkState
选择标记的状态。
名称 | 类型 | 说明 |
---|---|---|
selected |
string |
所选内容标记处于选中状态,通常由选中标记内的复选标记或交叉 X 指示。 |
unselected |
string |
未选择选择标记。 |
DocumentSignatureType
存在签名。
名称 | 类型 | 说明 |
---|---|---|
signed |
string |
检测到签名。 |
unsigned |
string |
未检测到任何签名。 |
DocumentSpan
串联内容属性的连续区域,指定为偏移量和长度。
名称 | 类型 | 说明 |
---|---|---|
length |
integer |
范围所表示的内容中的字符数。 |
offset |
integer |
范围所表示的内容的从零开始的索引。 |
DocumentStyle
表示观察到的文本样式的对象。
名称 | 类型 | 说明 |
---|---|---|
backgroundColor |
string |
#rrggbb 十六进制格式的背景色。 |
color |
string |
#rrggbb 十六进制格式的前景色。 |
confidence |
number |
正确标识样式的置信度。 |
fontStyle |
字形。 |
|
fontWeight |
字体粗细。 |
|
isHandwritten |
boolean |
内容是否手写? |
similarFontFamily |
string |
从受支持的字体系列中直观上最相似的字体,回退字体遵循 CSS 约定(例如“Arial, sans-serif”)。 |
spans |
样式应用于的串联内容中文本元素的位置。 |
DocumentTable
一个表格对象,该对象由排列在矩形布局中的表格单元格组成。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖表的边界区域。 |
|
caption |
与表格关联的标题。 |
|
cells |
表格中包含的单元格。 |
|
columnCount |
integer |
表中的列数。 |
footnotes |
与表关联的脚注列表。 |
|
rowCount |
integer |
表中的行数。 |
spans |
读取顺序中表的位置连接内容。 |
DocumentTableCell
一个对象,表示表单元格的位置和内容。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
boundingRegions |
覆盖表单元格的边界区域。 |
||
columnIndex |
integer |
单元格的列索引。 |
|
columnSpan |
integer |
1 |
此单元格跨越的列数。 |
content |
string |
按阅读顺序连接表单元格的内容。 |
|
elements |
string[] |
表单元格的子元素。 |
|
kind | content |
表单元格类型。 |
|
rowIndex |
integer |
单元格的行索引。 |
|
rowSpan |
integer |
1 |
此单元格跨越的行数。 |
spans |
按阅读顺序串联内容的表单元格的位置。 |
DocumentTableCellKind
表单元格类型。
名称 | 类型 | 说明 |
---|---|---|
columnHeader |
string |
描述列的内容。 |
content |
string |
包含主要内容/数据。 |
description |
string |
描述表(部分)中的内容。 |
rowHeader |
string |
描述行的内容。 |
stubHead |
string |
描述行标题,通常位于表格的左上角。 |
DocumentWord
由连续字符序列组成的单词对象。 对于非空格分隔语言(如中文、日语和朝鲜语),每个字符都表示为自己的单词。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取单词的置信度。 |
content |
string |
单词的文本内容。 |
polygon |
number[] |
单词的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。 |
span |
阅读顺序中单词的位置连接内容。 |
LengthUnit
宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。
名称 | 类型 | 说明 |
---|---|---|
inch |
string |
PDF 文件的长度单位。 |
pixel |
string |
图像文件的长度单位。 |
ParagraphRole
段落的语义角色。
名称 | 类型 | 说明 |
---|---|---|
footnote |
string |
通常将备注放在页面上的主要内容之后。 |
formulaBlock |
string |
公式块,通常采用共享对齐方式。 |
pageFooter |
string |
页面下边缘附近的文本。 |
pageHeader |
string |
页面上边缘附近的文本。 |
pageNumber |
string |
页码。 |
sectionHeading |
string |
描述文档部分的子标题。 |
title |
string |
描述整个文档的顶级标题。 |
StringIndexType
用于计算字符串偏移量和长度的方法。
名称 | 类型 | 说明 |
---|---|---|
textElements |
string |
由 Unicode 8.0.0 定义的用户感知显示字符或 grapheme 群集。 |
unicodeCodePoint |
string |
由单个 unicode 代码点表示的字符单元。 由 Python 3 使用。 |
utf16CodeUnit |
string |
由 16 位 Unicode 代码单元表示的字符单元。 由 JavaScript、Java 和 .NET 使用。 |