你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
文档布局技能
注意
此功能目前处于公开预览状态。 此预览版没有附带服务级别协议,建议不要用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
文档布局技能分析文档以提取感兴趣的区域及其相互关系,以使用 Markdown 格式生成文档的语法表示形式。 此技能使用 Azure AI 文档智能中提供的文档智能布局模型。
本文是文档布局技能的参考文档。 有关使用信息,请参阅 结构感知分块和向量化。
文档布局技能调用文档智能公共预览版 2024-07-31-preview。 它目前仅在以下 Azure 区域中可用:
- 美国东部
- 美国西部 2
- “西欧”
- 美国中北部
支持的文件格式包括:
- PDF。
- .JPEG
- .JPG
- .PNG
- .BMP
- .TIFF
- .DOCX
- .XLSX
- .PPTX
- HTML。
注意
此技能绑定到 Azure AI 服务,并且对于每天每个索引器超过 20 个文档的事务,需要使用可计费资源。 内置技能执行按现有 Azure AI 服务即用即付价格计费。
@odata.type
Microsoft.Skills.Util.DocumentIntelligenceLayoutSkill
数据限制
- 对于 PDF 和 TIFF,最多可处理 2,000 页(对于免费层订阅,仅处理前两页)。
- 即使分析文档的文件大小是 500 MB(对于 Azure AI 文档智能付费层)层,对于 Azure AI 文档智能免费层(F0)层为 4 MB,索引编制仍受搜索服务层的索引器限制的约束。
- 图像尺寸必须介于 50 x 50 像素或 10,000 像素 x 10,000 像素之间。
- 如果 PDF 已锁定密码,请在运行索引器之前删除该锁。
支持的语言
有关打印文本,请参阅 Azure AI 文档智能布局模型支持的语言。
限制
在公共预览版期间,此技能具有以下限制:
- 技能无法提取嵌入在文档中的图像。
- 生成的输出中不包含页码。
- 该技能不适用于在 AI 文档智能布局模型中需要 5 分钟以上的处理的大型文档。 技能将超时,但如果将其附加到技能集,出于计费目的,费用仍适用于 AI 服务多服务资源。 确保文档经过优化,以保持在处理限制范围内,以避免不必要的成本。
技能参数
参数区分大小写。
参数名称 | 允许的值 | 说明 |
---|---|---|
outputMode |
oneToMany |
控制技能生成的输出的基数。 |
markdownHeaderDepth |
h1 、、h2 h3 、h4 、h5 、h6(default) |
此参数描述应考虑的最深层嵌套级别。 例如,如果 markdownHeaderDepth 指示为“h3”,则任何大于 h3(即 #### 和更深)的 markdown 节都被视为需要添加到其父级所处级别的“内容”。 |
技能输入
输入名称 | 说明 |
---|---|
file_data |
应从其中提取内容的文件。 |
“file_data”必须是按如下所示定义的对象:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
或者,可将其定义为:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
可以通过以下方法之一生成文件引用对象:
将
allowSkillsetToReadFileData
索引器定义上的参数设置为 true。 此设置创建一个路径,该路径/document/file_data
表示从 Blob 数据源下载的原始文件数据。 此参数仅适用于 Azure Blob 存储中的文件。具有返回定义、或
url
和的sastoken
JSON 对象的$type
data
自定义技能。 参数$type
必须设置为file
,并且data
必须是文件内容的 base 64 编码字节数组。 该url
参数必须是一个有效的 URL,可访问该位置下载文件。
技能输出
输出名称 | 说明 |
---|---|
markdown_document |
“节”对象的集合,这些对象表示 Markdown 文档中每个单独的节。 |
示例定义
{
"skills": [
{
"description": "Analyze a document",
"@odata.type": "#Microsoft.Skills.Util.DocumentLayoutAnalysisSkill",
"context": "/document",
"outputMode": "oneToMany",
"markdownHeaderDepth": "h3",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "markdown_document",
"targetName": "markdown_document"
}
]
}
]
}
示例输出
{
"markdown_document": [
{
"content": "Hi this is Jim \r\nHi this is Joe",
"sections": {
"h1": "Foo",
"h2": "Bar",
"h3": ""
},
"ordinal_position": 0
},
{
"content": "Hi this is Lance",
"sections": {
"h1": "Foo",
"h2": "Bar",
"h3": "Boo"
},
"ordinal_position": 1,
}
]
}
控制“节”字典中的键数的值 markdownHeaderDepth
。 在示例技能定义中,由于 markdownHeaderDepth
“h3”为“h3”,“节”字典中有三个键:h1、h2、h3。