你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

文档布局技能

项目
02/13/2025

注意

此功能目前处于公开预览状态。此预览版没有附带服务级别协议，建议不要用于生产工作负载。某些功能可能不受支持或者受限。有关详细信息，请参阅 Microsoft Azure 预览版补充使用条款。

文档布局技能分析文档以提取感兴趣的区域及其相互关系，以使用 Markdown 格式生成文档的语法表示形式。此技能使用 Azure AI 文档智能中提供的文档智能布局模型。

本文是文档布局技能的参考文档。有关使用信息，请参阅结构感知分块和向量化。

文档布局技能调用文档智能公共预览版 2024-07-31-preview。它目前仅在以下 Azure 区域中可用：

美国东部
美国西部 2
“西欧”
美国中北部

支持的文件格式包括：

PDF。
.JPEG
.JPG
.PNG
.BMP
.TIFF
.DOCX
.XLSX
.PPTX
HTML。

注意

此技能绑定到 Azure AI 服务，并且对于每天每个索引器超过 20 个文档的事务，需要使用可计费资源。内置技能执行按现有 Azure AI 服务即用即付价格计费。

@odata.type

Microsoft.Skills.Util.DocumentIntelligenceLayoutSkill

数据限制

对于 PDF 和 TIFF，最多可处理 2,000 页（对于免费层订阅，仅处理前两页）。
即使分析文档的文件大小是 500 MB（对于 Azure AI 文档智能付费层）层，对于 Azure AI 文档智能免费层（F0）层为 4 MB，索引编制仍受搜索服务层的索引器限制的约束。
图像尺寸必须介于 50 x 50 像素或 10,000 像素 x 10,000 像素之间。
如果 PDF 已锁定密码，请在运行索引器之前删除该锁。

支持的语言

有关打印文本，请参阅 Azure AI 文档智能布局模型支持的语言。

限制

在公共预览版期间，此技能具有以下限制：

技能无法提取嵌入在文档中的图像。
生成的输出中不包含页码。
该技能不适用于在 AI 文档智能布局模型中需要 5 分钟以上的处理的大型文档。技能将超时，但如果将其附加到技能集，出于计费目的，费用仍适用于 AI 服务多服务资源。确保文档经过优化，以保持在处理限制范围内，以避免不必要的成本。

技能参数

参数区分大小写。

参数名称	允许的值	说明
`outputMode`	`oneToMany`	控制技能生成的输出的基数。
`markdownHeaderDepth`	`h1`、、`h2h3`、`h4`、`h5`、`h6(default)`	此参数描述应考虑的最深层嵌套级别。例如，如果 markdownHeaderDepth 指示为“h3”，则任何大于 h3（即 #### 和更深）的 markdown 节都被视为需要添加到其父级所处级别的“内容”。

技能输入

输入名称	说明
`file_data`	应从其中提取内容的文件。

“file_data”必须是按如下所示定义的对象：

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

或者，可将其定义为：

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

可以通过以下方法之一生成文件引用对象：

将 allowSkillsetToReadFileData 索引器定义上的参数设置为 true。此设置创建一个路径，该路径 /document/file_data 表示从 Blob 数据源下载的原始文件数据。此参数仅适用于 Azure Blob 存储中的文件。
具有返回定义、或url和的 sastokenJSON 对象的$typedata自定义技能。参数 $type 必须设置为 file，并且 data 必须是文件内容的 base 64 编码字节数组。该 url 参数必须是一个有效的 URL，可访问该位置下载文件。

技能输出

输出名称	说明
`markdown_document`	“节”对象的集合，这些对象表示 Markdown 文档中每个单独的节。

示例定义

{
  "skills": [
    {
      "description": "Analyze a document",
      "@odata.type": "#Microsoft.Skills.Util.DocumentIntelligenceLayoutSkill",
      "context": "/document",
      "outputMode": "oneToMany", 
      "markdownHeaderDepth": "h3", 
      "inputs": [
        {
          "name": "file_data",
          "source": "/document/file_data"
        }
      ],
      "outputs": [
        {
          "name": "markdown_document", 
          "targetName": "markdown_document" 
        }
      ]
    }
  ]
}

示例输出

{
  "markdown_document": [
    { 
      "content": "Hi this is Jim \r\nHi this is Joe", 
      "sections": { 
        "h1": "Foo", 
        "h2": "Bar", 
        "h3": "" 
      },
      "ordinal_position": 0
    }, 
    { 
      "content": "Hi this is Lance",
      "sections": { 
         "h1": "Foo", 
         "h2": "Bar", 
         "h3": "Boo" 
      },
      "ordinal_position": 1,
    } 
  ] 
}

控制“节”字典中的键数的值 markdownHeaderDepth 。在示例技能定义中，由于 markdownHeaderDepth “h3”为“h3”，“节”字典中有三个键：h1、h2、h3。

通过