共用方式為


文件智慧服務自訂模型

此內容適用於: v4.0 (GA) | 舊版: blue-checkmark勾選記號v3.1 (GA) blue-checkmarkv3.0 (GA)blue-checkmark v2.1 (GA)

::: moniker-end

此內容適用於: v3.1 (GA) | 最新版本:勾選記號purple-checkmarkv4.0 (GA) | 舊版:blue-checkmarkv3.0blue-checkmark v2.1

此內容適用於: v3.0 (GA) | 最新版本: 勾選記號purple-checkmark v4.0 (GA)purple-checkmark v3.1 | 舊版:blue-checkmarkv2.1

此內容適用於:v2.1最新版本: 勾選記號blue-checkmark v4.0 (GA) |

文件智慧服務使用進階機器學習技術來識別文件、偵測及擷取表格和文件中的資訊,並在結構化 JSON 輸出中傳回擷取的資料。 透過文件智慧服務,您可以使用文件分析模型、預先建置/預先定型,或已定型的獨立自訂模型。

自訂模型現在包含 自訂分類模型, 適用於您需要在叫用擷取模型之前識別檔類型的案例。 分類器模型可從 2023-07-31 (GA) API 開始使用。 分類模型可以與自訂擷取模型配對,以分析及擷取您企業專屬的表單和文件中的欄位。 您可以結合獨立自訂擷取模型來建立組成模型

自訂文件模型類型

自訂文件模型可以是兩種類型之一:自訂範本或自訂表單,以及自訂神經或自訂文件模型。 這兩個模型的標籤和定型程序都相同,但模型不同,如下所示:

自訂擷取模型

若要建立自訂擷取模型,您可以使用所要擷取的值來標記文件的資料集,並針對加上標籤的資料集定型模型。 您只需要五個相同表單或文件類型的範例,即可開始使用。

自訂神經模型

重要

檔智慧 v4.0 2024-11-30 (GA) API 支援自定義神經模型 重疊欄位簽章偵測數據表、數據列和儲存格層級信賴度。

自訂神經 (自訂文件) 模型會使用深度學習模型,以及在大型文件集合上定型的基礎模型。 當您使用已加上標籤的資料集來定型模型時,此模型接著會經過微調或調整為符合您的資料。 自訂神經模型支援從結構化、半結構化和非結構化文件中擷取重要資料欄位。 當您選擇這兩種模型類型時,請從神經網路開始,以判斷其是否符合您的功能需求。 若要深入瞭解自訂文件模型,請參閱神經模型

自訂範本模型

自訂範本或自訂表單模型依賴一致的視覺化範本來擷取標記的資料。 模型的正確性會受到文件視覺結構變異數的影響。 問卷或申請表等結構化表格是一致的視覺範本範例。

您的定型集會包含結構化文件,其中格式設定和版面配置是靜態的,且在文件實例之間都是不變的。 自訂範本模型支援索引鍵/值組、選取標記、資料表、簽章欄位和區域。 範本模型,可以在任何支援語言的文件上定型。 如需詳細資訊,請參閱自訂範本模型

如果您的文件和擷取案例的語言支援自訂類神經網路模型,建議您使用自訂類神經網路模型,以取得更高的精確度。

提示

若要確認您的定型文件呈現一致的視覺化範本,請將所有使用者輸入的資料從集合中的每個表單中移除。 如果空白表單在外觀上相同,則其代表一致的視覺化範本。

如需詳細資訊,請參閱解譯並改善自訂模型的正確性和信賴度

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 影像:
    jpeg/jpgpngbmptiffheif
    Microsoft Office:
    Word (docx)、Excel (xlsx)、PowerPoint (pptx)
    參閱
    版面配置
    一般文件
    預建
    自訂擷取
    自訂分類

    ✱ Microsoft Office 檔案目前不支援其他模型或版本。

  • 若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 分析文件的檔案大小適用於 500 MB 付費 (S0) 層和 4 MB 免費 (F0) 層。

  • 影像尺寸必須介於 50 x 50 像素和 10,000 像素 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此維度對應至以每英吋點為單位的大約 8點文字 150

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

  • 針對自定義擷取模型定型,定型數據的總大小適用於 50 MB 範本模型和 1 GB 類神經模型。

  • 針對自訂分類模型定型,定型資料的大小總計為 1 GB (上限為 10,000 頁)。

最佳訓練資料

訓練輸入資料是任何機器學習模型的基礎。 這會決定模型的品質、正確性和效能。 因此,為文件智慧服務專案建立最佳訓練輸入資料至關重要。 使用文件智慧服務自訂模型時,您需要提供自己的訓練資料。 以下是一些有助於有效訓練模型的秘訣:

  • 盡可能使用以文字為基礎的 PDF,而不是以影像為基礎的 PDF。 若要識別以影像*為基礎的 PDF,其中一種方式是嘗試選取文件中的特定文字。 如果您只能選取文字的整個影像,則該文件就是以影像為基礎,而不是以文字為基礎。

  • 使用每個格式的子資料夾來組織訓練文件 (JPEG/JPG、PNG、BMP、PDF 或 TIFF)。

  • 使用已完成所有可用欄位的表單。

  • 使用在每個欄位中具有不同值的表單。

  • 如果您的影像畫質很低,請使用較大的資料集 (超過五個訓練文件)。

  • 判斷您需要使用單一模型或組合單一模型的多個模型。

  • 考慮將資料集分割成資料夾,其中每個資料夾都是唯一的範本。 請將每個資料夾訓練為一個模型,並將產生的模型組合為單一端點。 當您使用單一模型分析不同格式時,模型精確度可能會降低。

  • 如果您的表單具有格式和分頁符號的變化,請考慮分割資料集以訓練多個模型。 自訂表單依賴一致的視覺範本。

  • 考量格式、文件類型和結構,確定您有平衡的資料集。

建置模式

build custom model 作業會新增對範本和神經自訂模型的支援。 舊版 REST API 和用戶端程式庫僅支援單一建置模式 (現在稱為範本模式)。

  • 範本模型只接受具有相同基本頁面結構的文件—統一的視覺外觀—或文件內元素的相同相對位置。

  • 神經模型支援具有相同資訊但不同頁面結構的文件。 這些文件的範例包括美國 W2 表單,這些表單會共用相同的資訊,但不同的公司在外觀上有所不同。

下表提供 GitHub 上建置模式程式設計語言 SDK 參考和程式碼範例的連結:

程式設計語言 SDK 參考 程式碼範例
C#/.NET DocumentBuildMode Struct Sample_BuildCustomModelAsync
Java DocumentBuildMode 類別 BuildDocumentModel
JavaScript DocumentBuildMode type buildModel.js
Python DocumentBuildMode 列舉

比較模型功能

下表比較自訂範本和自訂神經功能:

功能 自訂範本 (表單) 自訂神經 (文件)
文件結構 範本、表單和結構化 結構化、半結構化和非結構化
定型時間 1 至 5 分鐘 20 分鐘到 1 小時
資料擷取 索引鍵/值組、資料表、選取標記、座標和簽章 索引鍵/值組、選取標記和資料表
重疊欄位 不支援 支援
文件變化 每個變化都需要模型 針對所有變化使用單一模型
語言支援 語言支援:自訂範本 語言支援:自訂神經

自訂分類模型

文件分類是文件智慧服務使用 2023-07-31 (v3.1 GA) API 支援的新案例。 文件分類器 API 支援分類和分割案例。 定型分類模型,以識別應用程式支援的不同文件類型。 分類模型的輸入檔案可以包含多個文件,並將每個文件分類在相關聯的頁面範圍內。 若要深入了解,請參閱自訂分類模型。

注意

v4.0 2024-11-30 (GA) 分類模型支援 Office 檔類型進行分類。 此 API 版本也會針對分類模型引進累加式定型

自訂模型工具

文件智慧服務 v3.1 和更新版本模型支援下列工具、應用程式、程式和程式庫:

功能 資源 Model ID
自訂模型 Document Intelligence Studio
REST API
C# SDK
Python SDK
custom-model-id

自訂模型生命週期

自訂模型的生命週期取決於用來訓練模型的 API 版本。 如果 API 版本是正式發行 (GA) 版本,則自訂模型具有與該版本相同的生命週期。 當 API 版本遭取代時,自訂模型便無法供推斷使用。 如果 API 版本是預覽版本,則自訂模型具有與 API 預覽版本相同的生命週期。

文件智慧服務 v2.1 支援下列工具、應用程式和程式庫:

注意

自訂模型類型自訂神經自訂範本可供文件智慧服務 3.1 版和 v3.0 版 API 使用。

功能 資源
自訂模型 文件智慧服務標籤工具
REST API
用戶端程式庫 SDK
文件智慧服務 Docker 容器

組建自訂模型

使用自訂模型,從特定或唯一的文件擷取資料。 您需要下列資源:

範例標記工具

提示

  • 如需增強體驗和進階模型品質,請嘗試文件智慧服務 v3.0 工作室
  • v3.0 工作室支援使用 v2.1 標記資料定型的任何模型。
  • 如需從 v2.1 移轉到 v3.0 的詳細資訊,您可以參閱 API 移轉指南。
  • 請參閱我們的 REST API C#、Java、JavaScriptPython SDK 。。/quickstarts 以開始使用 v3.0 版本。
  • 文件智慧服務樣本標記工具是一種開放原始碼工具,可讓您測試文件智慧服務和光學字元辨識 (OCR) 功能的最新功能。

  • 請嘗試樣本標記工具快速入門,以開始建置和使用自訂模型。

Document Intelligence Studio

注意

Document Intelligence Studio 有 v3.1 和 v3.0 API 可供使用。

  1. 在 [Document Intelligence Studio] 首頁上,選取 [自訂擷取模型]

  2. 在 [我的專案] 下,選取 [建立專案]

  3. 完成專案詳細資料欄位。

  4. 儲存體帳戶Blob 容器新增至連線定型資料來源,以設定服務資源。

  5. 檢閱並建立專案。

  6. 新增樣本文件來標記、建置及測試自訂模型。

如需建立第一個自訂擷取模型的詳細逐步解說,請參閱如何建立自訂擷取模型

自訂模型擷取摘要

下表比較支援的資料擷取區域:

模型 表單欄位 選取標記 結構化欄位 (資料表) 簽章 區域標籤 重疊欄位
自訂範本 不適用
自訂神經 *

資料表符號
✔—已支援
**n/a—目前無法使用;
*-根據模型有不同的行為。 使用範本模型時,會在定型時產生綜合資料。 使用類神經網路時,會選取區域中已辨識的結束文字。

提示

若要在兩個模型類型之間進行選擇,請從自定義神經模型開始,如果它符合您的功能需求。 若要深入瞭解自訂神經模型,請參閱自訂神經

自訂模型開發選項

下表描述相關聯工具和用戶端程式庫可用的功能。 最佳做法是,請確定您使用此處所列的相容工具。

Document type REST API SDK 標記和測試模型
自訂範本 v 4.0 v3.1 v3.0 文件智慧 3.1 文件智慧 SDK Document Intelligence Studio
自訂神經網路 v4.0 v3.1 v3.0 文件智慧 3.1 文件智慧 SDK Document Intelligence Studio
自訂表單 v2.1 文件智慧服務 2.1 GA API 文件智慧 SDK 範例標籤工具

注意

使用 3.0 API 定型的自定義範本模型,對 2.1 API 有一些改善,其衍生自 OCR 引擎的改進。 使用 2.1 API 定型自訂範本模型的資料集仍可用來使用 3.0 API 來定型新模型。

  • 每個檔應提供一張清楚的相片或高質量掃描,以獲得最佳結果。

  • 支援的檔案格式為 JPEG/JPG、PNG、BMP、TIFF 和 PDF(文字內嵌或掃描)。 建議使用文字內嵌的 PDF,以消除擷取字元和位置時可能發生的錯誤。

  • 可以處理最多 2,000 頁的 PDF 和 TIFF 檔案。 使用免費層訂用帳戶的情況下,只會處理前兩頁。

  • 付費 (S0) 層的檔案大小必須小於 500 MB,免費 (F0) 層必須小於 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • PDF 維度最大到 17 x 17 英吋,對應於標準 (美國 8.5 x 14) 或 A3 紙張尺寸或更小。

  • 定型資料的大小總計為 500 個頁面以下。

  • 密碼鎖定的 PDF 必須先移除密碼鎖定,才能提交。

    提示

    定型資料:

    • 可以的話,請使用文字型 PDF 文件,而不是影像型文件。 掃描的 PDF 將視為影像處理。
    • 每個檔只提供表單一實例。
    • 針對填入表單,請使用欄位都已填畢的範例。
    • 使用在每個欄位中具有不同值的表單。
    • 如果您的表單影像品質較低,請使用較大的資料集。 例如,使用 10 到 15 個影像。

支援的語言和地區設定

如需支援語言的完整清單,請參閱我們的語言支援—自訂模型頁面。

下一步