文件欄位擷取 - 自訂生成式 AI 模型
重要
- 文件智慧服務公開預覽版本可讓您搶先存取正在積極開發的功能。 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- 文件智慧服務用戶端程式庫的公開預覽版本預設為 REST API 版本 2024-07-31-preview,且目前僅於下列 Azure 區域提供。
- 美國東部
- 美國中北部
文件欄位擷取 (自訂生成式 AI) 模型會利用生成式 AI,從各種視覺範本的文件擷取使用者指定的欄位。 自訂生成式 AI 模型結合了文件瞭解與大型語言模型 (LLM) 以及自訂擷取功能中的嚴謹和結構描述,在幾分鐘內便能建立具有高正確性的模型。 使用此生成式模型類型,您可以從單一文件開始,並以最少的標記進行結構描述新增和模型建立程序。 自訂生成式模型可讓開發人員和企業輕鬆地以更高的正確性和速度並針對任何類型文件,將資料擷取工作流程自動化。 自訂生成式 AI 模型擅長於從沒有標記範例的文件擷取簡單欄位。 不過,如果提供一些標記的範例,可改善擷取複雜欄位和使用者定義欄位 (例如資料表) 的正確性。 您可以使用 REST API 或用戶端程式庫來提交文件,以使用模型建置進行分析,並使用自訂生成式程序。
自訂生成式 AI 模型的優點
自動標記。 利用大型語言模型 (LLM) 並擷取各種文件類型和視覺範本的使用者指定欄位。
改善一般化。 以更高正確性從非結構化資料和各種文件範本擷取資料。
建立基礎結果。 將文件中擷取的資料當地語系化。 自訂生成式模型會在適用的情況下將結果置入,確保從內容產生回應,並啟用人工檢閱工作流程。
信賴度分數。 針對每個擷取的欄位使用信賴度分數,以便篩選高品質的擷取資料,透過文件處理直接最大化,並將人力檢閱成本降至最低。
常見使用案例
合約生命週期管理。 建置生成式模型,並從各種合約類型擷取欄位、子句和義務。
貸款和抵押貸款申請。 貸款和抵押貸款申請程序的自動化可讓銀行、放款人和政府實體快速處理貸款和抵押貸款申請。
財經服務。 使用自訂生成式 AI 模型,分析複雜的文件,例如財經報告和資產管理報告。
開支管理。 必須剖析來自各種零售商和企業的收據和發票,以驗證費用。 自訂生成式 AI 模型可以跨不同格式和具有不同範本的文件擷取費用。
管理定型資料集
使用我們的其他自訂模型,您必須維護資料集、新增範例,並定型模型以改善正確性。 使用自訂生成式 AI 模型,標記的文件會經過轉換、加密並儲存為模型的一部分。 此程序可確保模型可以持續使用標記的樣本來改善擷取品質。 如同其他自訂模型,模型會儲存在 Microsoft 儲存體中,而且您可以隨時加以刪除。
文件智慧服務確實會管理您的資料集,但您的文件會經過加密儲存,並僅用來改善特定模型的模型結果。 服務管理的金鑰可用來加密您的資料,或者可以選擇性地使用客戶自控金鑰加密。 資料集的管理與生命週期變更僅適用自訂生成式模型。
模型功能
欄位擷取自訂生成式模型目前支援具有 2024-07-31-preview
和下列欄位的動態資料表:
表單欄位 | 選取標記 | 表格式欄位 | 簽章 | 區域標籤 | 重疊欄位 |
---|---|---|---|---|---|
支援 | 支援 | 支援 | 不支援 | 不支援 | 支援 |
建置模式
build custom model
作業支援自訂範本、神經和生成式模型,請參閱自訂模型建置模式。 以下是模型類型的差異:
自訂生成式 AI 模型可以處理具有各種格式、各種範本和非結構化資料的複雜文件。
自訂神經模型支援複雜的文件處理,也支援結構化和半結構化文件頁面的更多變化。
自訂範本模型依賴於一致的視覺範本,例如問卷調查或申請單,以擷取標記的資料。
語言和地區設定支援
欄位擷取自訂生成式模型 2024-07-31-preview
版本支援 en-us 地區設定。 如需語言支援的詳細資訊,請參閱語言支援 - 自訂模型。
區域支援
欄位擷取自訂生成式模型 2024-07-31-preview
版本僅於「美國東部」與 North Central US
提供。
輸入需求
支援的檔案格式:
模型 PDF 影像: JPEG/JPG
、PNG
、BMP
、TIFF
、HEIF
Microsoft Office:
Word (DOCX
)、Excel (XLSX
)、PowerPoint (PPTX
)、HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview) 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
付費 (S0) 層分析文件的檔案大小為 500 MB,免費 (F0) 層則為
4
MB。影像維度必須介於 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此維度在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
對於自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為
1
GB。針對自訂分類模型定型,定型資料的大小總計為
1
GB (上限為 10,000 頁)。 對於 2024-07-31-preview 和更新版本,定型資料的大小總計為2
GB,最多 10,000 頁。
最佳作法
代表性資料。 使用以實際資料分佈為目標的代表文件,並定型高品質的自訂生成式模型。 例如,如果目標文件包含部分填寫的表格式欄位,請新增包含部分填寫資料表的定型文件。 或者,如果欄位命名為 date,此欄位的值應該是日期,因為隨機字串可能會影響模型效能。
欄位命名。 選擇代表欄位值的精確欄位名稱。 例如,針對包含交易日期的欄位值,請考慮將欄位命名為 TransactionDate,而不是
Date1
。欄位描述。 在描述中提供更多內容資訊,以協助釐清需要擷取的欄位。 範例包括文件中的位置、可以與其相關聯的潛在欄位標籤,以及區分其他可能模棱兩可的字詞的方式。
變化。 自訂生成式模型可以跨相同文件類型的不同文件範本一般化。 最佳做法是針對文件類型的所有變化建立單一模型。 若要增強模型在檔產生或處理中的精確度和一致性,請包含每種類型的視覺範本,特別是需要特定格式和/或結構化元素的範本。
服務指引
自訂生成式預覽模型目前不支援固定資料表和簽章擷取。
相同文件的推斷可能會在呼叫之間產生稍微不同的結果,而且是目前
GPT
模型的已知限制。每個欄位的信賴度分數可能有所不同。 建議您使用代表性資料進行測試,以為您的案例建立信賴度閾值。
建立基礎,特別是針對表格式欄位,具有挑戰性,在某些情況下可能並不完美。
大型文件的延遲很高,且預覽版有已知的限制。
撰寫的模型不支援自訂生成式擷取。
Training a model
2024-07-31-preview
版本和更新版本模型提供自訂生成式模型。
要定型模型的 build operation
支援 buildMode
屬性,若要將自訂生成式模型定型,請將 buildMode
設定為 generative
。
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "generative",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}