使用一般文件、讀取和版面配置模型

如果您要從具有無法預期結構的文件擷取文字、語言和其他資訊，可以使用讀取、一般文件或版面配置模型。

在您的民意調查公司中，客戶和合作夥伴經常會傳送規格、標書、工作聲明，以及其他具有無法預測結構的文件。您想要知道 Azure AI 文件智慧服務是否可以從這些文件分析及擷取值。

在這裡，您將了解 Microsoft 為一般文件提供的預建模型。

使用讀取模型

Azure AI 文件智慧服務讀取模型會從文件和影像中擷取印刷和手寫的文字，它用來提供所有其他預建模型中的文字擷取。

讀取模型也可以偵測寫入的文字行語言，並將其分類為手寫或印刷文字。

注意

讀取模型支援比手寫文字更多的印刷文字語言。請檢查文件以查看目前支援的語言清單。

對於多頁 PDF 或 TIFF 檔案，您可以在要求中使用 pages 參數來修正要進行分析的頁面範圍。

如果您想要從沒有固定或可預測結構的文件擷取字組和字行，則適合使用讀取模型。

一般文件模型可藉由新增機碼值組、實體、選取標記和資料表的偵測，來擴充讀取模型的功能。模型可以從結構化、半結構化和非結構化文件擷取這些值。

一般文件模型是唯一支援實體擷取的預建模型，可用來辨識人員、組織和日期之類的實體，並針對整份文件執行，而不只針對機碼值組執行。此方法可確保當結構的複雜性造成模型無法擷取機碼值組時，可以改為擷取實體。但請記住，有時單一文字片段可能會同時傳回機碼值組和實體。

您可以偵測的實體類型包括：

除了擷取文字外，版面配置模型還會從輸入影像或 PDF 檔案傳回選取標記和資料表。當您需要有關文件結構的完整資訊時，這是一個理想的模型。

當您將文件數位化時，可能會呈現奇怪的角度。資料表可以含有複雜的結構 (不一定有標題)、跨越資料行或資料列的儲存格，以及不完整的資料行或資料列。版面配置模型可以處理所有這些困難，以擷取完整的文件結構。

例如，每個資料表儲存格可以透過以下方式擷取：

擷取的選取標記含有其周框方塊、信賴度指標，以及是否已選取。