SharePoint 中文件處理的說明類型

發行項
10/16/2024

^{適用於： ✓ 非結構化文件處理}

說明可用來協助定義您想要在 Microsoft Syntex 中非結構化文件處理模型中標記和擷取的資訊。建立說明時，您必須選取說明類型。本文可協助您了解不同的說明類型及其使用方式。

[建立說明] 窗格的螢幕擷取畫面顯示出三種說明類型。

以下為可用的說明類型：

片語清單：您可以在要摘錄的文件或資訊中使用的單字、片語、數字或其他字元的清單。例如，文字字串[轉診醫生]位於所有您要識別的「醫學轉診」文件中。或者來自您要識別的所有「醫學轉診」文件中，轉診醫生的電話號碼。
規則運算式：使用模式比對的標記法來尋找特定字元模式。例如，您可以使用規則運算式來尋找一組文件中的 電子郵件地址 模式的所有實例。
鄰近: 描述彼此之間的說明有多接近。例如， 街道編號 片語清單會在 街道名稱 片語清單之前， (您稍後會在本文中瞭解令牌) 。使用鄰近類型時，要求在您的模型中至少有兩個說明，否則將停用該選項。

片語清單

片語清單說明類型通常是用來透過您的模型來識別和分類文件。如[轉診醫生]標籤範例中所述，它是在您要識別的文件中一致的單字、片語、數字或字元的字串。

雖然這並非一項要求，但如果您要擷取的片語位於您文件中的一致位置，則使用您的說明可以更成功。例如，[轉診醫生]標籤可能會一致地位於文件的第一個段落。您也可以使用 [設定片語在文件中出現的位置] 的進階設定來選取片語所在的特定區域，尤其是當片語可能出現在文件中多個位置時。

如果識別標籤時要求區分大小寫，使用片語清單類型可讓您在說明中加以指定，方法是選取 [僅完全符合大寫] 核取方塊。

區分大小寫。

片語類型在建立說明時會特別有用，該說明可以識別和摘錄不同格式的資訊，例如日期、電話號碼和信用卡號。例如，日期可以以許多不同的格式顯示 (1/1/2020、1-1-2020、01/01/20、01/01/2020 或 Jan 1,2020)。定義片語清單可讓您的說明更有效率，方法是從您想要識別及摘錄的資料中，擷取任何可能的變化。

針對[電話號碼]範例，則會從模型識別的所有「醫學轉診」文件中，摘錄每位轉診醫生的電話號碼。建立說明時，輸入電話號碼可能會在文件中顯示的不同格式，以便您擷取可能的變化。

電話號碼片語模式。

在這個範例中，請在 [進階設定] 選取 [從 0 至 9 的任何數字] 核取方塊，以將片語清單中使用的每個「0」值，識別為 0 到 9 之間的任何數字。

從 0 至 9 的任何數字。

同樣地，如果您建立包含文字字元的片語清單，請選取[從 a 至 z 的任何字母] 核取方塊，以將片語清單中使用的每個「a」字元，識別為「a」到「z」的任何字元。

例如，如果您建立日期片語清單，而您想要確認可辨識日期格式 Jan 1, 2020，您必須：

將 aaa 0, 0000 和 aaa 00, 0000 新增至您的片語清單。
確認您也已選取 [從 a-z 的任何字母]。

從 a-z 的任何字母。

如果您在片語清單中有大小寫需求，則可以選取 [僅完全符合大寫] 核取方塊。針對日期範例，如果您需要月份的第一個字母為大寫，您必須：

將 Aaa 0, 0000 和 Aaa 00, 0000 新增至您的片語清單。
確認也選取 [僅完全符合大寫]。

僅完全符合大寫。

注意事項

不要手動建立片語清單說明，而是使用說明文件庫來使用針對常見片語清單的片語清單範本，例如日期、電話號碼或信用卡號碼。

規則運算式

規則運算式說明類型可讓您建立模式，協助尋找及識別文件中特定的文字字串。您可以使用規則運算式，快速剖析大量的文字，以達成下列目標：

尋找特定字元模式。
驗證文字以確保其符合預先定義的模式 (例如電子郵件地址)。
解壓縮、編輯、取代或刪除文字子字串。

規則運算式類型在建立說明時會特別有用，該說明可以識別和摘錄類似格式的資訊，例如電子郵件地址、銀行帳戶號碼，或 URL。例如，電子郵件位址，例如 megan@contoso.com，會以特定模式顯示 (“megan” 是第一個部分，而 “com” 是) 的最後一個部分。

電子郵件地址的規則運算式是：[A-Za-z0-9._%-]+@[A-Za-z0-9.-]+.[A-Za-z]{2,6}。

此運算式包含五個部分，順序為：

任何下列字元數:

a. 從 a 到 z 的字母

b. 從 0-9 的數字

c. 句點、底線、百分比或虛線
@ 符號
任何與電子郵件地址的第一個部分相同的字元數
句點
兩到六個字母

若要新增規則運算式說明類型：

從 [建立說明] 窗格的 [說明類型]下方，選取 [規則運算式]。
您可以在 [規則運算式] 文字方塊中輸入解釋，或者選取 [從範本中新增規則運算式]。

當您使用範本新增規則運算式時，它會自動將名稱和規則運算式新增到文字方塊。例如，如果您選擇 Email 位址範本，則會填入 [建立說明] 面板。

限制

下表顯示目前無法在正則表示式模式中使用的內嵌字元選項。

選項	狀態	目前功能
區分大小寫	目前不支援。	執行的所有符合項目不區分大小寫。
線條錨點	目前不支援。	無法在必須相符的字串中指定特定位置。

鄰近

鄰近說明類型可協助您的模型識別資料，方法是透過定義另一個資料片段與其相似程度。例如，在您的模型中，您定義了兩個說明，可標記客戶的[街道地址號碼]和[電話號碼]。

請注意，客戶的電話號碼永遠都出現在街道地址的前面。

Alex Wilburn
555-555-5555
One Microsoft Way
Redmond, WA 98034

使用鄰近說明來定義電話號碼說明的距離，以便更好地識別文件中的街道地址號碼。

鄰近說明。

注意事項

正則表達式目前無法搭配鄰近說明類型使用。

什麼是權杖？

若要使用鄰近說明類型，您必須瞭解權杖是什麼。權杖的編號是鄰近說明測量一個說明與另一個說明之間距離的方式。權杖是字母和數字的連續範圍 (不含空格或標點符號)。

下表顯示如何判斷片語中權杖數目的範例。

片語	權杖數目	說明
`Dog`	1	沒有標點符號或空格的單字。
`RMT33W`	1	記錄定位器號碼。其中可能含有數字和字母，但沒有標點符號。
`425-555-5555`	5	電話號碼。每個標點符號都是單一權杖，因此 `425-555-5555` 會是 5 個權杖： `425` `-` `555` `-` `5555`
`https://luis.ai`	7	`https` `:` `/` `/` `luis` `.` `ai`

設定鄰近說明類型

針對此範例，請設定鄰近設定，以定義來自[街道地址號碼]說明的[電話號碼]說明之權杖數目的範圍。請注意，最小範圍為「0」，因為電話號碼和街道地址號碼之間沒有權杖。

但範例文件中的部分電話號碼會附加 (行動裝置)。

Nestor Wilke
111-111-1111 (行動電話)
One Microsoft Way
Redmond, WA 98034

(行動裝置) 中有三個權杖：

片語	權杖計數
(	1
行動電話	2
)	3

將鄰近設定設為範圍 0 到 3。

鄰近範例。

設定文件中出現片語的位置

當您建立說明時，系統預設在整份文件中搜尋您要摘錄的片語。不過，您可以使用 [這些片語出現的位置] 進階設定，協助隔離文件中片語出現的特定位置。當片語的類似實例可能出現在文件中的其他位置，而您想要確認已正確選取時，這項設定便是很實用的方法。

參照我們的醫學轉診文件範例，本文件第一段每次都提及「轉診醫生」。使用 [這些片語出現的位置] 設定，在這個範例中，您可以設定您的說明，只在文件的開頭一節，或其他任何可能出現的位置搜尋此標籤。

這些片語出現的位置設定。

此設定有以下三個選項供您選擇：

檔案中的任何位置：搜尋整份文件中的片語。
檔案開頭：會從片語位置的開頭搜尋檔。

在檢視器中，您可以手動調整選取方塊，以包含該階段所在的位置。 [結束位置] 值會更新，以顯示所選區域包含的令牌數目。您可以更新 [結束位置] 值，並調整選取的區域。
檔案結尾：從結尾到片語位置搜尋文件。

在檢視器中，您可以手動調整選取方塊，以包含該階段所在的位置。 [ 開始位置 ] 值會更新，以顯示所選區域包含的令牌數目。您可以更新 [起始位置] 值，並調整選取的區域。
自訂範圍：在文件的指定範圍内搜尋片語的位置。

在檢視器中，您可以手動調整選取方塊，以包含該階段所在的位置。在此設定中，您必須選取 [開始] ，以及 [結束] 位置。這些值代表從文件開頭算起的的語彙基元數目。當您可以手動輸入這些值，在檢視器中手動調整選取方塊就變得更容易。

設定說明時的考慮

定型分類器時，請記住一些會產生更可預測結果的事項：

您用來定型的檔越多，分類器就越精確。可能的話，請使用五份以上的好檔，並使用一份以上的不正確的檔。如果您使用的文件庫中有數種不同的檔類型，則每種類型的數個都會產生更可預測的結果。
標記檔在定型程式中扮演重要角色。它們會與用來定型模型的說明一起使用。當您使用沒有太多內容的文件來訓練分類器時，可能會看到一些異常狀況。說明可能與檔中的任何內容不符，但因為該說明標示為「良好」檔，所以您可能會在定型期間看到它相符。
建立說明時，它會使用 OR 邏輯搭配標籤來判斷它是否相符。使用 AND 邏輯的正規表示式可能更容易預測。以下是範例正則表示式，可在實際檔上用來作為定型檔。請注意，以紅色醒目提示的文字是您要尋找的片語或片語。
```
(?=.*network provider)(?=.*participating providers).*
```
標籤和說明一起運作，並用於定型模型。它不是一系列的規則，可以取消結合且精確的權數或預測套用至每個已設定的變數。定型中使用的文件變化愈大，將會在模型中提供更精確的精確度。

另請參閱

在 Microsoft Syntex 中使用說明範本

共用方式為