Microsoft Syntex 中的說明類型
適用於: ✓ 非結構化文件處理
說明可用來協助定義您想要在 Microsoft Syntex 中非結構化文件處理模型中標記和擷取的資訊。 建立說明時,您必須選取說明類型。 本文可協助您了解不同的說明類型及其使用方式。
以下為可用的說明類型:
片語清單:您可以在要摘錄的文件或資訊中使用的單字、片語、數字或其他字元的清單。 例如,文字字串[轉診醫生]位於所有您要識別的「醫學轉診」文件中。 或者來自您要識別的所有「醫學轉診」文件中,轉診醫生的電話號碼。
規則運算式:使用模式比對的標記法來尋找特定字元模式。 例如,您可以使用規則運算式來尋找一組文件中的 電子郵件地址 模式的所有實例。
鄰近: 描述彼此之間的說明有多接近。 例如, 街道編號 片語清單會在 街道名稱 片語清單之前, (您稍後會在本文中瞭解令牌) 。 使用鄰近類型時,要求在您的模型中至少有兩個說明,否則將停用該選項。
片語清單
片語清單說明類型通常是用來透過您的模型來識別和分類文件。 如[轉診醫生]標籤範例中所述,它是在您要識別的文件中一致的單字、片語、數字或字元的字串。
雖然這並非一項要求,但如果您要擷取的片語位於您文件中的一致位置,則使用您的說明可以更成功。 例如,[轉診醫生]標籤可能會一致地位於文件的第一個段落。 您也可以使用 [設定片語在文件中出現的位置] 的進階設定來選取片語所在的特定區域,尤其是當片語可能出現在文件中多個位置時。
如果識別標籤時要求區分大小寫,使用片語清單類型可讓您在說明中加以指定,方法是選取 [僅完全符合大寫] 核取方塊。
片語類型在建立說明時會特別有用,該說明可以識別和摘錄不同格式的資訊,例如日期、電話號碼和信用卡號。 例如,日期可以以許多不同的格式顯示 (1/1/2020、1-1-2020、01/01/20、01/01/2020 或 Jan 1,2020)。 定義片語清單可讓您的說明更有效率,方法是從您想要識別及摘錄的資料中,擷取任何可能的變化。
針對[電話號碼]範例,則會從模型識別的所有「醫學轉診」文件中,摘錄每位轉診醫生的電話號碼。 建立說明時,輸入電話號碼可能會在文件中顯示的不同格式,以便您擷取可能的變化。
在這個範例中,請在 [進階設定] 選取 [從 0 至 9 的任何數字] 核取方塊,以將片語清單中使用的每個「0」值,識別為 0 到 9 之間的任何數字。
同樣地,如果您建立包含文字字元的片語清單,請選取[從 a 至 z 的任何字母] 核取方塊,以將片語清單中使用的每個「a」字元,識別為「a」到「z」的任何字元。
例如,如果您建立日期片語清單,而您想要確認可辨識日期格式 Jan 1, 2020,您必須:
- 將 aaa 0, 0000 和 aaa 00, 0000 新增至您的片語清單。
- 確認您也已選取 [從 a-z 的任何字母]。
如果您在片語清單中有大小寫需求,則可以選取 [僅完全符合大寫] 核取方塊。 針對日期範例,如果您需要月份的第一個字母為大寫,您必須:
- 將 Aaa 0, 0000 和 Aaa 00, 0000 新增至您的片語清單。
- 確認也選取 [僅完全符合大寫]。
注意事項
不要手動建立片語清單說明,而是使用說明文件庫 來使用針對常見片語清單的片語清單範本,例如日期、電話號碼或信用卡號碼。
規則運算式
規則運算式說明類型可讓您建立模式,協助尋找及識別文件中特定的文字字串。 您可以使用規則運算式,快速剖析大量的文字,以達成下列目標:
- 尋找特定字元模式。
- 驗證文字以確保其符合預先定義的模式 (例如電子郵件地址)。
- 解壓縮、編輯、取代或刪除文字子字串。
規則運算式類型在建立說明時會特別有用,該說明可以識別和摘錄類似格式的資訊,例如電子郵件地址、銀行帳戶號碼,或 URL。 例如,電子郵件位址,例如 megan@contoso.com,會以特定模式顯示 (“megan” 是第一個部分,而 “com” 是) 的最後一個部分。
電子郵件地址的規則運算式是:[A-Za-z0-9._%-]+@[A-Za-z0-9.-]+.[A-Za-z]{2,6}。
此運算式包含五個部分,順序為:
任何下列字元數:
a. 從 a 到 z 的字母
b. 從 0-9 的數字
c. 句點、底線、百分比或虛線
@ 符號
任何與電子郵件地址的第一個部分相同的字元數
句點
兩到六個字母
若要新增規則運算式說明類型:
從 [建立說明] 窗格的 [說明類型]下方,選取 [規則運算式]。
您可以在 [規則運算式] 文字方塊中輸入解釋,或者選取 [從範本中新增規則運算式]。
當您使用範本新增規則運算式時,它會自動將名稱和規則運算式新增到文字方塊。 例如,如果您選擇 Email 位址範本,則會填入 [建立說明] 面板。
限制
下表顯示目前無法在正則表示式模式中使用的內嵌字元選項。
選項 | 狀態 | 目前功能 |
---|---|---|
區分大小寫 | 目前不支援。 | 執行的所有符合項目不區分大小寫。 |
線條錨點 | 目前不支援。 | 無法在必須相符的字串中指定特定位置。 |
鄰近
鄰近說明類型可協助您的模型識別資料,方法是透過定義另一個資料片段與其相似程度。 例如,在您的模型中,您定義了兩個說明,可標記客戶的[街道地址號碼]和[電話號碼]。
請注意,客戶的電話號碼永遠都出現在街道地址的前面。
Alex Wilburn
555-555-5555
One Microsoft Way
Redmond, WA 98034
使用鄰近說明來定義電話號碼說明的距離,以便更好地識別文件中的街道地址號碼。
注意事項
正則表達式目前無法搭配鄰近說明類型使用。
什麼是權杖?
若要使用鄰近說明類型,您必須瞭解權杖是什麼。 權杖的編號是鄰近說明測量一個說明與另一個說明之間距離的方式。 權杖是字母和數字的連續範圍 (不含空格或標點符號)。
下表顯示如何判斷片語中權杖數目的範例。
片語 | 權杖數目 | 說明 |
---|---|---|
Dog |
1 | 沒有標點符號或空格的單字。 |
RMT33W |
1 | 記錄定位器號碼。 其中可能含有數字和字母,但沒有標點符號。 |
425-555-5555 |
5 | 電話號碼。 每個標點符號都是單一權杖,因此 425-555-5555 會是 5 個權杖:425 - 555 - 5555 |
https://luis.ai |
7 | https : / / luis . ai |
設定鄰近說明類型
針對此範例,請設定鄰近設定,以定義來自[街道地址號碼]說明的[電話號碼]說明之權杖數目的範圍。 請注意,最小範圍為「0」,因為電話號碼和街道地址號碼之間沒有權杖。
但範例文件中的部分電話號碼會附加 (行動裝置)。
Nestor Wilke
111-111-1111 (行動電話)
One Microsoft Way
Redmond, WA 98034
(行動裝置) 中有三個權杖:
片語 | 權杖計數 |
---|---|
( | 1 |
行動電話 | 2 |
) | 3 |
將鄰近設定設為範圍 0 到 3。
設定文件中出現片語的位置
當您建立說明時,系統預設在整份文件中搜尋您要摘錄的片語。 不過,您可以使用 [這些片語出現的位置] 進階設定,協助隔離文件中片語出現的特定位置。 當片語的類似實例可能出現在文件中的其他位置,而您想要確認已正確選取時,這項設定便是很實用的方法。
參照我們的醫學轉診文件範例,本文件第一段每次都提及「轉診醫生」。 使用 [這些片語出現的位置] 設定,在這個範例中,您可以設定您的說明,只在文件的開頭一節,或其他任何可能出現的位置搜尋此標籤。
此設定有以下三個選項供您選擇:
檔案中的任何位置:搜尋整份文件中的片語。
檔案開頭:會從片語位置的開頭搜尋檔。
在檢視器中,您可以手動調整選取方塊,以包含該階段所在的位置。 [結束位置] 值會更新,以顯示所選區域包含的令牌數目。 您可以更新 [結束位置] 值,並調整選取的區域。
檔案結尾:從結尾到片語位置搜尋文件。
在檢視器中,您可以手動調整選取方塊,以包含該階段所在的位置。 [ 開始位置 ] 值會更新,以顯示所選區域包含的令牌數目。 您可以更新 [起始位置] 值,並調整選取的區域。
自訂範圍:在文件的指定範圍内搜尋片語的位置。
在檢視器中,您可以手動調整選取方塊,以包含該階段所在的位置。 在此設定中,您必須選取 [開始] ,以及 [結束] 位置。 這些值代表從文件開頭算起的的語彙基元數目。 當您可以手動輸入這些值,在檢視器中手動調整選取方塊就變得更容易。
設定說明時的考慮
定型分類器時,請記住一些會產生更可預測結果的事項:
您用來定型的檔越多,分類器就越精確。 可能的話,請使用五份以上的好檔,並使用一份以上的不正確的檔。 如果您使用的文件庫中有數種不同的檔類型,則每種類型的數個都會產生更可預測的結果。
標記檔在定型程式中扮演重要角色。 它們會與用來定型模型的說明一起使用。 當您使用沒有太多內容的文件來訓練分類器時,可能會看到一些異常狀況。 說明可能與檔中的任何內容不符,但因為該說明標示為「良好」檔,所以您可能會在定型期間看到它相符。
建立說明時,它會使用 OR 邏輯搭配標籤來判斷它是否相符。 使用 AND 邏輯的正規表示式可能更容易預測。 以下是範例正則表示式,可在實際檔上用來作為定型檔。 請注意,以紅色醒目提示的文字是您要尋找的片語或片語。
(?=.*network provider)(?=.*participating providers).*
標籤和說明一起運作,並用於定型模型。 它不是一系列的規則,可以取消結合且精確的權數或預測套用至每個已設定的變數。 定型中使用的文件變化愈大,將會在模型中提供更精確的精確度。