使用正則運算式分割資料
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
本文描述如何在機器學習 Studio (傳統) 的分割資料模組中使用正則運算式分割選項。 當您需要將篩選準則套用至文字資料行時,這個選項非常有用。 例如,您可能會將資料集除以是否有提及特定的產品。
您可以在單一文字資料行上使用 正則運算式分割 。 您可以定義包含文字資料行名稱的正則運算式,然後設定適用于資料行的條件,例如「開頭為」、「包含」或「不包含」。
如需機器學習服務實驗之資料分割的一般資訊,請參閱 分割資料 和分割區 和分割。
相關工作
分割資料模組中的其他選項:
使用相對運算式分割資料:將運算式套用至數值資料。
分割推薦資料集:分割建議模型中使用的資料集。 資料集應該有三個數據行:專案、使用者和分級
使用正則運算式來分割資料集
將 [ 分割資料 ] 模組新增至您的實驗,並將它連接為您要分割的資料集輸入。
針對分割模式,請選取 [規則運算式分割]。
在 [ 正則運算式 ] 方塊中,輸入有效的正則運算式。 這裡提供一些範例。
正則運算式只會套用至指定的資料行,該資料行必須是字串資料類型。
如需撰寫正則運算式的協助,請參閱 正則運算式語言-快速參考。
執行實驗,或以滑鼠右鍵按一下模組,然後選取 [ 執行選取]。
根據您提供的正則運算式,資料集會分割成兩個數據列集:值符合運算式的資料列和所有剩餘的資料列。
範例
下列範例示範如何使用 正則運算式 選項來分割資料集。
一個完整的詞
此範例會將包含資料行中文字 Gryphon
的所有資料列 Text
放入第一個資料集,並將其他資料列放入 分割資料的第二個輸出中:
\"Text" Gryphon
Substring
此範例會在資料集的第二個數據行內的任何位置尋找指定的字串,並以索引值1表示。 該比對會區分大小寫。
(\1) ^[a-f]
第一個結果資料集包含索引資料行開頭為以下字元的所有資料列:a
、b
、c
、d
、e
、f
。 所有其他資料列都會導向至第二個輸出。
IP 位址的字串相符
此範例會將一些伺服器記錄資料分割成兩個類別以供分析:防火牆後方的連線,以及與防火牆外部 IP 位址的連線。 正則運算式會套用至 IP_Address
(字串 資料類型) 的欄位。
(\IP_Address) ^[10]
第一個輸出包含開頭為 10
的所有位址。