偵測語言
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
偵測輸入檔中每一行的語言
Category:文字分析
模組概觀
本文說明如何使用機器學習 Studio (傳統) 中的 [偵測語言] 模組來分析文字輸入,並識別與輸入中的每一筆記錄相關聯的語言。
語言偵測演算法可以識別許多不同的語言。 只需指定要分析的字串資料行,以及要偵測的語言總數。 演算法會分析每個資料列,並為每個語言指派機率分數。 第一個結果資料行中的語言是得到最高分的語言。
如何設定偵測語言
將包含您想要分析之文字的資料集新增至機器學習 Studio (傳統) 中的實驗。 具有要分析之文字的資料行必須是字串資料類型。
資料集不需要包含標籤資料行;語言偵測演算法純粹適用于支援語言的語言功能。
如果您要匯入新的資料,請確定您的資料是以 UTF-8 格式儲存。 不支援其他 Unicode 格式。
將 [偵測 語言 ] 模組新增至您的實驗,並串連資料組與語言偵測的文字。
針對 [ 文字資料行],選擇您想要分析的資料行。
如果要偵測的 語言數量上限,請指出要偵測的語言數目上限。
設定語言數目上限可改善效能。
執行實驗。
結果
[偵測 語言 ] 模組會輸出每個資料列的語言識別項和分數。
例如,下表包含測試資料的範例分析。
前兩個數據行 col1 和 語言標籤 是從輸入資料集傳遞的資料行。 在此範例中,由於輸入資料集是設計用來測試模組,因此預期的語言是已知的,而且是在標籤資料行中提供。
其餘的資料行是由 [偵測 語言 ] 模組所產生。 如果有相等的可能語言相符專案,則可能會列出數種語言,每個語言都有分數。 在此情況下,模組只會針對每個資料列預測一種語言,以及該語言的機率分數。
如果模組無法偵測到具有足夠高度分數的任何語言,則會輸出 (未知) 的結果,其分數為0。 不過,模組所支援的語言在 API 更新時可能會隨時間變更。
Col1 | 語言標籤 | Col1 語言 | Col1 Iso6391 語言 | Col1 Iso6391 語言分數 |
---|---|---|---|---|
它是一個很棒的旅館,具有易記的員工和良好的服務 | 英文 | 英文 | en | 100 |
Es war ein wunderbares 飯店 mit freundlichem Personal 和 guter service | 德文 | 德文 | de | 100 |
C'est un magnifique hôtel avec un 人事 sympathique et qualité de | 法文 | 法文 | fr | 100 |
Det var et dejligt 飯店 med-v et venligt personale og 上帝 service | 丹麥文 | 丹麥文 | nl | 100 |
Va ser magnífic 飯店 amb un personal amable i bon servei | 卡達隆尼亞文 | 卡達隆尼亞文 | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | 日文 | (未知) | 0 | |
qu mebpa'mey naQ 易記 QaQ chavmoH je | 克林貢文 | 法文 | fr | 77.5 |
範例
如需如何在實驗中使用「偵測 語言 」模組的範例,請參閱 Azure AI 資源庫:
- 依語言篩選電影標題:偵測電影名稱中使用的語言,然後使用語言識別項將資料集分割成英文和非英文的電影。
技術說明
如需可能偵測到之語言的一般概念,請參閱Bing 翻譯。
您可以偵測到許多語言,而不是目前支援的 advanced text analytics 機器學習。 建議您使用偵測 語言 的結果來篩選您傳送給其他需要語言特定處理之模組的結果。
Azure 認知服務中的文字分析服務也會使用基礎語言服務。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 輸入的 。 |
模組參數
名稱 | 類型 | 範圍 | 選擇性 | 預設 | 描述 |
---|---|---|---|---|---|
要偵測的語言數量上限 | 整數 | [1; 184] | 必要 | 1 | 要偵測的語言數量上限。 |
文字資料行 | ColumnSelection | 必要 | 以名稱或一為基礎的文字資料行索引。 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
結果資料集 | 資料表 | 結果 |
例外狀況
例外狀況 | 描述 |
---|---|
錯誤 0003 | 如果一或多個輸入為 Null 或空白,就會發生例外狀況。 |
錯誤 0010 | 如果輸入資料集有應符合但卻不符的資料行名稱,就會發生例外狀況。 |
錯誤 0016 | 如果傳至模組的輸入資料集應有相容的資料行類型,但卻沒有,就會發生例外狀況。 |
錯誤 0008 | 如果參數不在範圍內,就會發生例外狀況。 |
如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼。
如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼。