修改計數資料表參數
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
修改用來從計數建立特徵的參數
Category:具有計數的 Learning
模組概觀
本文描述如何使用機器學習 Studio (傳統) 中的 [修改計數資料表參數] 模組,來變更從計數資料表產生功能的方式。
一般而言,若要建立以計數為基礎的功能,您可以使用 組建計數轉換 來處理資料集和建立計數資料表,然後從該計數資料表產生一組新的功能。
但是,如果您已經建立計數資料表,可以使用 [ 修改計數資料表參數 ] 模組來編輯如何處理計數資料的定義。 這可讓您根據現有的資料建立一組不同的以計數為基礎的統計資料,而不需要重新分析資料集。
如何設定 Modify Count 參數
在 [ 轉換 ] 群組中,找出您想要修改的轉換,然後將它新增至您的實驗。
您先前應該已執行建立計數轉換的實驗。
若要修改儲存的轉換:在 [ 轉換 ] 群組中找出轉換,然後將它新增至您的實驗。
若要修改在相同實驗中建立的計數轉換:如果轉換尚未儲存,但目前的實驗中以輸出形式提供 (例如,請檢查 組建計數轉換 模組的輸出) ,您可以藉由連接模組直接使用它。
加入 [ 修改計數資料表參數 ] 模組,並將轉換連接為輸入。
在 [修改計數資料表參數] 模組的 [屬性] 窗格中,輸入要做為垃圾 bin 臨界值的值。
此值會指定每個功能值必須找到的最少出現次數,以供使用計數。 如果值的頻率小於垃圾 bin 閾值,則值標籤組不會計為離散專案;相反地,計數小於臨界值的所有專案會放在單一「垃圾 bin」中。
如果您使用小型資料集,而您正在計算和定型相同的資料,則良好的起始值為1。
如需 其他先前的虛擬範例,請輸入一個數位來指出要包含的其他虛擬範例數目。 您不需要提供這些範例;虛擬範例是根據先前的散發產生的。
針對 [ 拉普拉斯分配雜訊比例],輸入代表用來從拉普拉斯分配分佈中取樣的小數位數的正數浮點值。 當您設定小數位數值時,會在模型中併入一些可接受的雜訊層級,因此,模型較不可能受到資料中未可見值的影響。
在 [ 輸出功能包括] 中,選擇建立以計數為基礎的功能以納入轉換時要使用的方法。
CountsOnly:使用計數來建立特徵。
LogOddsOnly:使用機率比例的記錄來建立特徵。
BothCountsAndLogOdds:使用計數和記錄機率來建立特徵。
如果您想要在建立功能時覆寫輸出中的
IsBackOff
旗標,請選取 [忽略回寫資料行] 選項。 當您選取此選項時,即使資料行沒有大量的計數值,也會建立以計數為基礎的特徵。執行實驗。 然後,您可以視需要將 Modify Count Table 參數 的輸出儲存為新的轉換。
範例
如需此課程模組的範例,請參閱 Azure AI 資源庫:
具有計數的 Learning:二元分類:示範如何使用 Learning with count 模組,從二元分類模型的類別值資料行產生特徵。
Learning with count:多元分類與 NYC 計程車資料:範例示範如何使用「使用計數學習」模組,在公開可用的 NYC 計程車資料集上執行多元分類。 此範例使用多元羅吉斯回歸學習模組來建立此問題的模型。
具有計數的 Learning:使用 NYC 計程車資料的二元分類:示範如何在公開可用的 NYC 計程車資料集上使用具有計數的學習模組來執行二元分類。 此範例使用兩個類別的羅吉斯回歸學習模組來建立此問題的模型。
技術說明
本節包含實作詳細資料、提示和常見問題集的解答。
如果設定拉普拉斯雜訊比例參數,則會以統計上安全的方式來計算及定型相同的資料集。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
計算轉換 | ITransform 介面 | 要套用的計數轉換 |
模組參數
名稱 | 類型 | 範圍 | 選擇性 | 預設 | 描述 |
---|---|---|---|---|---|
記憶體回收筒臨界值 | Float | >= 0.0 f | 必要 | 10.0 f | 將特徵化資料行值與垃圾收集的閾值 |
其他先驗虛擬範例 | Float | >= 0.0 f | 必要 | 42.0 f | 要包含在先前散發套件後面的其他虛擬範例 |
拉普拉斯雜訊比例 | Float | >= 0.0 f | 必要 | 0.0f | 用來取樣雜訊的拉普拉斯分配分佈規模 |
輸出特徵包括 | OutputFeatureType | 必要 | BothCountsAndLogOdds | 要輸出的功能 | |
忽略 Back Off 資料行 | Boolean | 必要 | false | 是否要忽略輸出中的 IsBackOff 資料行 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
修改的轉換 | ITransform 介面 | 修改過的轉換 |
例外狀況
例外狀況 | 描述 |
---|---|
錯誤 0003 | 如果一或多個輸入為 Null 或空白,就會發生例外狀況。 |
錯誤 0086 | 計數轉換無效時所發生的例外狀況。 |
如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼。
如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼。