匯入計數資料表
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
匯入先前建立的計數資料表
Category:具有計數的 Learning
模組概觀
本文說明如何在機器學習 Studio (傳統) 中使用匯入計數資料表模組。
匯入計數資料表模組的目的是要讓使用舊版機器學習建立以計數為基礎的統計資料資料表的客戶升級其實驗。 此模組會合並現有的計數資料表與新的資料。
如需有關計數資料表以及如何使用它們來建立特徵的一般資訊,請參閱Learning計數。
重要
此模組僅提供給使用已被取代的組建計數資料表和已淘汰的計數 Featurizer 模組的實驗回溯相容性。 建議您將實驗升級為使用較新的模組,以利用新功能。
針對所有新的實驗,我們建議使用下列模組:
如何設定匯入計數資料表
在機器學習 Studio (傳統) 中,開啟包含使用 [已淘汰的組建計數資料表] 模組建立之計數資料表的實驗。
將匯 入計數資料表 模組新增至實驗。
連線組建計數資料表的兩個輸出 (已淘汰的) 模組對應到匯入計數資料表的輸入埠。
如果您有另一個要與 [匯入的計數] 資料表合併的計數資料集,請將它連接到 [匯 入計數資料表 ] 模組的最右邊輸入。
您可以使用 [ 計算類型 ] 選項來指定計數資料表的儲存位置和方式:
dataset:用來建立計數的資料會儲存為機器學習 Studio (傳統) 中的資料集。
Blob:用來建立計數的資料會儲存為 Windows Azure 儲存體中的區塊 Blob。
MapReduce:用來建立計數的資料會以 blob 的形式儲存在 Windows Azure 儲存體中。
對於非常大型的資料集,通常偏好此選項。 若要存取計數,您必須啟用 HDInsight 叢集。 啟動 MapReduce 作業以執行計數。 這兩個活動可能會產生儲存體和計算成本。
如需詳細資訊,請參閱 Azure 上的 HDInsight。
在指定資料儲存模式之後,您可能需要為數據提供其他連接資訊,即使您之前在實驗中使用 [匯 入資料 ] 模組來存取資料也一樣。 這是因為計數 Featurizer (已淘汰的) 模組會分別存取資料儲存區,以便讀取資料並建立必要的資料表。
使用 [ 計數資料表類型 ] 選項,即可指定用來儲存計數之資料表的格式和儲存模式。
Dictionary:使用字典計數資料表。
選取資料行中的所有資料行值會視為字串,並使用大小最多為 31 位元的位元陣列來進行雜湊處理。 因此,所有資料行值會以 32 位元非負整數來表示。
CMSketch:使用儲存在 計數最小草圖資料表中的資料表。
使用此格式時,會使用多個較小範圍的獨立雜湊函式來改善記憶體效率,並降低雜湊衝突的機率。
一般來說,您應該針對較小的資料集使用 [ 字典 ] 選項 (< 1gb) ,然後針對較大的資料集使用 CMSketch 選項。
執行實驗。
完成時,以滑鼠右鍵按一下 [匯 入計數資料表 ] 模組的輸出,並選取 [ 儲存為轉換],然後輸入轉換的名稱。 當您這樣做時,合併的計數資料表和您可能套用的任何特徵化參數會以可套用至新資料集的格式儲存。
範例
使用 Azure AI 資源庫中的這些範例實驗,探索以計數為基礎的特徵化範例:
航班延誤預測:顯示以計數為基礎的特徵化在非常大型的資料集中如何有用。
Learning with count:多元分類 with NYC 計程車 data:示範如何在多元預測工作中使用以計數為基礎的特徵。
Learning 的計數:具有 NYC 計程車資料的二元分類:在二元分類工作中使用以計數為基礎的特徵。
注意
這些資源庫的實驗都是使用先前已淘汰的 Learning 版本和計數模組來建立。 當您在 Studio 中開啟實驗 (傳統) 時,會自動升級實驗以使用較新的模組。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
計數中繼資料 | 資料表 | 計數的中繼資料 |
計數資料表 | 資料表 | 計數資料表 |
計數資料集 | 資料表 | 用於計算的資料集 |
模組參數
名稱 | 類型 | 範圍 | 選擇性 | 預設 | 描述 |
---|---|---|---|---|---|
計數類型 | CountingType | 必要 | 計數類型 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
計算轉換 | ITransform 介面 | 計數轉換 |
例外狀況
例外狀況 | 描述 |
---|---|
錯誤 0003 | 如果一或多個輸入為 Null 或空白,就會發生例外狀況。 |
錯誤 0018 | 如果輸入資料集無效,就會發生例外狀況。 |
如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼。
如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼。