重要詞彙的機器學習詞彙
下列清單是重要機器學習詞彙的編譯,當您在 ML.NET 中建置自定義模型時很有用。
準確性
在 分類中,精確度是正確分類專案的數目除以測試集中的項目總數。 範圍從 0 (最不精確) 到 1 (最準確)。 精確度是模型效能的評估計量之一。 請考慮它搭配 精確度、召回,以及 F 分數。
曲線下的區域(AUC)
在 二元分類中,評估計量是曲線下區域的值,根據誤判率(在 x 軸上)繪製真判率(在 y 軸上)。 範圍從0.5(最差)到1(最佳)。 也稱為 ROC 曲線下的區域,也就是接收者操作特性曲線。 如需詳細資訊,請參閱維琪百科
二元分類
分類 案例,其中 標籤 只有兩個類別中的一個。 如需詳細資訊,請參閱 機器學習工作 主題的 二元分類 一節。
校準
校正是將原始分數對應至類別成員資格的程式,適用於二進位和多類別分類。 有些 ML.NET 教練有 NonCalibrated
後綴。 這些演算法會產生原始分數,然後必須對應至類別機率。
目錄
在 ML.NET 中,目錄是擴充函式的集合,依一般用途分組。
例如,每個機器學習工作(二元分類、回歸、排名等)都有可用的機器學習演算法目錄(定型器)。 二元分類定型器目錄為:BinaryClassificationCatalog.BinaryClassificationTrainers。
分類
當數據用來預測類別時,監督式機器學習 工作稱為分類。 二元分類 是指只預測兩個類別(例如,將影像分類為「貓」或「狗」的圖片)。 多類別分類 是指預測多個類別(例如,將影像分類為特定狗種圖片時)。
判斷係數
在 回歸中,評估計量表示數據如何符合模型。 範圍從 0 到 1。 值為 0 表示數據是隨機的,否則無法符合模型。 值為 1 表示模型完全符合數據。 這通常稱為 r2、R2或 r 平方。
數據
數據是任何機器學習應用程式的核心。 ML.NET 數據是由 IDataView 物件表示。 資料檢視物件:
- 由數據行和數據列組成
- 會延遲評估,也就是說,只有在作業呼叫數據時才會載入數據
- 包含定義每個數據行類型、格式和長度的架構
估計
實作 IEstimator<TTransformer> 介面之 ML.NET 中的類別。
估算器是轉換的規格(數據準備轉換和機器學習模型定型轉換)。 估算器可以鏈結至轉換管線。 呼叫 Fit 時,會瞭解估算器或估算器管線的參數。 Fit 的結果為 Transformer。
擴充方法
屬於類別的 .NET 方法,但定義於 類別外部。 擴充方法的第一個參數是擴充方法所屬類別的靜態 this
參考。
擴充方法在 ML.NET 中廣泛使用,以建構 估算器的實例,。
特徵
測量之現象的可測量屬性,通常是數值(雙精度浮點數)。 多個功能稱為 特徵向量,通常儲存為 double[]
。 特徵定義了測量現象的重要特性。 如需詳細資訊,請參閱維琪百科 功能 文章。
特徵工程
特徵工程是一種程式,涉及定義一組 功能, 並開發軟體,從可用的現象數據產生特徵向量,也就是特徵擷取。 如需詳細資訊,請參閱維琪百科 功能工程 一文。
F 分數
超參數
機器學習演算法的參數。 範例包括判定樹系中要學習的樹狀結構數目,或漸層下降演算法中的步驟大小。
標籤
要透過機器學習模型預測的專案。 例如,狗的品種或未來的股價。
記錄遺失
在 分類中,評估計量會描述分類器的正確性。 較小的記錄遺失是,分類器越精確。
Loss 函式
遺失函式是定型標籤與模型所做的預測之間的差異。 模型的參數會透過最小化損失函式來估計。
不同的定型器可以設定不同的損失函式。
平均絕對誤差 (MAE)
在 回歸中,評估計量是所有模型錯誤的平均值,其中模型錯誤是預測 標籤 值與正確卷標值之間的距離。
型
傳統上,預測函式的參數。 例如,線性回歸模型中的權數或判定樹中的分割點。 在 ML.NET 中,模型包含預測領域物件
多元分類
分類 案例,其中 標籤 是三個以上的類別之一。 如需詳細資訊,請參閱 機器學習工作 主題 多類別分類 一節。
N-gram
文字數據的特徵擷取配置:任何 N 個字序列會變成 特徵 值。
正常化
正規化是將浮點數據調整為介於 0 到 1 之間的值的程式。 ML.NET 中使用的許多定型演算法都需要正規化輸入特徵數據。 ML.NET 提供一系列用於正規化 轉換
數值特徵向量
特徵 只包含數值的向量。 這類似於 double[]
。
管道
符合數據集模型所需的所有作業。 管線包含數據匯入、轉換、特徵化和學習步驟。 一旦定型管線,它就會變成模型。
精度
在 分類中,類別的有效位數是正確預測為屬於該類別的項目數,除以屬於類別的項目總數。
召回
在 分類中,類別的召回率是正確預測為屬於該類別的項目數目,除以實際屬於 類別的項目總數。
正規化
正規化會懲罰線性模型太複雜。 正規化有兩種類型:
- $L_1$ 正規化為微不足道特徵的權數為零。 在這種類型的正規化之後,儲存模型的大小可能會變小。
- $L_2$ 正規化可將微不足道特徵的權數範圍降到最低。 這是較一般的程式,對極端值較不敏感。
回歸
受監督的機器學習 工作,其中輸出是實際值,例如 double。 範例包括預測股價。 如需詳細資訊,請參閱 機器學習工作 主題 回歸 一節。
相對絕對誤差
在 回歸中,評估計量是所有絕對誤差的總和除以正確 標籤 值與所有正確卷標值的平均值之間的距離總和。
相對平方誤差
在 回歸中,評估計量是所有平方絕對誤差的總和除以正確 標籤 值與所有正確卷標值的平均值之間的平方距離總和。
平均平方誤差的根目錄 (RMSE)
在 回歸中,評估計量是誤差平方平均值的平方根。
得分
評分是將新數據套用至定型機器學習模型及產生預測的程式。 評分也稱為推斷。 視模型類型而定,分數可以是原始值、機率或類別。
受監督的機器學習
機器學習的子類別,其中所需的模型會預測尚未看到數據的標籤。 範例包括分類、回歸和結構化預測。 如需詳細資訊,請參閱維琪百科
訓練
識別指定定型數據集
變壓器
實作 ITransformer 介面的 ML.NET 類別。
轉換器會將一個 IDataView 轉換成另一個。 轉換程式是透過定型 估算器或估算器管線所建立。
非監督式機器學習
機器學習的子類別,其中所需的模型會在數據中尋找隱藏的(或潛在)結構。 範例包括叢集、主題模型化和減少維度。 如需詳細資訊,請參閱維琪百科 非監督式學習 文章。