共用方式為


重要詞彙的機器學習詞彙

下列清單是重要機器學習詞彙的編譯,當您在 ML.NET 中建置自定義模型時很有用。

準確性

分類中,精確度是正確分類專案的數目除以測試集中的項目總數。 範圍從 0 (最不精確) 到 1 (最準確)。 精確度是模型效能的評估計量之一。 請考慮它搭配 精確度召回,以及 F 分數

曲線下的區域(AUC)

二元分類中,評估計量是曲線下區域的值,根據誤判率(在 x 軸上)繪製真判率(在 y 軸上)。 範圍從0.5(最差)到1(最佳)。 也稱為 ROC 曲線下的區域,也就是接收者操作特性曲線。 如需詳細資訊,請參閱維琪百科 接收者作業特性一文。

二元分類

分類 案例,其中 標籤 只有兩個類別中的一個。 如需詳細資訊,請參閱 機器學習工作 主題的 二元分類 一節。

校準

校正是將原始分數對應至類別成員資格的程式,適用於二進位和多類別分類。 有些 ML.NET 教練有 NonCalibrated 後綴。 這些演算法會產生原始分數,然後必須對應至類別機率。

目錄

在 ML.NET 中,目錄是擴充函式的集合,依一般用途分組。

例如,每個機器學習工作(二元分類、回歸、排名等)都有可用的機器學習演算法目錄(定型器)。 二元分類定型器目錄為:BinaryClassificationCatalog.BinaryClassificationTrainers

分類

當數據用來預測類別時,監督式機器學習 工作稱為分類。 二元分類 是指只預測兩個類別(例如,將影像分類為「貓」或「狗」的圖片)。 多類別分類 是指預測多個類別(例如,將影像分類為特定狗種圖片時)。

判斷係數

回歸中,評估計量表示數據如何符合模型。 範圍從 0 到 1。 值為 0 表示數據是隨機的,否則無法符合模型。 值為 1 表示模型完全符合數據。 這通常稱為 r2、R2或 r 平方。

數據

數據是任何機器學習應用程式的核心。 ML.NET 數據是由 IDataView 物件表示。 資料檢視物件:

  • 由數據行和數據列組成
  • 會延遲評估,也就是說,只有在作業呼叫數據時才會載入數據
  • 包含定義每個數據行類型、格式和長度的架構

估計

實作 IEstimator<TTransformer> 介面之 ML.NET 中的類別。

估算器是轉換的規格(數據準備轉換和機器學習模型定型轉換)。 估算器可以鏈結至轉換管線。 呼叫 Fit 時,會瞭解估算器或估算器管線的參數。 Fit 的結果為 Transformer

擴充方法

屬於類別的 .NET 方法,但定義於 類別外部。 擴充方法的第一個參數是擴充方法所屬類別的靜態 this 參考。

擴充方法在 ML.NET 中廣泛使用,以建構 估算器的實例,

特徵

測量之現象的可測量屬性,通常是數值(雙精度浮點數)。 多個功能稱為 特徵向量,通常儲存為 double[]。 特徵定義了測量現象的重要特性。 如需詳細資訊,請參閱維琪百科 功能 文章。

特徵工程

特徵工程是一種程式,涉及定義一組 功能, 並開發軟體,從可用的現象數據產生特徵向量,也就是特徵擷取。 如需詳細資訊,請參閱維琪百科 功能工程 一文。

F 分數

分類中,評估計量會平衡 精確度召回

超參數

機器學習演算法的參數。 範例包括判定樹系中要學習的樹狀結構數目,或漸層下降演算法中的步驟大小。 超參數的值是在定型模型之前設定,並控管尋找預測函式參數的程式,例如判定樹中的比較點或線性回歸模型中的權數。 如需詳細資訊,請參閱維琪百科 超參數 一文。

標籤

要透過機器學習模型預測的專案。 例如,狗的品種或未來的股價。

記錄遺失

分類中,評估計量會描述分類器的正確性。 較小的記錄遺失是,分類器越精確。

Loss 函式

遺失函式是定型標籤與模型所做的預測之間的差異。 模型的參數會透過最小化損失函式來估計。

不同的定型器可以設定不同的損失函式。

平均絕對誤差 (MAE)

回歸中,評估計量是所有模型錯誤的平均值,其中模型錯誤是預測 標籤 值與正確卷標值之間的距離。

傳統上,預測函式的參數。 例如,線性回歸模型中的權數或判定樹中的分割點。 在 ML.NET 中,模型包含預測領域物件 標籤所需的所有資訊(例如影像或文字)。 這表示 ML.NET 模型包含必要的特徵化步驟,以及預測函式的參數。

多元分類

分類 案例,其中 標籤 是三個以上的類別之一。 如需詳細資訊,請參閱 機器學習工作 主題 多類別分類 一節。

N-gram

文字數據的特徵擷取配置:任何 N 個字序列會變成 特徵 值。

正常化

正規化是將浮點數據調整為介於 0 到 1 之間的值的程式。 ML.NET 中使用的許多定型演算法都需要正規化輸入特徵數據。 ML.NET 提供一系列用於正規化 轉換

數值特徵向量

特徵 只包含數值的向量。 這類似於 double[]

管道

符合數據集模型所需的所有作業。 管線包含數據匯入、轉換、特徵化和學習步驟。 一旦定型管線,它就會變成模型。

精度

分類中,類別的有效位數是正確預測為屬於該類別的項目數,除以屬於類別的項目總數。

召回

分類中,類別的召回率是正確預測為屬於該類別的項目數目,除以實際屬於 類別的項目總數。

正規化

正規化會懲罰線性模型太複雜。 正規化有兩種類型:

  • $L_1$ 正規化為微不足道特徵的權數為零。 在這種類型的正規化之後,儲存模型的大小可能會變小。
  • $L_2$ 正規化可將微不足道特徵的權數範圍降到最低。 這是較一般的程式,對極端值較不敏感。

回歸

受監督的機器學習 工作,其中輸出是實際值,例如 double。 範例包括預測股價。 如需詳細資訊,請參閱 機器學習工作 主題 回歸 一節。

相對絕對誤差

回歸中,評估計量是所有絕對誤差的總和除以正確 標籤 值與所有正確卷標值的平均值之間的距離總和。

相對平方誤差

回歸中,評估計量是所有平方絕對誤差的總和除以正確 標籤 值與所有正確卷標值的平均值之間的平方距離總和。

平均平方誤差的根目錄 (RMSE)

回歸中,評估計量是誤差平方平均值的平方根。

得分

評分是將新數據套用至定型機器學習模型及產生預測的程式。 評分也稱為推斷。 視模型類型而定,分數可以是原始值、機率或類別。

受監督的機器學習

機器學習的子類別,其中所需的模型會預測尚未看到數據的標籤。 範例包括分類、回歸和結構化預測。 如需詳細資訊,請參閱維琪百科 監督式學習一文。

訓練

識別指定定型數據集 模型的程式。 對於線性模型,這表示尋找權數。 對於樹狀結構,它牽涉到識別分割點。

變壓器

實作 ITransformer 介面的 ML.NET 類別。

轉換器會將一個 IDataView 轉換成另一個。 轉換程式是透過定型 估算器或估算器管線所建立。

非監督式機器學習

機器學習的子類別,其中所需的模型會在數據中尋找隱藏的(或潛在)結構。 範例包括叢集、主題模型化和減少維度。 如需詳細資訊,請參閱維琪百科 非監督式學習 文章。