機器學習的類型
機器學習有多種類型,而您必須根據嘗試預測的內容來套用適當的類型。 下圖顯示一般機器學習類型的明細。
監督式機器學習
監督式機器學習是機器學習演算法的一般詞彙,其中定型資料包括特徵值和已知的標籤值。 監督式機器學習是用來藉由判斷過去觀察中特徵和標籤之間的關聯性來定型模型,以便針對未來案例中的特徵預測未知標籤。
迴歸
迴歸是監督式機器學習的形式,其中模型所預測的標籤是數值。 例如:
- 根據溫度、降雨和風速,在特定一天銷售的冰淇淋數目。
- 房地產根據大小以平方英呎為單位的銷售價格、其所包含的房間數目,及其位置的社會經濟衡量標準。
- 根據汽車的引擎大小、重量、寬度、高度和長度的燃油效率 (以英里/加侖為單位)。
分類
分類是監督式機器學習的形式,其中標籤代表分類或類別。 有兩個常見的分類案例。
二元分類
在二元分類中,標籤會判斷 觀察到的項目是 (或不是) 特定類別的執行個體。 或者,另一種方式是二元分類模型預測兩個互斥結果之一。 例如:
- 病患基於體重、年齡、血糖濃度等臨床衡量標準是否有糖尿病的風險。
- 銀行客戶根據收入、信用記錄、年齡和其他因素是否會拖欠貸款。
- 郵寄清單客戶根據人口統計屬性和過去的購買是否會正面回應行銷供應項目。
在上述所有範例中,模型都會預測單一可能類別的二元 true/false 或 positive/negative 預測。
多類別分類
多類別分類會延伸二元分類,以預測代表多個可能類別之一的標籤。 例如,
- 企鵝根據其實體測量的物種 (阿德利、巴布亞或南極)。
- 電影根據其陣容、導演和預算的內容類型 (喜劇、恐怖、愛情、冒險或科幻)。
在涉及一組已知多個類別的案例中,多類別分類是用來預測互斥標籤。 例如,企鵝無法同時是巴布亞和阿德利。 不過,也有一些演算法可用來定型多標籤分類模型,其中單一觀察可能會有多個有效的標籤。 例如,電影可能會同時分類為科幻和喜劇。
非監督式機器學習
非監督式機器學習牽涉到使用僅包含特徵值,且不含任何已知標籤的資料來定型模型。 非監督式機器學習演算法會決定定型資料中觀察特徵之間的關聯性。
叢集
最常見的非監督式機器學習形式是叢集。 叢集演算法會根據其特徵識別觀察之間的相似度,並將其分組為離散叢集。 例如:
- 根據花的大小、葉片數目和花瓣數目來分組類似的花卉。
- 根據人口統計屬性和購買行為來識別一組類似的客戶。
在某些方面,叢集類似於多類別分類;其中會將觀察分類為離散群組。 差別在於使用分類時,您已經知道定型資料中觀察所屬的類別;因此,演算法的運作方式是判斷特徵與已知分類標籤之間的關聯性。 在叢集中,沒有先前已知的叢集標籤,且演算法會單純根據特徵的相似度,將資料觀察分組。
在某些情況下,叢集可用來判斷在定型分類模型之前存在的類別集合。 例如,您可以使用叢集將客戶區分為多個群組,然後分析這些群組,以識別並分類不同類別的客戶 (高價 - 少量、經常少量購買者等等)。 然後,您可以使用分類來標記叢集結果中的觀察,並使用標記的資料來定型分類模型,以預測新客戶所屬的客戶類別。