機械学習の原則を理解する
機械学習は、予測モデルの作成に使われるプログラミング手法です。 コードを使って具体的なステップを記述して結果を生成する一般的なプログラミングとは異なります。機械学習は、"アルゴリズム" を利用し、データ エンティティの "特徴量" と、結果のモデルで予測する必要がある "ラベル" の間のリレーションシップを繰り返し調べます。 機械学習アルゴリズムは確率論と統計に基づいており、モデルをトレーニングするために大量のデータが必要です。
簡単に説明すると、機械学習モデルとは、観察対象エンティティの "特徴量" (その特性) を受け取り、それに対して計算を実行して予測 "ラベル" を返す "関数" です。 一般に、特徴量は x、予測ラベルは y と呼ばれます。つまり、機械学習モデルとは、式 y = f(x)
の関数 f です。
ラベルの値を計算するために特徴量に対してこの関数が実行する具体的な操作は、モデルのトレーニングに使われるアルゴリズムによって決まります。
機械学習の種類
大まかに言って、機械学習には 2 つの一般的な種類があります。
- "教師あり" 機械学習。既知のラベル値を含むデータを使ってモデルをトレーニングします (そのため、アルゴリズムは既存のデータを使って x と y のリレーションシップを確立し、その結果、x に適用して yを計算できる関数になります)。
- "教師なし" 機械学習。特徴量 (x) の値のみを使ってモデルをトレーニングし、特徴量が似ている観測値をグループ化 (つまり "クラスター化") します。
教師あり機械学習
このモジュールは、最も一般的なシナリオである教師あり機械学習に焦点を当てます。 教師あり機械学習の広義の定義では、一般的な機械学習アルゴリズムが 2 つあります。
回帰アルゴリズム。ラベルは数値 (たとえば、価格、温度、量、その他の測定可能な値) です。 回帰アルゴリズムにより、特徴量 (x) に対して関数 (f) を実行し、ラベル (y) の数値を計算するモデルを生成します。
たとえば、回帰アルゴリズムを使って、公園のキオスクで 1 日に売れるアイス クリームの予想数を、その年の月、曜日、気温、湿度などの特徴量から予測するモデルをトレーニングできます。
分類アルゴリズム。ラベルは離散的なカテゴリ (または "クラス") です。 分類アルゴリズムは、関数 (f) が特徴量 (x) を使用して、各候補クラスの "確率" 値を計算し、最も確率が高いクラスのラベル (y) を返すモデルを生成します。
たとえば、血中インスリン レベル、体重、身長、年齢などの特徴量に基づいて、患者が糖尿病かどうかを予測するモデルのトレーニングに分類アルゴリズムを使用できます。 可能性のある 2 つのクラス (true や false など) のいずれかを特定する分類モデルは、"二項" 分類の一例です。 複数のクラスの確率を予測するアルゴリズム (たとえば、糖尿病のない患者、1 型糖尿病、2 型糖尿病を区別する) は、"マルチクラス" 分類に使われます。
教師なし機械学習
教師なし学習の最も一般的な形式はクラスタリングです。データ ケースの特徴量は、多次元空間の点のベクトルと見なされます。 クラスタリング アルゴリズムの目標は、特徴量が似たケースが近くにあるように点をグループ化すると同時に、クラスター間を明確に分離するようにクラスターを定義することです。
クラスタリングが役に立つのは、データのさまざまなカテゴリを定義する必要があるにもかかわらず、既存のデータ観測が既に割り当てられている事前定義カテゴリがない場合です。 たとえば、プロファイルの類似性に基づいて顧客をセグメント化する場合があります。 クラスタリングは、分類ソリューション構築の初期段階として使うこともできます。基本的には、クラスタリングを使って、実際のデータに適したクラスを決定します。