はじめに
機械学習は、ほとんどの人工知能ソリューションの基礎であり、大量のデータを使って予測 "モデル" をトレーニングすることによって機能します。
予測モデルをトレーニングするには、機械学習フレームワークを使って、エンティティの "特徴量" と、それらに対して予測したい "ラベル" との間の関係を決定します。 たとえば、不動産の大きさ、寝室の数、郵便番号といった特徴量に基づいて、ある住宅の予想価格を予測するようにモデルをトレーニングできます。
Azure Databricks では、Scikit-Learn、PyTorch、TensorFlow などの一般的な機械学習フレームワークを複数サポートする、Apache Spark ベースのデータ処理プラットフォームが提供されます。 このモジュールでは、Spark MLlib 機械学習フレームワークを使って例を示しますが、説明されている原則はすべての機械学習フレームワークに当てはまるものです。