SQL Server ビッグ データ クラスターに対する Spark Machine Learning の概要
適用対象: SQL Server 2019 (15.x)
重要
Microsoft SQL Server 2019 ビッグ データ クラスターのアドオンは廃止されます。 SQL Server 2019 ビッグ データ クラスターのサポートは、2025 年 2 月 28 日に終了します。 ソフトウェア アシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。 詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグ データ オプション」を参照してください。
この記事では、SQL Server ビッグ データ クラスター での機械学習に Spark を効果的に使用する方法について説明します。
SQL Server ビッグ データ クラスターでの Spark Machine Learning
SQL Server ビッグ データ クラスターでは、次のようなさまざまなテクノロジ スタックを使用して機械学習のシナリオとソリューションを実現します: SQL Server Machine Learning Services や Apache Spark ML。
各テクノロジ スタックを使用するタイミングをしっかりと理解するには、「SQL Server ビッグ データ クラスター用の機械学習ガイド」を参照してください。 このガイドでは、Apache Spark ML について説明します。
ビッグ データ ベースの機械学習シナリオの場合、ビッグ データ ホスティングおよび Apache Spark ML の機能に対して HDFS を使用することが、コスト効率が高く、スケーラブルで強力なアプローチになります。 しかし、これは Spark Machine Learning で達成できることを網羅した可能性リストとはかけ離れています。機能の完全なリストについては、Spark MLlib に関するページを参照してください。
次のセクションでは、SQL Server ビッグ データ クラスターで Spark を使用する場合の、キュレーションされたシナリオとリファレンスの一覧を提供します。
SQL Server ビッグ データ クラスターに対する Spark Machine Learning の構成要素
Learn | 内容 | Link |
---|---|---|
Apache Spark 向け SQL Server ビッグ データ クラスター ランタイム | これにより、各リリースに含まれるものが示されます | Apache Spark 向け SQL Server ビッグ データ クラスター ランタイムに関するガイド |
記憶域プール | HDFS と Spark を一緒に格納して使用することで、機械学習用のデータのロックを解除する方法 | SQL Server ビッグ データ クラスター における記憶域プールとは |
ノートブックベースのエクスペリエンスと選択したツールを使用する | 選択したツールを使用して Spark Livy エンドポイントに接続します | SQL Server ビッグ データ クラスター 上の Azure Data Studio で Spark ジョブを送信する SQL Server ビッグ データ クラスター上の Visual Studio Code で Spark ジョブを送信する SQL Server のビッグ データ クラスターで sparklyr を使用する |
追加のパッケージをインストールする方法 | パッケージが標準で提供されていない場合は、それをインストールします | Spark ライブラリ管理 |
トラブルシューティング方法 | 問題が発生した場合 | pyspark ノートブックのトラブルシューティングSQL Server ビッグ データ クラスター 上の Spark History Server の Spark アプリケーションのデバッグと診断 |
機械学習バッチ ジョブを送信する方法 | コマンドラインを使用して ML トレーニングとバッチ スコアリングを実行します | コマンドライン ツールを使用して Spark ジョブを送信する |
SQL Server と Spark の間でデータをすばやく移動する方法 | Spark ML シナリオ用に SQL Server のソース、宛先を作成します。 HDFS の使用は必須ではありません | SQL Server と Azure SQL 用の Apache Spark コネクタを使用する |
Spark モデルの運用化 | トレーニング後、MLeap を使用して運用化します | SQL Server ビッグ データ クラスター で Spark の機械学習モデルを作成、エクスポート、およびスコア付けする |
データ ラングリング | Spark の強力なデータ ラングリング機能と共に、PROSE をご提供します | PROSE コード アクセラレータを使用したデータ ラングリング |
次のステップ
詳細については、「SQL Server ビッグ データ クラスターの概要」を参照してください。