Apache Spark for Azure HDInsight の一般提供を開始
執筆者: Oliver Chiu (Product Marketing, Hadoop/Big Data and Data Warehousing)
このポストは、6 月 6 日に投稿された Apache Spark for Azure HDInsight now generally available の翻訳です。
Apache Spark v1.6.1 for Azure HDInsight の一般提供が開始されました。パブリック プレビューの発表以降、Spark for HDInsight は急速に普及し、現在では新たにデプロイされた HDInsight クラスターの 50% を占めます。一般提供を開始するにあたり、Spark が企業向けに強化されると同時に、ユーザーの皆様にとって使いやすくなるようにサービスの改良が進められ、Spark マネージド サービスの可用性、スケーラビリティ、生産性が向上しました。
Apache Spark の概要
Apache Spark (英語) は、大規模なデータ分析アプリケーションをインメモリで実行するオープン ソースの処理フレームワークです。これにより、Spark では従来のビッグ データ ソリューションと比較して最大 100 倍の速度でクエリを実行できるほか、ETL (抽出、変換、読み込み) 処理、バッチ クエリ、インタラクティブ クエリ、リアルタイム ストリーミング、機械学習、グラフ処理など、保存されているデータに対する各種タスクの共通実行モデルが提供されます。
マイクロソフトの Apache Spark for Azure HDInsight とは
マイクロソフトは、ビッグ データをより簡単かつ手軽に活用できるようにする取り組みを続けており、その成果はビッグ データおよび分析スイートの Cortana Intelligence という形で実現されています。このソリューションの一部として、Hortonworks Data Platform 上で実行できるマイクロソフトの Hadoop および Spark マネージド クラウド サービス Azure HDInsight が提供されます。Spark for Azure HDInsight は完全に管理され、安全性と可用性に優れた企業向け Spark ソリューションで、ユーザーにとって使いやすい魅力的でインタラクティブなエクスペリエンスを提供します。
- 企業向け Spark の実装: マイクロソフトには何年にもわたって企業のお客様と協力し、世界有数の大規模なデータ プロジェクトを運営してきた実績があります。この規模で Spark を実行するためには、高可用性、スケーラビリティ、安全性を確保する必要がありました。
- 高可用性を実現するために、マイクロソフトは Hortonworks と協力して YARN リソース マネージャーへの機能の追加を行いました。また、Cloudera や他の企業と共同で “Project Livy (英語)” を主導して、長期間実行される Spark コンテキストを管理したり、Spark のジョブを送信したりするために、オープン ソースの Apache ライセンスに基づく REST Web サービスを作成しました。この新機能は、インタラクティブなノートブックを実行するためのバックエンドとしての Spark の堅牢性を高めると共に、他のアプリケーションでインタラクティブなワークロードに Spark を活用できるようにすることを目的としたものです。Spark で高可用性を確保することで、現在では市場において最も高レベルの 99.9% の可用性がサービス レベル アグリーメントによって保証されています。
- Spark を大規模で実行できるように、Spark と Azure Data Lake Store が統合されました。これにより、Spark ではクラウド向けに設計されたリポジトリにあらゆるサイズのデータを保存して処理できるようになり、データが増大してもアプリケーションを変更することなく、あらゆるサイズ、種類、スループットのデータを取得することができます。
-
-
- Spark の安全性を確保するために、Spark と Data Lake Store の統合により、ストレージ レベルでのロールベースのデータ アクセス制御が可能になりました。
-
- Spark を使いやすく: ビッグ データに関するマイクロソフトの目標は、だれもが簡単に利用できるようにすることです。Spark for HDInsight では、ETL ジョブを構築するデータ エンジニア、テストを実行するデータ サイエンティスト、ダッシュボードを作成するビジネス アナリストなど、さまざまな Spark ユーザーに向けて新しい生産性エクスペリエンスが提供されます。
- データ エンジニアおよび開発者向けに、IntelliJ IDE との緊密な統合を実施しました。これにより、Scala や Java のネイティブ サポート、ローカルでのテスト、リモート デバッグ、Azure クラウドへの Spark アプリケーションの送信といった機能を使用してコードを作成できます。
- データ サイエンティスト向けに、事前設定不要の Jupyter (iPython) ノートブックとの統合 (英語) が実現されました。これにより、コード、統計式、視覚化機能を組み合わせて、データの分析に関する説明資料を作成できます。この環境は、あらゆるソースからデータを抽出して、機械学習モデルを繰り返し構築すると共に、探索的クエリを作成してデータの特性を視覚化、把握する場合に理想的です。今回の統合は、Jupyter OSS コミュニティと協力し、REST エンドポイントから Spark を実行できるようにカーネルを強化したことによって実現しました。その結果、事前設定不要で HDInsight から Jupyter ノートブックへのアクセスが可能になりました。
-
- ビジネス アナリスト向けに、Power BI や Tableau (英語)、SAP Lumira (英語)、QlikView などの BI ツールとの統合が実現されました。これにより、あらゆるサイズのデータに対してインタラクティブな視覚化機能を使用できます。Power BI では従来型のダッシュボードの他に、Spark と統合されたストリーミング コネクタを使用して、Spark Streaming から Power BI にイベントをリアルタイムで直接発行することができます。
使用を開始するには
Spark for HDInsight を使用するには、Azure サブスクリプションを所有しているか、Azure の無料評価版にサインアップする必要があります。この条件を満たしているお客様は、入門ガイドの説明に従って操作を進めると数分程度で Spark クラスターをセットアップし、実行することができます。
併せて、次の Azure Friday の Channel 9 ビデオもご覧ください。
概要
ドキュメントとハウツー ガイド
参考情報
- Spark for HDInsight を使用して視覚化する場合の SAP Lumira の手順ごとのガイド (英語)