Hadoop をエンタープライズ クラスのクラウド ソリューションに: Azure HDInsight 関連の新しいセキュリティ機能、パフォーマンス、ISV ソリューションを提供
執筆者: Tiffany Wissner (Senior Director Product Marketing, Data Platform)
このポストは、9 月 29 日に投稿された New security, performance and ISV solutions build on Azure HDInsight’s leadership to make Hadoop enterprise-ready for the cloud の翻訳です。
今週ニューヨークで開催された Strata + Hadoop World (英語) は、ビッグ データや高度な分析を実現するテクノロジやビジネスに興味をお持ちの方々で大盛況でした。マイクロソフトはこのイベントでマネージド Hadoop/Spark クラウド サービスである Azure HDInsight の新機能を発表しました。Azure HDInsight は、企業ユーザーが Hadoop をエンタープライズ ソリューションとしてクラウドで簡単に利用できるようにマイクロソフトが開発してきたもので、クラウドの Hadoop ソリューションとして最高レベルのセキュリティ機能や、データ ウェアハウスのパフォーマンスに匹敵するビッグ データ クエリ速度、データ サイエンティスト向けの新しいノートブック エクスペリエンスを備えています。これらはすべて最新の Hortonworks Data Platform 2.5 (一部英語) と Spark 2.0 プラットフォーム (英語) をベースに構築されました。
マネージドのクラウド Hadoop ソリューションとして最高レベルのセキュリティを実現
クラウドへの Hadoop 導入を支援するために、マイクロソフトは企業の皆様が機密データや知的財産の保護を安心して任せられるソリューションを提供しなければならないと考えています。Azure HDInsight が提供する新たなセキュリティ機能では、Hadoop をクラウドで利用する際の認証、承認、監査、暗号化機能に対して最高レベルのセキュリティが実現されます。
認証と ID 管理がわずか数クリックで
Azure HDInsight は、Azure Active Directory および Azure Active Directory ドメイン サービスとシームレスに統合された初のビッグ データ サービスで、エンタープライズ クラスの認証と ID 管理をサポートしています。これらの機能はわずか数クリックで利用できるため、Hadoop クラスターの安全性を簡単に確保できます。既存のオンプレミス Active Directory デプロイメントも簡単に活用できます。現在は、6 億のユーザー アカウントが 1 日に行う 13 億件の認証がサポートされており、多要素認証などの機能を使用すれば、ユーザーやセキュリティ グループに対して複雑なアクセス制御ポリシーも作成できます。
一元的なセキュリティ ポリシーの管理と監査を使用した承認
Azure HDInsight はクラウド Hadoop サービスとしては初めて Apache Ranger (英語) を搭載し、管理者は一元的なポリシーと管理ポータルを通じて Hadoop のデータ、コンポーネント、サービスに対してきめ細かいアクセス制御ポリシーを作成、保守することができます。また、使い慣れた Apache Ranger のユーザー インターフェイスで監査レコードを詳細に分析できるようになりました。
暗号化によるデータ保護
Azure HDInsight で処理されるデータは、Azure Data Lake Store または Azure Storage に格納されます。このいずれでもサーバー側での暗号化をオプションとして使用でき、格納中のデータを保護することができます。暗号化機能は、特に追加で構成を行わなくても HDInsight と透過的に連携します。Azure Data Lake Store では、サービスが管理する暗号化キーを使用することも、Azure Key Vault でユーザー自身がキーを管理することも可能です。Azure Key Vault を利用すると、キーはハードウェア セキュリティ モデルで保護され、いつでもキーへのアクセスを無効にすることができます。
これらの高度なセキュリティ機能は、10 月からパブリック プレビューとして提供されます。
LLAP を使用した最新の Hive により HDInsight でデータ ウェアハウス並みのスピードを実現
マイクロソフトは Hive の高速化プロジェクトに開始当時から参加し、Stinger (英語) や Tez のプロジェクトに協力して Hive クエリの 100 倍のパフォーマンス向上に貢献してきました。今回 HDInsight は、Stinger.next (英語) イニシアティブから派生した LLAP (Long Lived and Process) を採用した最初のクラウド Hadoop ソリューションとなりました。ビッグ データに対するクエリに 1 秒未満で応答し、従来の Hive よりも 25 倍高速化されています。
LLAP ではインメモリで実行中のデータを暗号化した状態のまま維持しながら、Hadoop クラスター内で弾力的にスケーリングすることができます。また、MapJoin の高機能化、MapJoin のベクトル化の改良、完全にベクトル化されたパイプライン、コストに基づく最適化の改良など、Hive 実行エンジンの機能強化も多数組み込まれています。これらの LLAP の機能強化に加えて、最新バージョンの Hive では型変換の高速化、動的パーティション分割の最適化、テキスト ファイルでのベクトル化サポートなどが実装されています。こうした機能強化の結果、LLAP では Hive on Tez と比べて最大 25 倍の高速化が実現され、ビッグ データに基づいたインタラクティブな BI やレポート作成という新たなシナリオに対応可能になります。
このほか、Simba とのパートナーシップを通じて Azure HDInsight 用 ODBC ドライバーが提供されます。これにより、Power BI、Tableau、QlikView などの世界基準の BI ツールで Azure HDInsight を使用できるようになり、ビジネス アナリストは好みのツールでビッグ データからインサイトを取得できます。
図 1: Hortonworks が hive-testbench リポジトリを使用して 15 のクエリを実行した TPC-DS ベンチマーク テストの結果。詳細はこちら (英語)。
Spark への継続的な取り組みで SLA 付きのフルマネージド Spark 2.0 を提供
Spark 2.0 は、“Project Tungsten” でコア クエリ エンジンを全面的に見直したメジャー リリース版であり、最新のコンパイラ機能を搭載し、キャッシュ効果を利用するベクトル化コンピューティングを実行できるようにするなどのアップグレードが施されました。このアップグレードにより、Spark 2.0 では既存の高速プラットフォームでさらに最大 10 倍高速なパフォーマンスが実現されています。ほかにも、SQL 構文のサポート拡充やストリーミング エンジンの改良によって、リアル タイム ソリューション構築が簡素化し、機械学習パイプラインの機能が向上し、SparkR アルゴリズムのサポートが拡充されました。また、マイクロソフトと Hortonworks はお客様のご要望にお応えして 100 か所を超える修正 (英語) を行い、Spark 2.0 で運用環境での安定性を向上させています。
さらに Apache HBase for HDInsight の最新リリースに合わせて Spark-HBase コネクタが導入され、Spark SQL のパフォーマンスと機能を HBase へのクエリで使用できるようになりました。これにより、NoSQL データベースに存在するあらゆるデータで高度な分析を実行できます。
最新の Hortonworks Data Platform 2.5 と Spark 2.0 は、どちらも 9 月 29 日から Azure HDInsight で使用できます。LLAP を使用する Hive は、新しい種類のクラスターとしてパブリック プレビューで提供されます。
Zeppelin ノートブックで新しいデータ サイエンス エクスペリエンスを実現
マイクロソフトは、だれもがビッグ データを利用できるようにすることを目標に掲げ。Spark for Azure HDInsight では、IntelliJ で ETL ジョブを実行するデータ エンジニア、R Server や Jupyter Notebook を実験に使用するデータ サイエンティスト、Power BI や Tableau、SAP Lumira、Qlik を使ってダッシュボードを作成するビジネス アナリストなど、さまざまなユーザーが Spark を生産的に使用できるようなエクスペリエンスを設計しました。
HDInsight で Hortonworks Data Platform 2.5 をサポートするにあたり、9 月 29 日より Zeppelin ノートブック (英語) の標準サポートの提供を開始しました。これによりデータ サイエンティストは、コード、統計式、視覚化機能などさらに多くのオプションを組み合わせてデータの背景を詳しく説明できます。
サードパーティの ISV アプリケーションを HDInsight と一緒に簡単にセットアップ
大規模な Hadoop エコシステムの中には独立系ソフトウェア ベンダー (ISV) の活発な市場があり、企業はそこで提供されている付加価値の高いソリューションを利用することで、データを容易に準備したり、データを視覚化したり、高度なセキュリティ ソリューションやストリーミング ソリューションを実現したりしています。これらのアプリケーションはこれまでクラスター外で実行されていたため、個別に仮想マシンをセットアップする必要があり、Hadoop クラスターへの接続にも制限がありました。Azure HDInsight では、Datameer などの ISV のアプリケーションを直接 HDInsight クラスターで実行 (英語) できるため、事前に ISV アプリケーションとの統合やチューニングが済んでいる状態の Hadoop クラスターや Spark クラスターをすぐにセットアップすることができます。
Datameer の CEO を務める Stefan Groschupf 氏は次のように述べています。「Azure HDInsight アプリケーション プラットフォームは、これまでにない堅牢性と安定性に優れたフレームワークであり、Datameer デプロイメントの構成やテストをクラウドで迅速に行えます。当社ではこの柔軟性を最大限に活用し、自社ソリューションの各種デプロイメント オプションやマーケティング用の材料に対して同じポータル内で反復テストを実施しています。HDInsight は、圧倒的な容易さと速さでクラウド ベースのソリューションを市場に投入することができます。パートナーとして提携したことで、HDInsight アプリケーション プラットフォームを通じてお客様とのつながりが生まれ、時間をかけずに Datameer を HDInsight でお試しいただけるようになりました」。
本日、Azure HDInsight ISV プログラムに Cask と StreamSets が新たなパートナーとして参加することが発表されました。Cask (英語) は、データ パイプラインの視覚的な開発、実行、自動化、運用を実現する拡張可能なセルフサービス型のオープン ソース フレームワークを提供しています。一方、StreamSets (英語) が提供する Dataflow Performance Manager では、1 つのウィンドウからビッグ データのデータ フローを管理できるため、企業は転送中のあらゆるデータをマッピングしたり計測することができます。
今週、ビッグ データ関連では、Strata + Hadoop World の話題で持ち切りでした。このイベントはそれだけこの業界やコミュニティにとって大きなものだったと思います。データ処理関連の新たなアイデアやイノベーションが世界中で毎日のように生み出されていることを考えるだけでわくわくします。マイクロソフトもその流れに乗ってデータ ソリューションのイノベーションを推し進め、お客様にシンプルながらも強力な機能を提供し、クラウドでお好きなツールやプラットフォームを使用していただけるようにしたいと考えています。