使い慣れた R がクラウドのスケーラブルな Hadoop と Spark で利用可能に
執筆者: Oliver Chiu (Product Marketing, Hadoop/Big Data and Data Warehousing)
このポストは、3 月 29 日に投稿された Microsoft brings the familiarity of R to the scalability of Hadoop and Spark in the Cloud の翻訳です。
Azure HDInsight は Azure Data Lake の一部として提供されるマネージド Hadoop サービスですが、このたび Strata + Hadoop World (英語) において、Azure HDInsight (英語) 内で R Server の使用が可能になったことが発表 (英語) されました。これにより、Azure HDInsight で包括的な機械学習アルゴリズムと統計関数を実行し、Hadoop や Spark を活用するクラウドで利用できるようになりました。
R Server が HDInsight のワークロードとして実行できるようになったことで、R 利用時のメモリや処理速度の制限がなくなったほか、分析環境を PC から大規模なマルチノードの Hadoop クラスターや Spark クラスターに拡張して、R の能力を最大限に引き出すことができるようになりました。このため、従来よりも大規模なデータセットで機会学習モデルのトレーニングと利用が可能になり、ビジネスを左右する予測精度が向上することになります。
HDInsight 用 R Server の概要
R は広く利用されているプログラム言語の 1 つで、計算生物学から量的マーケティングに至るさまざまな分野のデータ サイエンティストが高度な問題の解決に使用しています。Azure HDInsight 用 R Server は、HDInsight で作成された Hadoop クラスターや Spark クラスターと統合された拡張版の R 実装です。また、クラウド上の Hadoop や Spark で実行される完全にオープン ソースの R 実装としては唯一のものです。Azure HDInsight 用 R Server を使用すると、Hadoop や Spark の備えるスケーラビリティと信頼性を活用しながら、使い慣れた R 言語による機械学習が可能になります。また、メモリや処理速度の制限がなくなり、コードを PC から数テラバイトの大容量ファイルに拡張できるため、より強力かつ正確なモデルを作成することができます。
HDInsight 用 R Server はオープン スタンダードに準拠
Microsoft R は Open Source R と完全な互換性を持ち、既存のライブラリはすべて R Server で使用できます。また、R Server では Hadoop の機能を活用してあらゆる既存の R 関数をマルチノードで並列処理できるため、既存の知識やコード資産を有効利用できます。パラメーター スイープの実行や、初期条件を変化させながらのモデルのシミュレーションもいたって簡単です。さらに、HDInsight 用 R Server ではユーザーの好みのオープン ソース IDE (RStudio など) を使用できます。
使用するには
本製品を使用するには、Azure サブスクリプションを所有しているか、または Azure の無料評価版にサインアップしている必要があります。この条件を満たしているお客様は、数分程度で HDInsight 用 R Server クラスターをセットアップし、実行することができます。
詳細については、以下のリンクをご覧ください。