Azure Data Lake の紹介

Article
05/25/2015

このポストは、4 月 29 日に投稿された Introducing Azure Data Lake の翻訳です。

「データレイク」は、業界でもまだ新しい概念です。データレイクとは、要件やスキーマを正式に定義するまで、収集したあらゆる種類のデータを 1 か所にまとめて保存する全社規模のレポジトリのことです。データレイクを活用することで、保存するデータをサイズ、構造、取り込み速度によって区別する必要がなく、要件やスキーマが定義されたら Hadoop や高度な分析機能を使用して、データのパターンを割り出すことができます。データレイクはまた、保存されたデータをデータウェアハウスに移行する前の準備を行うための低コストのレポジトリとしても利用できます。

データレイクは膨大な可能性を秘めているものの、まだ完全に実現されるには至っていません。ストレージ容量、ハードウェアの調達、スケーラビリティ、パフォーマンス、コストといった問題が重なり、お客様がデータレイクを導入できていないのが現状です。先日の Build (英語) では、クラウド内のビッグデータの分析ワークロードに使用可能なマイクロソフトのハイパースケールレポジトリである Azure Data Lake が発表されました。クラウド向けに構築された Azure Data Lake は、HDFS との互換性があり、無制限のスケーリングやきわめて高いスループットを実現し、エンタープライズクラスの機能を備えています。

クラウド向け HDFS: Azure Data Lake は HDFS と互換性のある Hadoop ファイルシステムで、Azure HDInsight などのマイクロソフト製品、Revolution-R Enterprise、Hortonworks や Cloudera といった業界標準 Hadoop ディストリビューションを接続可能です。
ペタバイト単位のファイルのサポート、きわめて高いスループット: データレイクの目的は、Hadoop を実行してすべてのデータを対象とした高度な分析を実施し、データ自体から結論を見つけ出すことです。そのためには、分析結果を迅速に得られるように、データレイクがクエリの超並列処理をサポートする必要があります。Azure Data Lake では、この要件を満たすために、単一のアカウントに保存できるデータサイズに制限を設けていません。また、ファイルのサイズにも制限はないため、非常に大きなファイルを保存できます。さらに、大量の小規模な書き込みを低レイテンシで処理できるように設計されているため、Web サイトの分析、モノのインターネット (IoT)、センサーから取得したデータの分析など、ほぼリアルタイムな処理が要求されるシナリオに最適です。
エンタープライズ対応: 「エンタープライズ対応」とは、そのソリューションを社内の既存のデータプラットフォームの重要な要素として実行できるということです。Azure Data Lake では、Azure Active Directory の活用とデータのレプリケーションによって、優れた耐久性と可用性を実現しています。

マイクロソフトは、Azure HDInsight、Azure Data Factory、Revolution R Enterprise (英語)、Azure Machine Learning (英語) など、ビッグデータソリューションと高度な分析ソリューションの提供を通じて、ビッグデータの普及に取り組んでいます。このエコシステムに Azure Data Lake が加わることでさまざまなメリットが実現され、いつかの日かお客様がエクサバイト単位のデータに対してあらゆる分析を実施できるようになることを目指しています。このソリューションの詳細については、https://azure.microsoft.com/ja-jp/campaigns/data-lake/ をご覧ください。パブリックプレビューの通知を希望される場合もそちらからサインアップできます。

Share via

Azure Data Lake の紹介

Additional resources