Azure Data Lake の紹介
このポストは、4 月 29 日に投稿された Introducing Azure Data Lake の翻訳です。
「データ レイク」は、業界でもまだ新しい概念です。データ レイクとは、要件やスキーマを正式に定義するまで、収集したあらゆる種類のデータを 1 か所にまとめて保存する全社規模のレポジトリのことです。データ レイクを活用することで、保存するデータをサイズ、構造、取り込み速度によって区別する必要がなく、要件やスキーマが定義されたら Hadoop や高度な分析機能を使用して、データのパターンを割り出すことができます。データ レイクはまた、保存されたデータをデータ ウェアハウスに移行する前の準備を行うための低コストのレポジトリとしても利用できます。
データ レイクは膨大な可能性を秘めているものの、まだ完全に実現されるには至っていません。ストレージ容量、ハードウェアの調達、スケーラビリティ、パフォーマンス、コストといった問題が重なり、お客様がデータ レイクを導入できていないのが現状です。先日の Build (英語) では、クラウド内のビッグ データの分析ワークロードに使用可能なマイクロソフトのハイパー スケール レポジトリである Azure Data Lake が発表されました。クラウド向けに構築された Azure Data Lake は、HDFS との互換性があり、無制限のスケーリングやきわめて高いスループットを実現し、エンタープライズ クラスの機能を備えています。
- クラウド向け HDFS: Azure Data Lake は HDFS と互換性のある Hadoop ファイル システムで、Azure HDInsight などのマイクロソフト製品、Revolution-R Enterprise、Hortonworks や Cloudera といった業界標準 Hadoop ディストリビューションを接続可能です。
- ペタバイト単位のファイルのサポート、きわめて高いスループット: データ レイクの目的は、Hadoop を実行してすべてのデータを対象とした高度な分析を実施し、データ自体から結論を見つけ出すことです。そのためには、分析結果を迅速に得られるように、データ レイクがクエリの超並列処理をサポートする必要があります。Azure Data Lake では、この要件を満たすために、単一のアカウントに保存できるデータ サイズに制限を設けていません。また、ファイルのサイズにも制限はないため、非常に大きなファイルを保存できます。さらに、大量の小規模な書き込みを低レイテンシで処理できるように設計されているため、Web サイトの分析、モノのインターネット (IoT)、センサーから取得したデータの分析など、ほぼリアルタイムな処理が要求されるシナリオに最適です。
- エンタープライズ対応: 「エンタープライズ対応」とは、そのソリューションを社内の既存のデータ プラットフォームの重要な要素として実行できるということです。Azure Data Lake では、Azure Active Directory の活用とデータのレプリケーションによって、優れた耐久性と可用性を実現しています。
マイクロソフトは、Azure HDInsight、Azure Data Factory、Revolution R Enterprise (英語)、Azure Machine Learning (英語) など、ビッグ データ ソリューションと高度な分析ソリューションの提供を通じて、ビッグ データの普及に取り組んでいます。このエコシステムに Azure Data Lake が加わることでさまざまなメリットが実現され、いつかの日かお客様がエクサバイト単位のデータに対してあらゆる分析を実施できるようになることを目指しています。このソリューションの詳細については、https://azure.microsoft.com/ja-jp/campaigns/data-lake/ をご覧ください。パブリック プレビューの通知を希望される場合もそちらからサインアップできます。