Azure Data Lake Store の一般提供を開始
執筆者: Oliver Chiu (Product Marketing, Hadoop/Big Data and Data Warehousing)
このポストは、11 月 16 日に投稿された Azure Data Lake Store now generally available の翻訳です。
このたび、Azure Data Lake Store の一般提供が開始されました。パブリック プレビュー (英語) の発表以来、Azure Data Lake は急速に成長している Azure サービスの 1 つで、現在は数千ものお客様にご利用いただいています。今回の一般提供では、エンド ユーザーの生産性を向上させるサービス機能を始め、運用環境へのデプロイのためのセキュリティと可用性が強化されています。
Azure Data Lake の概要
ビッグ データ ソリューションは近年、分析手法が過去データの分析から先見的な予測分析へと移行しています。しかし、導入に際していくつかの課題があり、企業でのビッグ データの活用はいまだに拡大していません。Azure Data Lake は、さまざまな規模、構造、スループットのデータを保存し、あらゆる種類の処理、分析をすべてのプラットフォーム、言語で簡単に実行できるサービスです。これにより、開発者、データ サイエンティスト、アナリストのビッグ データの利用を推進します。データの取り込みや保存の複雑さが解消され、ビッグ データをすばやく利用できるようになります。Azure Data Lake には、以下の 3 つのサービスが含まれています。
- Azure Data Lake Store (英語): ビッグ データ分析を可能にする無制限のデータ レイク
- Azure Data Lake Analytics (英語): オンデマンドの超並列ジョブ サービス
- Azure HDInsight (英語): Cloud Hadoop および Spark のフル マネージド サービス
Azure Data Lake Store の概要
データ レイクの価値は、非構造化、半構造化、構造化の全種類のデータに対応するソリューションを開発できる点にあります。その先駆けとなる Azure Data Lake Store は、安全性と高度なスケーラビリティを備え、HDFS のオープン標準に基づいて構築されたエンタープライズ向けの初のクラウド データ レイクです。データのサイズ制限なしに超並列分析を実行できるため、あらゆる分析データから価値を引き出すことができます。たとえば、IoT ソリューションのセンサーやデバイス、またはオンライン ショッピング サイトから店舗にデータをリアルタイムで取り込むことができます。
ペタバイト単位のファイルと数兆個のオブジェクト
Azure Data Lake Store が登場する以前は、大規模なデータセットをクラウドに保存することは大きな課題でした。オブジェクト ストアには擬似的な制限があり、高解像度の動画、ゲノム データセット、地震データセット、医療データ、その他の多種多様なデータなど、数百テラバイトにもなる大きなファイルの保存には適していません。Azure Data Lake Store の革新的なテクノロジは、大規模なデータセットの分析、保存を可能にします。単一の Azure Data Lake Store アカウントでは、ファイルあたりのサイズが 1 PB 以上のファイルを数兆個も保存可能です。これは、他のクラウド ストアの 200 倍に相当します。
そのため、Data Lake Store は、高解像度の動画、ゲノム データセット、地震データセット、医療データ、その他の多種多様な業界のデータなどの大規模なデータセットを含む、あらゆる種類のデータの保存に適しています。
スケーラブルな超並列分析のスループット
Data Lake Store は、ペタバイト級データの処理や分析で大容量スループットを必要とする大規模な分析システム用に設計されています。Data Lake Store では、根本からアプリケーションの再設計やデータの再分割を行うことなく、スループットをスケーリングして、あらゆるサイズの分析ワークロードをサポートすることができます。何千もの同時実行プログラムにより、数百テラバイトのデータの読み取り/書き込みを効率化し、分析ジョブの実行に大容量のスループットを提供します。お客様はアプリケーション ロジックに集中するだけでよく、ストアが自動的にあらゆるレベルのスループットに最適化されます。
クラウド向けの HDFS
Microsoft Azure Data Lake Store は、Apache Hadoop 分散ファイル システム (HDFS) のオープン標準を使用するアプリケーションすべてに対応します。そのため、HDFS のディレクトリ構造の再作成は必要なく、既存の Hadoop および Spark データをクラウドに簡単に移行できます。
- Hadoop クラスターを使用する
- Data Lake Analytics を使用する
- Stream Analytics を使用する
- Data Catalog を使用する
- Power BI を使用する
常時暗号化、ロールベースのセキュリティ、監査
Data Lake Store では、お客様のデータ資産を保護し、オンプレミスのセキュリティおよびガバナンス コントロールをクラウドに簡単に拡張することができます。データは常時暗号化されます。転送中のデータには SSL、保存中のデータの暗号化には Azure Key Vault のサービスまたはユーザーが管理する HSM を利用したキーを使用します。シングル サインオン (SSO)、多要素認証、数百万の ID のシームレスな管理などの機能は、Azure Active Directory を通じて組み込まれています。詳細な POSIX ベースの ACL を使用すると、ロールベースのアクセス制御が有効な Data Lake Store 内のすべてのデータに対して、ユーザーやグループを承認できます。また、システムへのアクセスや構成の変更をすべて監査することにより、セキュリティや規制遵守のニーズに対応することができます。さらに、このビッグ データ ソリューションでは、エンタープライズ レベルの SLA によって 99 .9% の可用性が保証されるほか、年中無休 24 時間体制のサポートが提供されます。
- セキュリティの概要
- アクセス制御リスト
- 大規模なデータセットのセキュリティ保護
- Active Directory 認証
- ビデオ: Azure Data Lake のセキュリティの概要 (英語)
- ビデオ: Azure Data Lake での OAuth を使用した開発 (英語)
- ビデオ: Azure Data Lake での認証 (英語)
使用を開始するには
このサービスを開始するには、Azure サブスクリプションを所有しているか、または Azure の無料評価版にサインアップしている必要があります。この条件を満たしているお客様は、入門ガイドの説明に従って操作を進めると、数秒程度で Azure Data Lake Analytics をセットアップし、開始できます。
また、Microsoft Virtual Academy (英語) の Data Lake に関する無料のコースもご確認ください。