次の方法で共有


データ サイエンティスト向け Team Data Science Process

この記事では、Azure テクノロジで包括的なデータ サイエンス ソリューションを実装するときに設定する目標のガイダンスとトレーニングについて説明します。

データ科学者向けの目標

この一覧では、Team Data Science Process (TDSP) を使用するデータ科学者の主な目標について説明します。

これらの目標は、TDSP を使用するための準備に不可欠です。 TDSP は、データ サイエンス プロジェクトを効果的に管理および開始するための包括的なアプローチの概要を示します。 この記事では各目標の重要性について説明し、関連する Azure リソースへのリンクを提供します。

分析ワークロードを理解する

  • 要件の特定: このステップでは、分析ワークロードの特定のニーズと目標を理解します。 回答すべきビジネスに関わる質問と解決すべき問題を特定するのに役立ちます。

  • スコープの定義: このステップでは、関連するデータと分析タスクにチームが集中できるよう、プロジェクトのスコープを明確に定義します。

  • リソースの割り当て: このステップでは、コンピューティング能力、ストレージ、人間の専門知識など、必要なリソースを特定するためのワークロードを分析します。

TDSP 内の統合

Azure には、分析ワークロードに使用できるリソースが多数あります。 次の一覧に、Azure アーキテクチャで推奨されるリソースを示します。

  • 計画と実行: 戦略的計画とガバナンスのために Azure 向けのクラウド導入フレームワークを使用します。 このフレームワークにより、分析ワークロードをビジネス目標とコンプライアンス要件に沿って調整できます。 また、TDSP で使用する比較的単純なフレームワークに基づいて構築されています。 クラウド導入フレームワークの機能は次のとおりです。

    • 戦略的計画: クラウド導入をビジネス目標に沿って調整するための戦略的ガイダンスを提供します。 戦略的計画とは、組織の目標を達成できるように分析ワークロードを設計することを意味します。

    • ガバナンスとコンプライアンス: ガバナンスとコンプライアンスのためのフレームワークを提供します。 ガバナンスとコンプライアンスのフレームワークを使用して、データ処理と分析ワークロードを規制要件と組織のポリシーに準拠させます。

    • 移行と最新化: 既存の分析ワークロードを Azure に移行して、新しい環境で中断を最小限に抑え、最適なパフォーマンスを実現できるように導きます。

    • 管理と運用: クラウド リソースの管理と運用に関するベスト プラクティスの概要を説明します。これにより、効率的で信頼できる分析ワークロードの運用を確保できます。

    • 最適化: ワークロードを継続的に最適化するためのツールと手法を提供します。 最適化とは、リソースを効率的に使用し、コストを効果的に管理することを意味します。

  • 開発とコラボレーション: Azure Synapse Analytics を使用して分析ソリューションを開発、テスト、デプロイし、データ科学者とエンジニアにコラボレーション環境を提供します。 1 テラバイトを超えるようなビッグ データの処理や、機械学習および人工知能 (AI) モデリングには、Azure Synapse Analytics プラットフォームを使用することをお勧めします。 Azure Synapse Analytics の機能は次のとおりです。

    • 統合エクスペリエンス: 即時のビジネス インテリジェンスおよび機械学習のニーズに合わせてデータの取り込み、データ管理、およびデータ提供を行うための統合エクスペリエンスが用意されています。

    • データ統合: さまざまなデータ ソースとシームレスに統合して、包括的なデータ インジェストとデータ処理の機能を実現します。

    • ビッグ データとデータ ウェアハウス: ビッグ データとデータ ウェアハウスの機能を組み合わせることで、大規模なデータセットに対して複雑なクエリを効率的に実行できます。

    • スケーラビリティ: ワークロードの需要に応じてコンピューティング リソースをスケーリングします。これにより、さまざまなデータ処理の負荷に効果的に対処できます。

    • コラボレーション: 共有ワークスペースと統合開発環境 (IDE) を提供して、データ サイエンス チーム内のコラボレーションを促進します。

    • 分析: Machine Learning や Power BI などのサービスに対応した組み込みの統合を使用して、高度な分析と機械学習をサポートします。

  • 監視と最適化: Azure Monitor を使用して、パフォーマンスの追跡、問題の特定、分析ワークロードの最適化を行います。 Azure Monitor は、高可用性と信頼性の確保に役立ちます。 Azure Monitor の機能は次のとおりです。

    • データ収集: Azure リソース、アプリケーション、オペレーティング システムなど、さまざまなソースからメトリックとログを収集します。

    • 監視: CPU 使用率、メモリ使用量、スループットなどのメトリックを監視して、分析ワークロードのパフォーマンスと正常性に関する分析情報を提供します。

    • 診断: 診断ログとアクティビティ ログを使用して、データ処理パイプラインとワークロードの問題と異常を特定することができます。

    • アラート: 特定のメトリックまたはログ データに基づいてアラートを構成し、分析ワークロードのパフォーマンスや信頼性に影響する可能性のある潜在的な問題を速やかに通知します。

    • 視覚化: データを視覚化するためのカスタマイズ可能なダッシュボードとブックを提供します。これは、ワークロードのパフォーマンスの傾向とパターンを理解するのに役立ちます。

TDSP ライフサイクルを使用する

TDSP ライフサイクルを使用して、データ サイエンス プロジェクトの開発を構造化します。

  • 構造化アプローチ: データ サイエンス プロジェクトを実行するための構造化されたフレームワークを提供し、体系的で規律あるアプローチを促進します。

  • コラボレーション: 明確な役割と責任を定義して、チーム メンバー間のコラボレーションを促進します。

  • ベスト プラクティス: 業界のベスト プラクティスが組み込まれており、プロジェクトを効率的かつ効果的に実施することができます。

データ科学者向けの統合

TDSP は、ピア レビューされたアーキテクチャ フレームワークであり、AI モデルとデータ サイエンス モデルを生成するための特定のフレームワークをデータ科学者に提供します。

Azure Machine Learning の使用

Machine Learning を使用して、機械学習モデルを構築してデプロイします。 Machine Learning は、TDSP ライフサイクルの 5 つのステージ (ビジネスの把握、データの取得と理解、モデリング、デプロイ、顧客の同意) のそれぞれについて推奨される主要な Azure リソースです。 Machine Learning の機能は次のとおりです。

  • 高度な分析: 機械学習モデルをビルド、トレーニング、デプロイするための強力なツールとサービスを提供します。

  • スケーラビリティ: チームが大規模なデータセットと複雑なモデルを処理できるようにするスケーラブルなコンピューティング リソースを提供します。

  • 統合: 他の Azure サービスと適切に統合され、データ インジェストからデプロイまでのシームレスなワークフローを実現します。

Machine Learning が TDSP の各ステージをサポートする方法を次に示します。

ビジネスの把握

この最初のステージで Machine Learning を使用すると、ビジネス要件を把握し、データ サイエンス プロジェクトの目標を定義することができます。

  • プロジェクト ワークスペース: チームが共同作業を行い、ドキュメントを共有できるプロジェクト ワークスペースを提供します。 コラボレーションにより、すべてのユーザーがビジネス目標に沿って作業できるようになります。

  • 実験の追跡: ドキュメントをサポートし、データ サイエンス プロジェクトを導く最初の仮説とビジネス メトリックを追跡するための機能もサポートします。

  • Azure DevOps との統合: プロジェクト ワークフロー、ユーザー ストーリー、タスクを管理します。 Azure DevOps は、ビジネスの把握をアクション可能項目にマップするのを手助けします。

データの取得と理解

このステージで Machine Learning を使用すると、データを収集して探索し、その構造、およびビジネス上の問題との関連性を理解することができます。

  • データ統合: Machine Learning は、Azure Data Lake や Azure SQL Database などのデータ サービスとシームレスに統合されるため、さまざまなソースからの容易なデータ インジェストが促進されます。

  • データのラベル付け: データセットに注釈を付けるのに役立つ組み込みのデータ ラベル付けツールで、教師あり学習モデルに役立ちます。

  • 探索的データ分析 (EDA): Machine Learning で Jupyter Notebook および統合された Python/R 環境を使用すると、徹底的な EDA でデータ分布を理解してパターンを特定し、異常を検出することができます。

モデリング

このステージでデータ科学者は、ビジネス上の問題に対処するために機械学習モデルのビルドとトレーニングを行います。

  • 自動機械学習: 最適なアルゴリズムを自動的に選択し、モデル開発プロセスを高速化するハイパーパラメーターを調整します。

  • カスタム モデリング: TensorFlow、PyTorch、Scikit-learn などの一般的なフレームワークを使用してカスタム モデル開発をサポートします。

  • 実験とバージョン管理: 複数の実験の並行実行、結果の追跡、およびモデルのバージョン管理をサポートします。これにより、最適なモデルの比較と選択が容易になります。

  • ハイパーパラメーターのチューニング: 自動ハイパーパラメーター チューニングに対する組み込みサポートを使用して、モデルのパフォーマンスを最適化します。

展開

このステージでは、モデルを開発して検証した後、Machine Learning によってモデルがデプロイされ、運用環境で使用できるようになります。

  • モデル デプロイ: Azure Kubernetes Service (AKS) やエッジ デバイスなど、さまざまなデプロイ オプションが用意されているため、柔軟なデプロイ戦略を実現できます。

  • エンドポイント管理: リアルタイム予測とバッチ予測のエンドポイントを管理するためのツールを提供し、スケーラブルで信頼性の高いモデルの提供に役立ちます。

  • 継続的インテグレーションと継続的デプロイ (CI/CD): 機械学習モデルの CI/CD を可能にする Azure DevOps と統合して、開発から運用環境への反復可能な移行を構築します。

顧客による受け入れ

この最終ステージでは、デプロイされたモデルがビジネス要件を満たし、価値を提供できるようにするために Machine Learning を使用することに重点を置きます。

  • モデルモニタリング: モデルのパフォーマンスを追跡する、ドリフトを検出する、そして長期にわたってモデルの正確性と関連性を維持するための包括的な監視機能が用意されています。

  • フィードバック ループ: 予測を使用したり予測を確認したりして、モデルを再トレーニングし、モデルの精度と関連性を継続的に向上させるフィードバック ループの実装をサポートします。

  • レポートと視覚化: ノートブックや Power BI などの視覚化ツールと統合して、ダッシュボードとレポートを作成し、モデルの結果と分析情報を関係者に提示します。

  • セキュリティとコンプライアンス: モデルとデータを規制要件に準拠させ、データのプライバシーとセキュリティを管理するためのツールを提供します。

データ転送とデータ ストレージの基礎を理解する

効果的なデータ転送とストレージは、大量のデータを安全に管理するための重要な基盤です。

  • データ管理: 最も効果的で、準拠した効率的な方法で大量のデータを管理できるようにします。

  • アクセシビリティ: コラボレーションやリアルタイム処理に欠かせない、チーム メンバーと分析ツールがデータに簡単にアクセスできるようにします。

  • コンプライアンスとセキュリティ: データ処理を法的要件と規制要件に準拠させ、機密データを保護します。

TDSP 内でデータ転送とデータ ストレージを統合する

Azure には、データ転送とデータ ストレージに使用できるリソースが多数あります。 次の一覧に、Azure アーキテクチャに推奨されるリソースを示します。

Azure データ転送オプション: Azure との間でデータを効率的に移動するためのさまざまな方法とツールが含まれており、さまざまなデータ ニーズとデータ サイズに対応できます。

  • Azure Data Box: インターネットに依存せずに物理デバイスを使用して、大規模な一括データを Azure に転送します。 ネットワーク帯域幅が制限されている場合でも、テラバイト単位のデータを安全に転送します。

  • Azure Import/Export サービス: ハード ドライブを Azure データセンターに直接発送することで、大量のデータを Azure に転送できます。 このサービスは、ネットワーク経由のアップロードが不可能な初期データ移行に役立ちます。

  • Azure Data Factory: データ転送を自動化して処理します。 Data Factory は、データの移動や変換を調整し自動化するクラウドベースのデータ統合サービスです。 複雑な ETL (抽出、変換、読み込み) プロセスを可能にし、さまざまなソースからのデータを Azure に統合して、分析および機械学習タスクを実行します。

  • ネットワーク転送: Azure ExpressRoute を使用したインターネット ベースの高速転送が含まれます。 ネットワーク転送ではオンプレミスのインフラストラクチャと Azure 間のプライベート接続が利用でき、データを安全かつ迅速に転送できます。

Azure Database Migration Service: Azure へのデータベースの移行を処理してダウンタイムを最小限に抑え、データの整合性をサポートします。 Database Migration Service は、複数のデータベース ソースから Azure データ プラットフォームへのシームレスな移行を最小限のダウンタイムで実現できるように設計された、フル マネージド サービス (オンライン移行) です。 これにより、次のメリットがあります。

  • 自動移行: オンプレミス データベースを SQL Database、Azure Database for MySQL、Azure Database for PostgreSQL に移動するための自動化されたワークフローを提供して、移行プロセスを簡略化します。

  • 継続的レプリケーション: 継続的なデータ レプリケーションをサポートします。これにより、ダウンタイムが最小限に抑えられ、移行プロセス中のデータを最新状態に保ちます。

  • 互換性: 互換性チェックをサポートし、シームレスかつ効率的な移行のためにターゲットの Azure 環境に対して最適化を推奨します。

  • 評価ツール: データベースの移行準備状況を評価し、潜在的な問題を特定して解決するための推奨事項を提示するツールを提供します。

Azure Storage: さまざまな種類のデータとユース ケースに合わせてカスタマイズされた、スケーラブルで安全な耐久性の高いストレージ ソリューションを提供します。 次のストレージの種類がサポートされています。

  • Blob Storage: ドキュメント、画像、ビデオ、バックアップなどの非構造化データを格納します。 機械学習モデルの大規模なデータセットを格納する必要があるデータ科学者に最適です。

  • Azure Data Lake Storage: ビッグ データ分析を処理します。 Data Lake Storage は階層型名前空間が使用でき、Hadoop との互換性があります。そのため、大規模なデータ分析プロジェクトに適しています。

  • Azure Table ストレージ: 半構造化データの NoSQL キー値を格納し、スキーマなしの設計を必要とするアプリケーションに適しています。

  • Azure Files ストレージ: 標準 SMB プロトコルを使用してアクセスするクラウド内のファイル共有を管理します。これは、共有ストレージのニーズに対応するのに役立ちます。

  • Azure Queue Storage: アプリケーション コンポーネント間メッセージングを提供します。これは、サービスの分離とスケーリングに役立ちます。

データ ソース ドキュメントを提供する

  • データの透明性: データ ソースに関するドキュメントにより、データの取得場所、データの品質、データの制限に関して透明性を確保できます。

  • 再現性: 適切なドキュメントは、他のチーム メンバーや関係者がデータ サイエンス プロセスを理解して再現するのに役立ちます。

  • データ統合: データ統合とは、データの起源と構造を明確に理解できるようにして、さまざまなデータ ソースを効果的に統合することを意味します。

TDSP 内のデータ ソース ドキュメントを統合する

Azure には、データ ソースのドキュメントに使用できる多くのリソース (ノートブックなど) があります。 次の一覧に、Azure アーキテクチャに推奨されるリソースを示します。

Azure Data Catalog は、データ資産の検出を容易にするエンタープライズ規模のメタデータ カタログです。 データ ソースとその特性を文書化するのに役立ち、次のようなベネフィットがあります。

  • メタデータ管理: ユーザーはデータ ソースを登録し、説明、タグ、注釈を含むメタデータを追加できます。

  • データ ソースの検出: 組織内で使用可能なデータ ソースを検索して理解できる検索可能なカタログをユーザーに提供します。

  • コラボレーション: ユーザーがデータ ソースに関する分析情報とドキュメントを共有できるようになり、チーム メンバー間のコラボレーションが向上します。

  • データ ソース情報: データ ソースに関する情報を自動的に抽出して文書化します。 抽出される情報には、スキーマ、テーブル、列、リレーションシップが含まれます。

Azure Purview: 組織全体のデータの管理とガバナンスに役立つ統合データ ガバナンス サービスを提供します。 WCF インターセプターには、次の機能があります。

  • データ マッピングと系列: さまざまなシステム間のデータ フローと系列を文書化するのに役立ち、データの取得元と変換方法を明確に把握できます。

  • データ カタログ: メタデータとデータ分類で強化された検索可能なデータ カタログを提供するもので、Azure の Data Catalog に似ています。

  • ビジネス用語集: ビジネス用語集を作成して維持し、組織全体で用語の一貫性を保ち、理解を深められるようにします。

  • 分析情報と分析: データの使用状況に関する分析情報を提供し、データ品質の問題を特定できるようにして、ドキュメント プロセスを改善します。

分析処理ツールを使用する

  • 効率性: 分析処理に適したツールを使って、データ分析の効率を上げ、高速化します。

  • 機能: 包括的なデータ サイエンスに欠かせないデータの視覚化、統計分析、機械学習などの各種機能を、さまざまなツールで提供します。

  • 生産性: 専門ツールを使用すると、反復的なタスクが自動化され、高度な分析機能を利用できるため、データ科学者の生産性が大幅に向上する可能性があります。

TDSP 内で分析処理を統合する

Azure には、主要な推奨サービスである Machine Learning と併用可能な、分析処理に使用できるサービスが多数あります。 次の一覧では、Machine Learning 以外の機能を必要とする Azure アーキテクチャに推奨されるサービスを示します。

Azure Synapse Analytics: 大量のリレーショナル データと非リレーショナル データを処理できます。 データ ウェアハウスやビッグ データ システム全体にわたって分析情報を取得する時間を早める統合分析サービスです。 Azure Synapse Analytics には、次の機能があります。

  • データ統合: シームレスなデータ インジェストとデータ処理を可能にするさまざまなソースからのデータを統合します。

  • SQL Data Warehouse: エンタープライズ データ ウェアハウス機能とハイ パフォーマンス クエリを利用できます。

  • Apache Spark: 大規模なデータ分析と機械学習をサポートするビッグ データ処理用の Spark プールを備えています。

  • Synapse Studio: データ科学者がエンド ツー エンドの分析ソリューションを共同で構築できるようにします。 Synapse Studio は統合開発環境 (IDE) です。

Azure Databricks は、次の機能を提供する Azure プラットフォーム用に最適化された Apache Spark ベースの分析プラットフォームです。

  • コラボレーション用のノートブック: データ科学者がコードを記述し、実験を実行し、結果を共有できるコラボレーション用ワークスペースをサポートします。

  • スケーラブルなコンピューティング: ワークロードの需要に基づいてコンピューティング リソースを自動的にスケーリングし、コストとパフォーマンスを最適化します。

  • 機械学習: モデルの開発とトレーニングを効率化するために、MLlib、TensorFlow、Keras などの機械学習用の組み込みライブラリを提供します。

Data Factory: クラウドベースのデータ統合サービスを通じてデータ移動とデータ変換を調整します。 Data Factory では次の機能がサポートされます。

  • ETL パイプライン: 分析用にデータを処理および準備するための ETL (抽出、変換、読み込み) パイプラインを作成できます。

  • データ フロー: コードを記述せずにデータ変換プロセスを設計して実行するためのビジュアル データ フローを作成します。

  • 統合: オンプレミスやクラウドベースのデータ ストアなど、さまざまなデータ ソースに接続します。 この機能は、包括的なデータ統合を実現します。

Azure Stream Analytics: 高速移動データ ストリームを処理します。 Stream Analytics は、次の機能を提供するリアルタイム分析サービスです。

  • ストリーム処理: IoT デバイス、センサー、アプリケーションなどのさまざまなソースからのデータをリアルタイムで処理します。

  • SQL ベースのクエリ: データ科学者がアクセスできるようにストリーム処理ロジックを定義するため、使い慣れた SQL ベースの言語を使用します。

  • 統合: Event Hubs や IoT Hub などの他の Azure サービスと統合して、シームレスなデータ インジェストと処理を行います。

まとめ

この連続する一覧は、TDSP の使用を包括的に準備するのに役立ちます。

  1. プロジェクトの要件とスコープを明確に理解します。

  2. プロジェクトの実行には構造化されたコラボレーション アプローチを採用します。

  3. 機械学習と分析のための高度なツールとサービスを使用します。

  4. 効率的かつセキュリティで保護されたデータ管理を確保します。

  5. ドキュメントを通じて透明性と再現性を維持します。

  6. 適切なツールを使用して、データ処理の効率と有効性を高めます。

ビジネス目標を達成し、ベスト プラクティスに準拠したデータ サイエンス プロジェクトを成功させるには、準備が不可欠です。

Microsoft Learn のトレーニング パス

キャリアを踏み出したばかりの方でも経験のあるプロフェッショナルの方でも、Microsoft の自律型アプローチを採用すれば、より早く、より大きな自信を持って、自分のペースで目標に到達することができます。 対話型のモジュールやパスを通じてスキルを高めたり、講師から学んだりできます。 あなたの方法で学習し、成長しましょう。

Microsoft Learn では、トレーニング コンテンツを、初心者、中級者、上級者の 3 つのスキル レベルに分けて編成しています。 これらの違いを理解することは、自分のスキル レベルとキャリア目標に合った適切なラーニング パスを選択するうえで不可欠です。

初級

  • 対象ユーザー: 取り上げるテクノロジまたは概念を初めて学ぶ個人。
  • コンテンツ: 開始するために必要な概念、基本的なスキル、初期手順の基本的な概要。 通常は、核となる原則と基本的な知識について説明します。

目的:

  • 新しい領域で強固な基盤を構築する
  • 学習者が基本的な概念と用語を理解できるように支援する
  • より複雑な記事に学習者を備えさせる

初心者向けのラーニング パス

中級

  • 対象ユーザー: テクノロジに関する基本的な理解があり、知識を深めたいと思っている個人。
  • コンテンツ: 実践的な演習や実際のシナリオなど、より詳細かつ実用的なスキル。 対象領域について深く掘り下げる必要があります。

目的:

  • 基礎的な理解と高度な能力の間のギャップを埋める
  • 学習者がより複雑なタスクやシナリオを処理できるようにする
  • 認定試験または特殊な役割に学習者を備えさせる

中級車向けのラーニング パス

上級

  • 対象ユーザー: 自分のスキルを磨き、複雑で高度なタスクに取り組むことを目指す経験豊富なプロフェッショナル。
  • コンテンツ: 詳細な技術トレーニング、高度な技術、特殊な領域の包括的な説明。 多くの場合、エキスパートレベルの問題解決と最適化の戦略が含まれます。

目的:

  • 特定の分野で専門知識を提供する
  • エキスパートレベルの認定と高度なキャリアの役割に学習者を備えさせる
  • 学習者が各自のフィールドでプロジェクトをリードし、イノベーションを起こせるようにする

エキスパート向けのラーニング パス

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Mark Tabladillo | シニア クラウド ソリューション アーキテクト

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ

AI学習ハブでAI体験を続けます。