Azure CI/CD データパイプライン

[アーティクル]
07/16/2024

Azure DevOps Services

この記事では、Azure の継続的インテグレーションと継続的デリバリー (CI/CD) データパイプラインとそのデータサイエンスの重要性について説明します。

データパイプラインを使用すると、次のことができます。

さまざまなデータソースからデータを取り込みます。
データを処理して変換します。
他のユーザーが使用できるように、処理されたデータをステージングの場所に保存します。

データパイプラインの概要を示す図。

エンタープライズデータパイプラインは、複数のソースシステムと、サポートされているさまざまなダウンストリームアプリケーションを使用して、より複雑なシナリオに進化する可能性があります。

データパイプラインから次の情報が得られます。

ユーザーが使用できる一貫性のある形式にデータを変換することで、一貫性を確保します。
自動化されたデータパイプラインを使用して、データを操作する際のヒューマンエラーを排除することで、エラーを削減します。
データ処理変換に費やす時間を短縮することで、効率を高める。

データパイプラインを使用すると、データの専門家は、主要な職務機能に集中し、データから分析情報を取得し、企業がより良い意思決定を行うのに役立ちます。

継続的インテグレーションと継続的デリバリー (CI/CD)

継続的インテグレーションと継続的デリバリー (CI/CD) は、すべての開発者がコードの共有コードリポジトリで連携するソフトウェア開発アプローチです。開発者が変更を加えた場合、自動化されたプロセスによってコードの問題が検出されます。 CI/CD を使用すると、開発ライフサイクルが短縮され、エラー率が低くなります。

データサイエンスの CI/CD データパイプライン

機械学習モデルの構築は、データサイエンティストが機械学習モデルをトレーニングしてスコア付けするためのコードを記述するという点で、従来のソフトウェア開発に似ています。ただし、コードに基づく従来のソフトウェアとは異なり、データサイエンス機械学習モデルは、アルゴリズムやハイパーパラメーターなどのコードと、モデルのトレーニングに使用されるデータの両方に基づいています。ほとんどのデータサイエンティストは、データの準備、クリーニング、特徴エンジニアリングに 80% の時間を費やしていると言います。

機械学習モデルの品質を確保するために、A/B テストなどの手法を使用して、モデルのパフォーマンスを比較および維持します。 A/B テストでは、通常、1 つの制御モデルと 1 つ以上の治療モデルが使用されます。

複数の機械学習モデルを同時に使用して、機械学習モデルの CI/CD に別の複雑さのレイヤーを追加できます。 CI/CD データパイプラインは、データサイエンスチームがビジネスに質の高い機械学習モデルをタイムリーに提供するために不可欠です。

次のステップ

Azure を使用してデータパイプラインを構築する

次の方法で共有

Azure CI/CD データパイプライン

継続的インテグレーションと継続的デリバリー (CI/CD)

データサイエンスの CI/CD データパイプライン

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure CI/CD データ パイプライン

継続的インテグレーションと継続的デリバリー (CI/CD)

データ サイエンスの CI/CD データ パイプライン

次のステップ

フィードバック

その他のリソース

Azure CI/CD データパイプライン

データサイエンスの CI/CD データパイプライン