Azure CI/CD データ パイプライン
Azure DevOps Services
この記事では、Azure の継続的インテグレーションと継続的デリバリー (CI/CD) データ パイプラインとそのデータ サイエンスの重要性について説明します。
データ パイプラインを使用すると、次のことができます。
- さまざまなデータ ソースからデータを取り込みます。
- データを処理して変換します。
- 他のユーザーが使用できるように、処理されたデータをステージングの場所に保存します。
エンタープライズ データ パイプラインは、複数のソース システムと、サポートされているさまざまなダウンストリーム アプリケーションを使用して、より複雑なシナリオに進化する可能性があります。
データ パイプラインから次の情報が得られます。
- ユーザーが使用できる一貫性のある形式にデータを変換することで、一貫性を確保します。
- 自動化されたデータ パイプラインを使用して、データを操作する際のヒューマン エラーを排除することで、エラーを削減します。
- データ処理変換に費やす時間を短縮することで、効率を高める。
データ パイプラインを使用すると、データの専門家は、主要な職務機能に集中し、データから分析情報を取得し、企業がより良い意思決定を行うのに役立ちます。
継続的インテグレーションと継続的デリバリー (CI/CD)
継続的インテグレーションと継続的デリバリー (CI/CD) は、すべての開発者がコードの共有コード リポジトリで連携するソフトウェア開発アプローチです。 開発者が変更を加えた場合、自動化されたプロセスによってコードの問題が検出されます。 CI/CD を使用すると、開発ライフサイクルが短縮され、エラー率が低くなります。
データ サイエンスの CI/CD データ パイプライン
機械学習モデルの構築は、データ サイエンティストが機械学習モデルをトレーニングしてスコア付けするためのコードを記述するという点で、従来のソフトウェア開発に似ています。 ただし、コードに基づく従来のソフトウェアとは異なり、データ サイエンス機械学習モデルは、アルゴリズムやハイパーパラメーターなどのコードと、モデルのトレーニングに使用されるデータの両方に基づいています。 ほとんどのデータ サイエンティストは、データの準備、クリーニング、特徴エンジニアリングに 80% の時間を費やしていると言います。
機械学習モデルの品質を確保するために、A/B テストなどの手法を使用して、モデルのパフォーマンスを比較および維持します。 A/B テストでは、通常、1 つの制御モデルと 1 つ以上の治療モデルが使用されます。
複数の機械学習モデルを同時に使用して、機械学習モデルの CI/CD に別の複雑さのレイヤーを追加できます。 CI/CD データ パイプラインは、データ サイエンス チームがビジネスに質の高い機械学習モデルをタイムリーに提供するために不可欠です。