編集

次の方法で共有


従来の自動化された機械学習手法を使用して病院の再入院率を予測する

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

このアーキテクチャでは、クラウドに医療用の予測分析フレームワークを提供し、モデルの開発、デプロイ、および使用のパスを加速させます。

アーキテクチャ

このフレームワークでは、データ インジェスト、ストレージ、データ処理、分析、モデル デプロイのためにネイティブの Azure 分析サービスが使用されています。

多層アプリのアーキテクチャを示す図。

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

このアーキテクチャのワークフローは、参加者の役割の観点から説明されています。

  1. データ エンジニア: ソース システムからデータを取り込み、データ パイプラインを調整してソースからターゲットにデータを移動する役割を担います。 生データのデータ変換を実行する役割を担う場合もあります。

    • このシナリオでは、過去の再入院データが、オンプレミスの SQL Server データベースに格納されます。
    • 予想される出力は、クラウドベースのストレージ アカウントに格納される再入院データです。
  2. データ科学者: ターゲット ストレージ層内のデータに対してさまざまなタスクを実行し、モデルの予測に備える役割を担います。 タスクには、クレンジング、特徴エンジニアリング、データの標準化が含まれます。

    • クレンジング: データの前処理を行い、null 値を削除したり、不要な列を削除したりします。 このシナリオでは、欠損値が多すぎる列を削除します。
    • 特徴エンジニアリング:
      1. 目的の出力を予測するために必要な入力を決定します。
      2. 医師や看護師などの専門家との対話によって、考えられる再入院の予測因子を決定します。 たとえば、実際の証拠により、糖尿病患者の太りすぎは再入院の予測因子となる可能性があります。
    • データの標準化:
      1. 機械学習タスク用にデータを準備するために、データの場所と変動性を特徴付けます。 特徴には、データの分布、歪度、および尖度を含める必要があります。
        • 歪度は、分布はどのような形状かという質問の答えです。
        • 尖度は、分布の厚さあるいは重さの尺度は何かという質問の答えです。
      2. データセット内の異常を特定して修正します。予測モデルは、正規分布を持つデータセットに対して実行する必要があります。
      3. 予想される出力は、次のトレーニング データセットです。
        • すぐにデプロイできる満足のいく予測モデルを作成するために使用するもの。
        • 自動モデル予測 (AutoML) のためにシチズン データ科学者に提供できるもの。
  3. シチズン データ科学者: データ科学者からのトレーニング データに基づく予測モデルを構築する役割を担います。 シチズン データ科学者はほとんどの場合、予測モデルを作成するのに詳細なコーディング スキルを必要としない AutoML 機能を使用します。

    予想される出力は、デプロイする準備のできた、満足のいく予測モデルです。

  4. ビジネス インテリジェンス (BI) アナリスト: データ エンジニアが生成する生データに対して運用分析を行う役割を担います。 BI アナリストは、非構造化データからのリレーショナル データの作成、SQL スクリプトの作成、ダッシュボードの作成に関与する場合があります。

    予想される出力は、リレーショナル クエリ、BI レポート、ダッシュボードです。

  5. MLOps エンジニア: データ科学者またはシチズン データ科学者から提供されたモデルを運用環境に展開します。

    予想される出力は、運用の準備ができた再現可能なモデルです。

この一覧は、ワークフローの任意の時点で医療データと対話する可能性のあるすべての役割を包括的に示したものですが、役割は必要に応じて統合または拡張される場合もあります。

コンポーネント

  • Azure Data Factory は、オンプレミス システムから Azure にデータを移動し、他の Azure データ サービスと連携できるオーケストレーション サービスです。 データ移動にはパイプラインが使用され、抽出、変換、読み込み (ETL) や抽出、読み込み、変換 (ELT) などのさまざまな変換タスクを実行するためマッピング データ フローが使用されます。 このアーキテクチャでは、データ エンジニアは Data Factory を使用して、過去の再入院データをオンプレミスの SQL Server からクラウド ストレージにコピーするパイプラインを実行します。
  • Azure Databricks は、データ エンジニアリングと ML ワークロードに使用される Spark ベースの分析および機械学習サービスです。 このアーキテクチャでは、データ エンジニアは Databricks を使用して Data Factory パイプラインを呼び出し、Databricks ノートブックを実行します。 このノートブックは、最初のデータ クレンジングおよび特徴エンジニアリング タスクを処理するためにデータ科学者によって開発されます。 データ科学者は、データを標準化し、予測モデルを構築してデプロイするために、追加のノートブックにコードを記述できます。
  • Azure Data Lake Storage は、高パフォーマンスの分析ワークロード用の非常にスケーラブルで安全なストレージ サービスです。 このアーキテクチャでは、データ エンジニアは Data Lakes Storage を使用して、Azure に読み込まれるオンプレミス データの初期ランディング ゾーンと、トレーニング データの最終的なランディング ゾーンを定義します。 生または最終形式のデータは、さまざまなダウンストリーム システムからいつでも使用できます。
  • Azure Machine Learning は、機械学習モデルのトレーニング、デプロイ、自動化、管理、追跡に使用される共同作業環境です。 自動機械学習 (AutoML) は、ML モデル開発に必要な時間のかかる反復的なタスクを自動化する機能です。 データ科学者は Machine Learning を使用して Databricks から ML の実行を追跡し、データ科学者 の ML モデルのパフォーマンス ベンチマークとして機能する AutoML モデルを作成します。 シチズン データ科学者はこのサービスを使用して、機械学習アルゴリズムに関する詳細な知識を必要とせずに、AutoML を介してトレーニング データをすばやく実行してモデルを生成します。
  • Azure Synapse Analytics は、データ統合、エンタープライズ データ ウェアハウジング、ビッグ データ分析を統合した分析サービスです。 ユーザーは、サーバーレスまたは専用のリソースを大規模に使用することによって、データに対してクエリを自由に実行できます。 このアーキテクチャでは、次のことを行います。
    • データ エンジニアは Azure Synapse Analytics を使用して、データ レイク内のデータからリレーショナル テーブルを簡単に作成し、運用分析の基盤とします。
    • データ科学者はこれを使用して、データ レイク内のデータをすばやくクエリし、Spark ノートブックを使用して予測モデルを開発します。
    • BI アナリストはこれを使用して、使い慣れた SQL 構文を使用してクエリを実行します。
  • Microsoft Power BI はソフトウェア サービス、アプリ、コネクタのコレクションであり、これらが連携して、関連のないデータ ソースを、一貫性があり視覚的に没入型で対話形式の分析情報に変換します。 BI アナリストは Power BI を使用して、各患者の自宅の場所と最も近い病院の地図など、データから視覚化を開発します。
  • Microsoft Entra ID はクラウドベースの ID およびアクセス管理サービスです。 このアーキテクチャでは、Azure サービスへのアクセスを制御します。
  • Azure Key Vault は、キー、パスワード、証明書などのシークレット向けに安全なストアを提供するクラウド サービスです。 Key Vault では、データ レイクへの書き込みアクセスを取得するために Databricks で使用されるシークレットが保持されます。
  • Microsoft Defender for Cloud は統合されたインフラストラクチャ セキュリティ管理システムであり、データ センターのセキュリティ体制を強化し、クラウドやオンプレミスのハイブリッド ワークロード全体に高度な脅威保護を提供します。 Azure 環境に対するセキュリティ上の脅威を監視するために使用できます。
  • Azure Kubernetes Service (AKS) は、コンテナー化されたアプリケーションをデプロイおよび管理するためのフル マネージド Kubernetes サービスです。 AKS を使用すると、運用上のオーバーヘッドが Azure にオフロードされるため、Azure でのマネージド ASK クラスターの展開が簡素化されます。

代替

  • データ移動: Databricks を使用して、オンプレミス システムからデータ レイクにデータをコピーできます。 通常、Databricks は医療デバイスからのテレメトリなど、ストリーミングまたはリアルタイムの要件を持つデータに適しています。

  • Machine Learning: H2O.ai、DataRobot、Dataiku、その他のベンダーでは、Machine Learning AutoML と同様の自動機械学習機能が提供されています。 このようなプラットフォームを使用して、Azure データ エンジニアリングと機械学習のアクティビティを補完することができます。

シナリオの詳細

このアーキテクチャは、1999 年から 2008 年の 10 年間に米国の 130 箇所の病院から公開されているデータを使用して、糖尿病患者の再入院を予測するエンドツーエンド ワークフローの例を示しています。 まず、二項分類アルゴリズムの予測力を評価し、自動機械学習を使用して生成される予測モデルに対してそのベンチマークを実行します。 自動機械学習で偏ったデータを修正できない場合は、別の手法を適用する必要があります。 デプロイして使用するための最終的なモデルが選択されます。

医療およびライフ サイエンス組織は、患者や治療者に対してよりパーソナライズされたエクスペリエンスを提供しようと努める際に、レガシ システムのデータを使用して、関連性、正確性、および適時性を持つ予測分析情報を提供する必要があります。 データ収集は、従来の運用システムや電子医療記録 (EHR) を超え、コンシューマーの健康アプリ、フィットネスのウェアラブル、スマート医療デバイスなどの非構造化形式にますます移っています。 組織は、このデータをすばやく一元化し、データ サイエンスと機械学習の力を活用して顧客との関係を保つための能力を必要としています。

これらの目標を達成するには、医療およびライフ サイエンス組織は次のことを目標にする必要があります。

  • 予測分析を使用して、医療機関、病院管理者、製薬業者などにリアルタイムの価値を提供できるデータ ソースを作成する。
  • データ サイエンスと機械学習のスキルを持たない業界の領域の専門家 (SME) を適応させる。
  • データ サイエンスおよび機械学習 (ML) の SME に対し、予測モデルを効率良く正確かつ大規模に作成してデプロイするために必要な、柔軟性の高いツールを提供する。

考えられるユース ケース

  • 病院の再入院率を予測する
  • ML を利用した画像処理を通じて患者の診断を迅速化する
  • 医師のメモに対してテキスト分析を実行する
  • 医療におけるモノのインターネット (IoMT) からのリモートの患者のモニタリング データを分析して有害事象を予測する

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。 詳細については、「信頼性の設計レビュー チェックリスト」を参照してください。

多くの医療組織にとって、リアルタイムの臨床データと分析情報を提供することは非常に重要です。 ダウンタイムを最小限に抑え、データを安全に保つ方法を次に示します。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの設計レビュー チェックリスト」を参照してください。

医療データには多くの場合、機密の保護された医療情報 (PHI) と個人情報が含まています。 このデータをセキュリティで保護するために、次のリソースを使用できます。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳細については、「コスト最適化の設計レビュー チェックリスト」を参照してください。

このソリューションの価格は次のものに基づきます。

  • 使用される Azure サービス。
  • データの量。
  • 容量とスループットの要件。
  • 必要な ETL/ELT 変換。
  • 機械学習タスクを実行するために必要なコンピューティング リソース。

Azure 料金計算ツールを使用してコストを見積もることができます。

パフォーマンス効率

パフォーマンス効率とは、ユーザーからの要求に合わせて効率的な方法でワークロードをスケーリングできることです。 詳細については、「パフォーマンス効率の設計レビュー チェックリスト」を参照してください。

Data Factory セルフホステッド統合ランタイムは、高可用性とスケーラビリティを実現するためにスケールアップできます。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

  • Matt Hansen | シニア クラウド ソリューション アーキテクト
  • Sandy Su | クラウド ソリューション アーキテクト

次の手順

Azure サービス

医療ソリューション