編集

次の方法で共有


学生の帰属を予測する

Azure Data Factory
Azure Machine Learning
Azure SQL データベース
Azure Synapse Analytics
Power BI

この記事では、学生の帰属を予測するためのソリューションについて説明します。 コンポーネントには、次が含まれます。

  • 機械学習モデルをトレーニングおよびデプロイするための Azure Machine Learning。
  • 貢献要因を特定し、バイアスを検出するための責任ある AI ツールボックス。
  • Azure Synapse Analytics (データ処理用)。

アーキテクチャ

学生の帰属を予測する機械学習モデルにおけるデータの流れを示すアーキテクチャ図。

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  1. [データ ソース]。 教育データは、次のさまざまなソースから取得されます。

    • 地区の記録
    • 教材や成績書のデジタルアーカイブ
    • 財務補助金交付に関する詳細情報
    • コースアンケートに対する学生の回答

    教育データは、地区データベースや州データベースなど、さまざまなデータ ソースから取得されます。 オンプレミス データベースに格納されています。

  2. データ準備。 データの準備中に、データが収集、結合、構造化、および編成されます。 その後、すぐに使えるようになります。

    • 機械学習モデルを構築する。
    • ビジネス インテリジェンスを目的とするために。
    • 分析およびデータ視覚化アプリケーションにおいて。

    このソリューションでは、Azure Data Factory を使用して、データの変換と読み込みのプロセスを調整します。 Azure Synapse Analytics を使用してデータを処理し、Machine Learning の実験をトリガーします。

  3. AI 機械学習のトレーニング このソリューションでは、Azure Machine Learning スタジオを使用して、幅広い教師あり学習アルゴリズムをトレーニングし、学生の帰属を正確に予測するモデルを見つけます。 次の責任ある AI ツールボックス ツールは、責任ある AI の実装に役立ちます。

    • 対話型の解釈可能性ダッシュボードにより、ユーザーは学生の帰属に寄与する主な要因を理解することができます。
    • 公平性ツールは、選択したモデルの学生の性別と人種に関連する偏りを検出して緩和するための対話型ダッシュボードを提供します。
  4. AI 機械学習推論。 推論中に、以前に見えなかったデータ ポイントが機械学習モデルに送り込まれます。 このモデルでは、学生の退学率が計算されます。 Machine Learning では、組み込みのモデル レジストリが格納され、Azure クラウド内のモデルのバージョン管理が提供されます。 モデルのレジストリでは、トレーニングしたモデルの整理と追跡が容易に行えます。 トレーニング済みのモデルは、Azure Data Science Virtual Machine またはマネージド エンドポイントのインスタンスにデプロイされます。

  5. 分析ワークロード 。 モデル スコアリングの結果は、Azure Synapse Analytics と Azure SQL Database に格納されます。 その結果は、フロントエンドで使用したり、モデルを監視および再トレーニングしたりするために使用できます。

  6. フロントエンド モデルの使用。 Power BI とAzure App Service の Web Apps 機能で、スコア付けされた結果が使用されます。

学生データ スキーマ

学生の帰属モデルにとって重要な情報は、学生の行動に影響を与える要因で構成されています。 次の表は、学生の帰属と保持パターンに影響を与えるデータ要素のリストです。 リストは完全ではありません。

特徴量 サブ機能 説明
性別 出生時に学生が割り当てられた性別、または 「報告されていません」。
人種 学生が報告した人種は、"黒人"、"白人"、"太平洋諸島系住民"、"アジア人"、"アメリカ先住民族"、"報告されていない" のいずれかです。
大学の第一世代 第 一 世代の学生であるかどうか。 第一世代の学生の場合、親や保護者に大学の4年制以上の学位を持っている人はいません。
用語の合計 学生が登録されている用語の合計数。
高等学校卒業またはGED その学生が高等学校卒業または、同等の教育を受けているか。
累積成績点平均 (GPA) その学生が獲得したすべての成績の平均。
累積取得単位時間 登録期間中に学生が蓄積したすべての時間。
別のプログラムに転送 開始後に学生がプログラムを切り替えたかどうか。
資金援助の対象 学生の助成金受給資格の有無。
Age 最小値 登録期間に記録される最小年齢。
Age 最大値 登録期間に記録される最高年齢。
エントリの型 デュアル登録 学生がデュアル プログラムに登録されているかどうか。
エントリの型 早期入学 学生が通常の通知日より前に入学したかどうか。
エントリの型 大学で初めて 学生が初めて大学に入学するかどうか。
エントリの型 その他 数値として示される、その他の入学の型。
エントリの型 再エントリ 再エントリ許可を表す数値。
エントリの型 転送 転入許可を表す数値。
学業成績 学業成績評価試験 学生が学業成績を向上させる必要がある期間。登録期間に比例して正規化された値として表されます。
学業成績 学業中断 学生が学業を中断しているかどうか。在籍期間に比例して正規化された値で表されます。
学業成績 1 年間の学業中断 学生が 在学期間中の1 年のうち、中断された期間の割合。
学業成績 学業に関する警告 成績不合格のため学業上の警告が学生に与えられたかどうか。
学業成績 低 GPA の延長試験期間 学生の試験期間が、登録期間に比例して延長された期間。
学業成績 学業成績が良好であること 在籍期間中、学生の学業成績が良好であった期間の割合。
学業成績 中断または退学後の試験期間 学生が学業中断後に試験期間に置かれているかどうか。
[命令の種類] ブレンドされた 学生が対面式とオンラインの組み合わせの指導を受けた時間の割合。
[命令の種類] オンラインのみ 学生がオンライン指導のみを受けた時間の割合。
[命令の種類] リモート学習 学生がリモート 学習に登録されているかどうか。
[命令の種類] リモート学習の組み合わせ 学生が対面指導とリモート学習を組み合わせた時間の割合。
[命令の種類] 従来 学生が従来の対面指導を受けた時間の割合。
教職員の種類 教職員 教育機関の教職員から学生が受けた指導の割合。
教職員の種類 非常勤 契約教授から学生が受けた指導の割合。
教職員の種類 不明な講師の種類 学生が受けた指導のうち、種類が不明であるものの割合。
疲弊 学生が大学を中退したかどうか。

コンポーネント

  • Azure Data Lake では、さまざまな形状や形式のデータに対して無制限のストレージが提供されます。 エンタープライズ レベルのセキュリティと監視のサポートに加えて、Azure Data Lake は Azure 分析ツールと簡単に統合できます。 Azure Blob Storage 上に構築されたAzure Data Lake により、アーカイブやデータ レイクなど、大量の非構造化データを管理できます。 ハイ パフォーマンス コンピューティング、機械学習、クラウド ネイティブ ワークロードに適したサービスです。 このソリューションでは、機械学習データ用のローカル データ ストアと、機械学習モデルをトレーニングするための高品質のデータ キャッシュを提供します。

  • SQL Database は、最新のクラウド アプリケーション用のフル マネージド データベース エンジンです。 このデータベース サービスでは、組み込みのインテリジェントな最適化、グローバルなスケーラビリティと可用性、高度なセキュリティ オプション、ダウンタイムのない動的なスケーラビリティが提供されます。 Microsoft Azure SQL Database では、グラフや JSON、空間データ、XML データなどのリレーショナル データと非リレーショナル構造を自動的に処理できます。 このサービスの可用性の保証については、「Azure SQL Database のサービスレベル アグリーメント (SLA)」を参照してください。

  • Data Factory は、オーケストレーションおよびクラウド Extract/Transform/Load (ETL) ツールです。 Data Factory では、さまざまなデータ ソース間で 90 を超える組み込みコネクタを提供するだけでなく、コードなしの環境でコピーと変換の機能が提供されます。 そのダイアグラム ビューを使用して、データ統合プロセスを監視および管理できます。

  • Azure Synapse Analytics は、データ ウェアハウス用の分析サービスです。 このサービスでは、SQL と Spark のテクノロジを使用し、データのクエリに専用またはサーバーレスのオプションが提供されます。 Azure Synapse Analytics では、データの取り込み、探索、準備、変換、管理を行う統合されたエクスペリエンスが提供されます。 このサービスでは、ビジネス インテリジェンスと機械学習の目的でデータを使用することもできます。

  • Machine Learning は、広範囲な機械学習のターゲットに対してモデルの開発およびデプロイを容易に行えるようにする、エンタープライズ レベルの機械学習サービスです。 このサービスでは、ローコード デザイナー、自動機械学習、さまざまな統合開発環境 (IDE) をサポートするホストされた Jupyter ノートブック環境が、あらゆるスキル レベルのユーザーに提供されます。

  • Azure Machine Learning スタジオは、機械学習プロジェクトのライフサイクルを高速化および管理するために使用できるクラウド サービスです。 このサービスでは、トレーニング、モデルデプロイ、機械学習操作 (MLOps) の管理が行われます。

  • 責任ある AI ツールボックス は、責任ある AI 原則を実装するのに役立つ統合ツールと機能のコレクションです。 ツールボックスは、エラー分析、解釈可能性、公平性、反ファクト分析、因果関係のある意思決定の分野で、いくつかのオープンソース ツールのアイデアを統合します。 このオープンソース フレームワークを使用すると、機械学習モデルを迅速かつ簡単に評価できます。

  • Azure Data Science Virtual Machine は、特にデータ サイエンス専用に構築された Azure クラウド プラットフォーム上のカスタマイズされた仮想マシン (VM) イメージです。 このイメージには、多くのよく使われるデータ サイエンス ツールが事前にインストールおよび構成されており、高度な分析のためのインテリジェントなアプリケーションの構築をすぐに始めることができます。

  • Machine Learning エンドポイント は、クライアントがトレーニング済みモデルから推論出力 (スコアリング出力) を取得するためにアクセスできる HTTPS エンドポイントです。 各エンドポイントは、キー トークン認証を使用して安定したスコアリング URI を提供します。

  • App Service には、Web アプリの構築、デプロイ、およびスケーリングを行うためのフレームワークが用意されています。 Web Apps 機能は、Web アプリ、REST API、モバイル バックエンドをホストするための HTTP ベースのサービスです。 Web Apps を使用すると、.NET、.NET Core、Java、Ruby、Node.js、PHP、または Python で開発できます。 Windows および Linux ベースの環境において、アプリケーションの実行とスケーリングを容易に行うことができます。

  • Power BI は、ビジネス分析用および視覚的に没入型かつ対話型の分析情報用の、Azure のサービスとしてのソフトウェア (SaaS) です。 Power BI では、さまざまなデータ ソースへの豊富なコネクタのセット、簡単な変換機能、高度な視覚化機能が提供されます。

代替

  • このソリューションでは、データ モデリングとデプロイ ツールとして Machine Learning を使用します。 代わりに、コード優先のアプローチで Azure Databricks を使用できます。
  • ソリューション内のデータ ソースは Azure コンポーネントです。 サード パーティソースのトレーニング データを使用することもできます。

シナリオの詳細

学生の減少は、世界中の教育機関が直面する最も一般的な課題の 1 つです。 私立および公立の教育システムのすべてのレベルで減少が広がり、様々な結果を招いています。 たとえば、公立のシステムでは、学生の減少によって税収が効果的に使用されなくなります。 民間教育機関では、退学者は評判を損ない、学校の収入に悪影響を及ぼします。 学生の減少率が上昇すると、卒業後に就職する専門家が少なくなり、グローバル経済が脅かされることになります。

このような結果を考えると、教育機関は学生の減少を減らす方法に多額の投資を行っています。 これらの教育機関が、減少の根本原因を特定して対処することがますます重要になっています。 その主な要因を理解することは、教育機関が個々の学生をサポートし、退学率を下げるために大規模なソリューションを実施するのに役立ちます。 また、教育機関は、広範なプログラム オファリングのセット全体で減少を最小限に抑えるために、減少率を予測できなければなりません。

学生の退学を予測することは、学生が学校を止めるかどうかを予測する二項分類の問題です。 この種類のモデルは、人口統計データ、財務データ、学生の学歴、コースの提供形態を含む学生中心のデータに基づいて構築されています。

解釈可能性とバイアス検出のために、このソリューションでは責任ある AI ツールボックスを使用します。 教育機関が継続的教育に影響を与える要因を理解することで、学生の減少を抑制するための適切な措置を講じることができます。 しかし、教育機関は、性別や人種などの保護されたクラスに偏ることなくモデルを使用する必要があります。 この点は重要であり、責任ある AI プラクティスを検討して実装する必要があります。 公平なモデルは、学生の成功のために偏りのないサポートするのに役立ちます。

考えられるユース ケース

このソリューションは、次の多くの領域に適用されます。

  • 適応型学習。 教育現場では、適応型学習は学生の成功に不可欠です。 個々の学生の進歩を考慮した後、教育機関は教育者をサポートし、学生にとって可能な限り最高の学習体験を提供するためにアプローチをカスタマイズすることができます。
  • 従業員退職の予測。 従業員は、組織にとって貴重な資産です。 従業員が不満を持っているかどうか、または従業員が仕事を辞める理由が他にあるかどうかを知っておくことが重要です。 この情報を持っている場合、雇用主は従業員を保持するための積極的な措置を講じることができます。
  • 顧客離れ予測。 小売では、チャーン予測は、ユーザーが Web サイト、サービス、または製品の使用をやめる可能性があるかどうかを特定するのに役立ちます。 企業や大企業は、顧客を維持できない場合に損失を被ります。 顧客離れモデルは、これらの組織がオファリングを改善し、顧客離れを防止する方法を特定するのに役立ちます。

考慮事項

これらの考慮事項は、ワークロードの品質向上に使用できる一連の基本原則である Azure Well-Architected Framework の要素を組み込んでいます。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

このソルーションのテクノロジーは、コストの管理とコントロールを目的として、スケーラビリティと可用性を考慮して選択されました。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。 詳細については、「信頼性の設計レビュー チェックリスト」を参照してください。

このソリューションのコンポーネントは高可用性を特徴としています。 ただし、機械学習と分析のタスクは、トレーニングと運用環境デプロイという 2 つの部分で構成されています。 トレーニングに必要なリソースには、通常は高可用性は必要ありません。 運用環境のデプロイに関しては、Azure VM は高可用性を完全にサポートしています。 詳細については、「Azure Virtual Machines の可用性オプション」を参照してください。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの設計レビュー チェックリスト」を参照してください。

このソリューションのコンポーネントは、組み込みのセキュリティを提供します。 また、Microsoft Entra 認証またはロールベースのアクセス制御を使用して管理できるアクセス許可もサポートされています。 適切なエンタープライズ レベルのセキュリティの確立については、「 エンタープライズ セキュリティに関する Azure Machine Learning のベスト プラクティス」を参照してください。

Azure Synapse Analytics は、コンポーネントの分離を使用してデータ保護、ネットワークのセキュリティ、脅威に対する保護の強化を行い、エンタープライズ グレードおよび業界をリードするセキュリティを備えています。 コンポーネントの分離により、セキュリティ攻撃時の脅威への露出を最小限に抑えることができます。 Azure Synapse Analytics では、機密性の高い個人学生データを保護するためのデータ難読化も提供されます。

SQL Database は、データ保護やデータ マスキングから脅威に対する保護まで、あらゆるレベルのセキュリティ機能を提供します。 詳細については、Azure SQL Database と SQL Managed Instance のセキュリティ機能の概要に関するページを参照してください。

このソリューションでセキュリティ機能を実装する場合は、次のリソースのガイドラインを考慮してください。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳細については、「コスト最適化の設計レビュー チェックリスト」を参照してください。

  • 必要な分だけ支払ってコストを最適化するには、分析、トレーニング、デプロイのワークロードに応じてリソースをスケーリングします。
  • このソリューションの実装コストを見積もるには、Azure 料金計算ツールを使用します。
  • Power BI が提供するさまざまなライセンスの詳細については、「Power BI の価格」を参照してください。

パフォーマンス効率

パフォーマンス効率とは、ユーザーからの要求に合わせて効率的な方法でワークロードをスケーリングできることです。 詳細については、「パフォーマンス効率の設計レビュー チェックリスト」を参照してください。

このシナリオのほとんどのコンポーネントは、解析アクティビティ レベルに応じて、スケールアップまたはスケールダウンできます。 Azure Synapse Analytics は、スケーラビリティとハイパフォーマンスを提供します。 アクティビティ レベルが低い場合は、このサービスを一時停止するか、コンピューティング リソースをスケール バックできます。

Machine Learning は、データのサイズと、モデル トレーニングに必要なコンピューティング リソースに応じてスケーリングできます。 デプロイでは、予想される負荷およびスコアリング サービスと、Azure Kubernetes Service (AKS) 使用時の待機時間の要件に基づいて、コンピューティング リソースをスケーリングできます。

スケーラブルなソリューションの設計に関するガイダンスについては、 パフォーマンス効率のチェックリストを参照してください。

その他の考慮事項

MLOps のガイドラインに従って、複数のワークスペース間でスケーラブルな、エンドツーエンドの機械学習のライフサイクルを標準化し管理します。 運用環境に移行する前に、実装されたソリューションにより、モデルの再トレーニング サイクルと自動再デプロイを使用して継続的な推論がサポートされていることを確認します。 詳細については、次のリソースを参照してください。

Azure Machine Learning の一環として、責任ある AI は、 AI の使用と開発の 6 つの柱に基づいています。

  • 公平性
  • 信頼性と安全性
  • プライバシーとセキュリティ
  • 包括性
  • 透明性
  • アカウンタビリティ

責任ある AI の概要と詳細な実装情報については、「責任ある AI とは」を参照してください。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Manasa Ramalinga | プリンシパル クラウド ソリューション アーキテクト、米国ナショナル CSA チーム

その他の共同作成者:

  • Charitha Basani | シニア クラウド ソリューション アーキテクト、米国ナショナル CSA チーム
  • Angela Kunanbaeva | シニア クラウド ソリューション アーキテクト、米国ナショナル CSA チーム

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ