"人間のデータ" とはどのようなもので、責任を持って収集することがなぜ重要か
適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)
人間のデータとは、人から直接収集された、または人に関するデータです。 人間のデータには、名前、年齢、画像、音声クリップなどの個人データや、遺伝データ、生体認証データ、性同一性、宗教的信念、政治的所属などの機密データが含まれる場合があります。
このデータを収集することは、すべてのユーザーに対して機能する AI システムを構築するために重要な場合があります。 ただし、特定の方法は避ける必要があります。特に、データの共同作成者に物理的および精神的な損害を与える可能性のある方法です。
この記事のベスト プラクティスは、関係者全員が尊重して扱われるように、ボランティアからの手動データ収集プロジェクトを実施するのに役立ちます。また、潜在的な危害 (特に傷つきやすいグループが直面するもの) が予想され、軽減されます。 これは、次のことを意味します。
- データを提供する人は、いかなる方法でも強制されたり悪用されたりすることがなく、収集される個人データを自分で制御できます。
- データを収集してラベル付けする人は、適切なトレーニングを受けています。
これらの方法は、よりバランスの取れた高品質のデータセットと、人間のデータのより良いスチュワードシップを確保するのにも役立ちます。
これらは新しい手法であり、私たちは学び続けています。 次のセクションのベスト プラクティスは、独自の責任ある人間のデータの収集を開始する際の出発点です。 これらのベスト プラクティスは情報提供のみを目的として提供されており、法的アドバイスとして扱うべきものではありません。 すべての人間のデータ収集は、特定のプライバシーと法律に関するレビューを受ける必要があります。
全般的なベスト プラクティス
人から直接人間のデータを手動で収集する場合は、次のベスト プラクティスをお勧めします。
ベスト プラクティス
理由
自発的なインフォームド コンセントを取得します。
- 参加者は、データ収集とデータの使用方法を理解し、同意する必要があります。
- データは、元の文書化されたインフォームド コンセントの一部である目的でのみ保存、処理、使用する必要があります。
- 同意に関するドキュメントは、適切に保管され、収集されたデータと関連付けられる必要があります。
データ提供者に適切に補償します。
- データ提供者は、データ収集について圧力をかけられたり強制されたりしてはならず、時間とデータに対して適切に補償される必要があります。
- 不適切な補償は、搾取または強制になる可能性があります。
提供者が人口統計情報を自分で確認できるようにします。
- データ提供者の自己報告ではなく、データ収集者によって割り当てられた人口統計情報は、1) メタデータが不正確になり、2) データ提供者に対して失礼になる可能性があります。
弱者グループを募集するときは損害を予期します。
- 弱者グループからデータを収集すると、データ提供者と組織にリスクが生じます。
データ提供者を尊重して扱います。
- データ収集のどのフェーズでもデータ提供者を不適切に扱うと、データの品質だけでなく、データ提供者とデータ収集者の全体的なデータ収集エクスペリエンスにも悪影響が及ぶことがあります。
外部供給者を慎重に認定します。
- 資格のない供給者によるデータ収集は、データの品質が低く、データ管理が不十分で、プロフェッショナルな作業ではなく、データ提供者やデータ収集者に有害な結果 (人権侵害を含む) が生じる可能性があります。
- 資格のない供給者による注釈またはラベル付け作業 (音声文字起こし、画像のタグ付けなど) は、低品質または偏りのあるデータセット、安全でないデータ管理、非プロフェッショナルな手法、データ提供者に有害な可能性のある結果 (人権違反を含む) につながる可能性があります。
供給者との作業記述書 (SOW) (契約) で期待を明確に伝えます。
- 責任あるデータ収集作業の要件が満たされていない契約は、低品質のデータや不適切に収集されたデータになる可能性があります。
地域を慎重に決定します。
- 該当する場合、地政学的リスクが高い地域や未知の地域でデータを収集すると、使用できないデータや低品質のデータが生じ、関係者の安全に影響を与える可能性があります。
データセットを適切に管理します。
- データ管理と文書化が不適切だと、データの誤用が発生する可能性があります。
注意
この記事では、個人データと機密データ (生体認証データ、健康データ、人種データ、民族データなど)、一般大衆または会社の従業員から手作業で収集されたデータ、年齢、祖先、性自認などの人間の特性に関連するメタデータなど、注釈またはラベル付けによって作成される可能性がある人間データに関する推奨事項に焦点を当てています。
年齢、祖先、性自認の収集に関するベスト プラクティス
AI システムがすべての人にとって適切に機能するためには、トレーニングと評価に使用されるデータセットに、それらのシステムを使用したりシステムから影響を受けたりする人の多様性が反映されている必要があります。 多くの場合、年齢、祖先、性自認は、さまざまな人に対する製品のパフォーマンスに影響を与える可能性のある要因の範囲を近似するのに役立ちます。ただし、この情報を収集するには特別な配慮が必要です。
このデータを収集する場合は、データ収集者が想定する (間違う可能性があります) のではなく、データ提供者が自分で認識できる (自分で応答を選択できる) ようにします。 また、各質問に対して "答えたくない" オプションも含めます。 これらの方法は、データ提供者を尊重していることを示し、よりバランスの取れた高品質のデータを生成します。
これらのベスト プラクティスは、対象となる利害関係者との 3 年間の研究および Microsoft の多くのチームとの協力に基づいて開発されています (公平性と包摂性のワーキング グループ、グローバルな多様性と受け入れ、グローバルな対応、責任ある AI のオフィスなど)。
対象者が自分で決定できるようにするには、次のアンケートの質問を使用することを検討します。
Age
何歳ですか?
"年齢範囲を選択してください"
[プロジェクトの目的、地理的な地域、ドメインの専門家からのガイダンスによって定義された適切な年齢範囲を含める]
- # から #
- # から #
- # から #
- 答えたくありません
祖先
あなたの祖先を最もよく説明するカテゴリを選択してください
"複数選択可能"
[プロジェクトの目的、地理的な地域、ドメインの専門家からのガイダンスによって定義された適切なカテゴリを含める]
- 祖先グループ
- 祖先グループ
- 祖先グループ
- 複数 (複数民族、多様な祖先)
- 一覧にないので、自分で説明します: ___________________
- 答えたくありません
性同一性
どのように認識していますか?
"複数選択可能"
[プロジェクトの目的、地理的な地域、ドメインの専門家からのガイダンスによって定義された適切な性自認を含める]
- 性同一性
- 性同一性
- 性同一性
- 自分で説明します: ________________
- 答えたくありません
注意事項
世界には特定の性別カテゴリを犯罪とする法律を設けている地域があるため、データ提供者がこの質問に正直に答えると危険な場合があります。 常に対象者に拒否する方法を提供します。また、地域の専門家や弁護士と協力して、データの収集を計画している各場所の法律や文化規範を慎重に検討し、必要に応じて、この質問を完全に避けるようにします。
次の手順
データの取り扱い方法について詳しくは、以下を参照してください。
- Azure Machine Learning でのデータ アクセスをセキュリティ保護する
- Azure Machine Learning ワークフローのデータ インジェスト オプション
- Azure Machine Learning を使用したデータ処理の最適化
収集した後のデータの取り扱いについては、次のハウツー ガイドに従ってください。