Que sont les « données humaines » et pourquoi est-il important de les sourcer de manière responsable ?
S’APPLIQUE À :Extension Azure CLI v2 (actuelle)Kit de développement logiciel (SDK) Python azure-ai-ml v2 (version actuelle)
Les données humaines sont des données collectées directement auprès ou à propos de personnes. Il est possible que des données humaines incluent des données personnelles comme des noms, des âges, des images ou des clips vocaux et des données sensibles telles que des données génétiques, des données biométriques, des identités de genre, des croyances religieuses ou des affiliations politiques.
La collecte de ces données peut être importante pour créer des systèmes d’IA adaptés à tous les utilisateurs. Mais certaines pratiques doivent être évitées, en particulier celles qui peuvent affecter physiquement et psychologiquement les contributeurs aux données.
Les meilleures pratiques décrites dans cet article vous aideront à mener des projets de collecte manuelle de données auprès de volontaires dans le cadre desquels tout le monde est traité avec respect et les dommages potentiels, en particulier ceux auxquels sont confrontés les groupes vulnérables, sont anticipés et atténués. Cela signifie que :
- Les personnes qui contribuent aux données ne sont pas contraintes ou exploitées de quelque manière que ce soit, et ont un contrôle sur les données personnelles collectées.
- Les personnes qui collectent et étiquettent les données ont reçu une formation adéquate.
Ces pratiques peuvent par ailleurs favoriser l’obtention de jeux de données plus équilibrés et de qualité supérieure, et une gestion optimisée des données humaines.
Il s’agit de pratiques émergentes et nous apprenons sans cesse. Les meilleures pratiques de la section suivante constituent un point de départ lorsque vous commencez vos propres collectes de données humaines responsables. Ces meilleures pratiques sont fournies uniquement à des fins d’information et ne doivent pas être considérées comme des conseils juridiques. Toutes les collectes de données humaines doivent faire l’objet de révisions spécifiques conformément aux réglementations relatives à la protection des données personnelles et légales applicables.
Bonnes pratiques générales
Nous vous suggérons les meilleures pratiques suivantes pour collecter manuellement des données humaines directement auprès de personnes.
Bonne pratique
Pourquoi ?
Obtenir le consentement éclairé des volontaires.
- Les participants doivent comprendre et autoriser la collecte et l’utilisation des données.
- Les données ne doivent être stockées, traitées et utilisées qu’aux fins mentionnées dans le consentement éclairé documenté d’origine.
- La documentation de consentement doit être correctement stockée et associée aux données collectées.
Indemnisez les contributeurs aux données de manière appropriée.
- Les contributeurs aux données ne doivent pas être poussés à participer par pression ou contrainte à la collecte de données et doivent être indemnisés équitablement pour leur temps et leurs données.
- Une indemnisation inappropriée peut relever de l’exploitation ou de la contrainte.
Laissez les contributeurs identifier eux-mêmes les informations démographiques.
- Les informations démographiques qui ne sont pas déclarées par les contributeurs aux données, mais affectées par les collecteurs de données, peuvent 1) générer des métadonnées inexactes et 2) être irrespectueuses envers les contributeurs aux données.
Anticipez les dommages possibles lors du recrutement de groupes vulnérables.
- La collecte de données auprès de groupes de population vulnérables présente un risque pour les contributeurs aux données et votre organisation.
Traitez les contributeurs aux données avec respect.
- Des interactions inappropriées avec les contributeurs aux données à n’importe quelle phase de la collecte de données peuvent avoir un impact négatif sur la qualité des données, ainsi que sur l’expérience globale de collecte de données pour les contributeurs aux données et les collecteurs de données.
Faites appel à des fournisseurs externes qualifiés.
- Les collectes de données avec des fournisseurs non qualifiés peuvent affecter négativement la qualité et la gestion des données, relever de pratiques non professionnelles et conduire à des résultats potentiellement dangereux pour les contributeurs aux données et les collecteurs de données (y compris des violations des droits de l’homme).
- Le travail d’annotation ou d’étiquetage (par exemple, transcription audio, étiquetage d’images) par des fournisseurs non qualifiés peut impacter ou biaiser la qualité des jeux de données, affecter la sécurité de la gestion des données, relever de pratiques non professionnelles et conduire à des résultats potentiellement dangereux pour les contributeurs aux données (y compris des violations des droits de l’homme).
Communiquez clairement les attentes aux fournisseurs dans l’énoncé des travaux SOW (contrats ou accords).
- Un contrat qui n’énonce pas les exigences d’un travail de collecte des données responsable peut affecter la qualité ou le processus de collecte des données.
Sélectionnez soigneusement les zones géographiques.
- Le cas échéant, la collecte de données dans des zones à risque géopolitique élevé et/ou des zones géographiques inconnues peut conduire à l’obtention de données inutilisables ou de faible qualité et impacter la sécurité des parties concernées.
Gérez vos jeux de données de manière appropriée.
- Une gestion incorrecte des données et une documentation médiocre peuvent entraîner une mauvaise utilisation des données.
Notes
Cet article se concentre sur les recommandations relatives aux données humaines, notamment les données personnelles et les données sensibles telles que les données biométriques, les données médicales, les données d’ordre raciale ou ethnique, les données collectées manuellement auprès du grand public ou d’employés d’une entreprise, ainsi que les métadonnées relatives aux caractéristiques humaines, telles que l’âge, l’origine et l’identité de genre, qui peuvent être créées par annotation ou étiquetage.
Télécharger l’ensemble des recommandations ici
Meilleures pratiques pour la collecte de l’âge, de l’origine et de l’identité de genre
Pour que les systèmes d’IA soient adaptés à tous, les jeux de données utilisés pour la formation et l’évaluation doivent refléter la diversité des personnes qui utiliseront ces systèmes ou seront affectées par ceux-ci. Dans la majorité des cas, l’âge, l’origine et l’identité de genre peuvent permettre d’évaluer une série de facteurs susceptibles d’affecter les performances d’un produit pour des personnes variées. Toutefois, la collecte de ces informations requiert une attention particulière.
Si vous collectez ces données, permettez toujours aux contributeurs aux données de s’identifier eux-mêmes en choisissant leurs propres réponses plutôt que de laisser les collecteurs de données effectuer des hypothèses (potentiellement incorrectes). Incluez également une option « Je préfère ne pas répondre » pour chaque question. Ces pratiques sont respectueuses des contributeurs aux données et donnent des données plus équilibrées et de meilleure qualité.
Elles ont été développées sur la base de trois années de recherche avec des parties prenantes ciblées et la collaboration avec des équipes variées de Microsoft : groupes de travail pour l’équité et l’inclusion, Inclusion et diversité à l’échelle mondiale, Préparation à l’échelle mondiale, Bureau pour une IA responsable, etc.
Pour permettre aux utilisateurs de s’identifier eux-mêmes, vous pouvez recourir aux questions suivantes.
Age
Quel âge avez-vous ?
Veuillez sélectionner votre tranche d’âge
[Incluez les tranches d’âge appropriées, telles que définies par l’objectif du projet, la région géographique et les conseils des experts du domaine]
- # à #
- # à #
- # à #
- Je préfère ne pas répondre
Origine
Veuillez sélectionner les catégories qui décrivent le mieux votre origine
Vous pouvez sélectionner plusieurs options
[Incluez les catégories appropriées, telles que définies par l’objectif du projet, la région géographique et les conseils des experts du domaine]
- Origine
- Origine
- Origine
- Multiple (multiraciale, ascendance mixte)
- Non répertorié, je me décris comme : _________________
- Je préfère ne pas répondre
Identité de genre
Comment vous identifiez-vous ?
Vous pouvez sélectionner plusieurs options
[Incluez les identités de genre appropriées, telles que définies par l’objectif du projet, la région géographique et les conseils des experts du domaine]
- Identité de genre
- Identité de genre
- Identité de genre
- Je préfère me décrire comme : _________________
- Je préfère ne pas répondre
Attention
Dans certaines parties du monde, des lois criminalisent des catégories de genre spécifiques, de sorte qu’il peut être dangereux pour les contributeurs aux données de répondre à cette question honnêtement. Laissez toujours aux personnes la possibilité de refuser de répondre. Collaborez avec des experts et des avocats régionaux pour examiner soigneusement les lois et normes culturelles de chaque lieu où vous prévoyez de collecter des données, et si nécessaire, évitez complètement de poser cette question.
Télécharger l’aide complète ici.
Étapes suivantes
Pour plus d’informations sur l’utilisation de vos données, consultez les articles suivants :
- Sécuriser l’accès aux données dans Azure Machine Learning
- Options d’ingestion des données pour les workflows Azure Machine Learning
- Optimiser le traitement des données avec Azure Machine Learning
Suivez ces guides pratiques pour utiliser vos données une fois que vous les avez recueillies :