Comment fonctionne Azure AI Sécurité du Contenu ?
Azure AI Sécurité du Contenu fonctionne avec du texte et des images, ainsi qu’avec du contenu généré par l’IA.
Les fonctionnalités de vision de Sécurité du contenu sont alimentées par le modèle Florence Foundation de Microsoft, qui a été entraîné avec des milliards de paires texte-image. L’analyse de texte utilise des techniques de traitement du langage naturel, ce qui permet de mieux comprendre les nuances et le contexte. Azure AI Sécurité du Contenu est multilingue et peut détecter les contenus dangereux, qu’ils soient courts ou longs. La solution est actuellement disponible en anglais, en allemand, en espagnol, en français, en portugais, en italien et en chinois.
Azure AI Sécurité du Contenu classifie le contenu en quatre catégories :
Pour chaque catégorie, un niveau de gravité est utilisé pour déterminer si le contenu doit être bloqué, envoyé à un modérateur ou approuvé automatiquement.
Les fonctionnalités d’Azure AI Sécurité du Contenu sont notamment :
Protection du contenu textuel
La modération du texte analyse le texte selon quatre catégories : Violence, discours haineux, contenu sexuel et automutilation. Pour chaque catégorie, un niveau de gravité de 0 à 6 est indiqué. Ce niveau permet de hiérarchiser ce qui doit faire l’objet d’une attention immédiate par des personnes, ainsi que les degrés d’urgence. Vous pouvez également créer une liste de blocage pour rechercher des termes spécifiques à votre situation.
Boucliers d’invite est une API unifiée qui permet d’identifier et de bloquer les attaques de jailbreak à partir des entrées dans les grands modèles de langage (LLM). Elle inclut à la fois les entrées de l’utilisateur et les documents. Ces attaques sont des invites adressées aux LLM qui tentent de contourner les dispositifs de sécurité intégrés au modèle. Les invites de l’utilisateur sont testées pour garantir que l’entrée adressée au LLM est sécurisée. Les documents sont testés pour garantir que le texte ne contient pas d’instructions dangereuses.
La détection de contenu protégé vérifie que le texte généré par l’IA ne contient pas de texte protégé, tel que des recettes, des paroles de chansons protégées par des droits d’auteur ou d’autres documents originaux.
La détection de l’ancrage protège contre les réponses inexactes des LLM dans les textes générés par l’IA. Les LLM publics utilisent les données disponibles au moment où ils ont été entraînés. Toutefois, des données peuvent être introduites après l’entraînement initial du modèle ou être générées à partir de données privées. Une réponse ancrée est une réponse dans laquelle la sortie du modèle est basée sur les informations de la source. Une réponse non ancrée est une réponse dans laquelle la sortie du modèle varie par rapport aux informations de référence. La détection de l’ancrage inclut une option de raisonnement dans la réponse de l’API. Cela permet d’ajouter un champ de raisonnement qui explique toute détection de manque d’ancrage. Notez cependant que le raisonnement augmente le temps de traitement et les coûts.
Protection du contenu des images
La modération des images analyse le contenu inapproprié selon quatre catégories : Violence, automutilation, contenu sexuel et haine. Un niveau de gravité est retourné : Sécurisé, faible ou élevé. Vous pouvez ensuite définir un niveau de seuil (faible, moyen ou élevé). Pour chaque catégorie, la combinaison du niveau de gravité et du seuil détermine si l’image est autorisée ou bloquée.
La modération du contenu multimodal analyse à la fois les images et le texte, y compris le texte extrait d’une image à l’aide de la reconnaissance optique de caractères (OCR). Le contenu est analysé selon quatre catégories : Violence, discours haineux, contenu sexuel et automutilation.
Solutions de sécurité personnalisées
Les catégories personnalisées vous permettent de créer vos propres catégories en fournissant des exemples positifs et négatifs et en entraînant le modèle. Le contenu peut ensuite être analysé en fonction de vos propres définitions de catégories.
Le message du système de sécurité vous aide à rédiger des invites efficaces pour guider le comportement d’un système IA.
Limites
Azure AI Sécurité du Contenu utilise des algorithmes d’intelligence artificielle et ne détecte donc pas toujours le langage inapproprié. Il peut également arriver que certains contenus acceptables soient bloqués car le système s’appuie sur des algorithmes et l’apprentissage automatique pour détecter le langage qui pose problème.
Azure AI Sécurité du Contenu doit être testé et évalué sur des données réelles avant d’être déployé. Une fois que le système a été déployé, vous devez continuer à le superviser afin de vérifier la précision de ses performances.
Évaluation de la précision
Pour évaluer la précision d’Azure AI Sécurité du Contenu par rapport à votre situation, comparez ses performances selon quatre critères :
- Vrai positif : Identification correcte d’un contenu dangereux.
- Faux positif : Identification incorrecte d’un contenu dangereux.
- Vrai négatif : Identification correcte d’un contenu inoffensif.
- Faux négatif : Le contenu dangereux n’est pas identifié.
Azure AI Sécurité du Contenu fonctionne mieux avec l’aide de modérateurs humains qui peuvent résoudre les cas d’identification incorrecte. Lorsque des utilisateurs ajoutent du contenu à un site, ils ne s’attendent pas à ce qu’il soit supprimé sans raison. Une communication avec les utilisateurs sur les raisons pour lesquelles un contenu est supprimé ou signalé comme inapproprié permet à chacun de comprendre ce qui est autorisé et ce qui ne l’est pas.