Mosaic AI Gateway

Article
02/25/2025

Important

Cette fonctionnalité est en préversion publique.

Cet article décrit le Mosaic AI Gateway, la solution Databricks permettant de gérer et de surveiller l'accès aux modèles d'IA génératifs pris en charge et à leurs points de terminaison de service du modèle associés.

Qu’est-ce que Mosaic AI Gateway ?

Mosaïque AI Gateway est conçu pour simplifier l’utilisation et la gestion des modèles et agents d’INTELLIGENCE artificielle générative au sein d’une organisation. Ce service centralisé permet d’assurer la gouvernance, la surveillance et la préparation à la production des points de terminaison de service de modèle. Il vous permet également d’exécuter, de sécuriser et de régir le trafic IA afin de démocratiser et d’accélérer l’adoption de l’IA au sein de votre organisation.

Toutes les données sont consignées dans les tables Delta dans Unity Catalog.

Pour commencer à visualiser les données de votre passerelle d’IA, téléchargez l’exemple de tableau de bord de la passerelle d’IA sur GitHub. Ce tableau de bord exploite les données des tables d’inférence de suivi de l’utilisation et de journalisation des charges utiles.

Après avoir téléchargé le fichier JSON, importez le tableau de bord dans votre espace de travail. Pour obtenir des instructions sur l’importation de tableaux de bord, consultez Importer un fichier de tableau de bord.

Fonctionnalités prises en charge

Le tableau suivant définit les fonctionnalités disponibles de la passerelle d'IA et les types de points de terminaison de service de modèle qui les prennent en charge.

Fonctionnalité	Définition	point de terminaison de modèle externe	API du modèle de fondation du point de terminaison du débit approvisionné	Agents de Mosaic AI
Limitation des autorisations et des débits	Contrôler qui a accès et combien d’accès.	✓	✓
Journalisation des charges utiles	Surveillez et auditez les données envoyées aux API de modèle à l’aide de tables d’inférence .	✓	✓	✓
Suivi de l’utilisation	Surveillez l'utilisation opérationnelle et les coûts associés sur les points d'accès en utilisant les tables système .	✓	✓
Garde-fous de l’IA	Empêcher les données indésirables et les données non sécurisées dans les requêtes et les réponses. Consultez Garde-fous de l’IA.	✓	✓
Routage du trafic	Réduisez les pannes de production pendant et après le déploiement.	✓	✓

Mosaic AI Gateway est facturé sur la base des fonctionnalités activées. Pendant la préversion, ces fonctionnalités payantes incluent les garde-fous de l’IA, la journalisation des charges utiles et le suivi de l’utilisation. Les fonctionnalités telles que les autorisations de requête, la limitation du débit et le routage du trafic sont gratuites. Toutes les nouvelles fonctionnalités seront soumises à des frais.

Le tableau suivant indique le taux d’unités Databricks (DBUs) par million (M) de jetons pour les fonctionnalités payantes de la passerelle d’IA. Les frais sont indiqués sous la référence SKU Serverless Real-time Inference.

Fonctionnalité	Taux de DBU
Garde-fous de l’IA	21,429 DBU par M jetons
Journalisation des charges utiles	2,857 DBU par M jetons
Suivi de l’utilisation	0,571 DBU par M jetons

Garde-fous de l’IA

Les garde-fous de l’IA permettent aux utilisateurs de configurer et d’appliquer la conformité des données au niveau du point de terminaison de service de modèle et de réduire les contenus nuisibles sur toutes les requêtes envoyées au modèle sous-jacent. Les demandes et les réponses incorrectes sont bloquées et un message par défaut est renvoyé à l’utilisateur. Consultez Comment configurer les garde-fous sur un point de terminaison de service de modèle.

Important

Les garde-fous de l’IA sont uniquement disponibles dans les régions qui prennent en charge le paiement par jeton des API du modèle de fondation.

Le tableau suivant résume les garde-fous configurables. Consultez Limitations.

Garde-fou	Définition
Filtrage de sécurité	Le filtrage de sécurité empêche votre modèle d’interagir avec des contenus dangereux et nuisibles, tels que les contenus liés aux crimes violents, à l’automutilation et aux discours haineux. Le filtre de sécurité de la passerelle d’IA est conçu avec Meta Llama 3. Databricks utilise Llama Guard 2-8b comme filtre de sécurité. Pour en savoir plus sur le filtre de sécurité de Llama Guard et sur les thèmes qui s’appliquent au filtre de sécurité, consultez la carte de modèle Meta Llama Guard 2 8B. Meta Llama 3 est concédé sous la licence de la communauté LLAMA 3, Copyright © Meta Platforms, Inc. Tous droits réservés. Il incombe aux clients de veiller au respect des licences des modèles applicables.
Détection des informations d’identification personnelle (PII)	Les clients peuvent détecter toutes les informations sensibles telles que les noms, les adresses et les numéros de carte de crédit des utilisateurs. Pour cette fonctionnalité, la passerelle d’IA utilise Presidio pour détecter les catégories américaines de PII suivantes : Les numéros de carte de crédit, les adresses électroniques, les numéros de téléphone, les numéros de compte bancaire et les numéros de sécurité sociale. Le classifieur de PII peut aider à identifier les informations sensibles ou PII dans les données structurées et non structurées. Toutefois, comme le service utilise des mécanismes de détection automatisés, nous ne pouvons pas garantir qu’il trouvera toutes les informations sensibles. Par conséquent, vous devez envisager de recourir à des systèmes et à des protections supplémentaires. Ces méthodes de classification sont principalement adaptées aux catégories de PII américaines, telles que les numéros de téléphone américains et les numéros de sécurité sociale.
Modération des thèmes	Possibilité de répertorier un ensemble de thèmes autorisés. Lorsqu’une demande de discussion est formulée, ce garde-fou signale la demande si son sujet ne figure pas parmi les sujets autorisés.
Filtrage de mots-clés	Les clients peuvent spécifier différents ensembles de mots-clés invalides pour l’entrée et la sortie. L’un des cas d’utilisation possibles du filtrage des mots-clés consiste à faire en sorte que le modèle ne mentionne pas les concurrents. Ce garde-fou utilise la correspondance des mots-clés ou des chaînes de caractères pour déterminer si le mot-clé existe dans le contenu de la demande ou de la réponse.

Utiliser la passerelle d’IA

Vous pouvez configurer les fonctionnalités de la passerelle d’IA sur vos points de terminaison de service de modèle à l’aide de l’interface utilisateur de service. Consultez Configurer la passerelle d’IA sur les points de terminaison de service de modèle.

Limitations de

Les limitations suivantes s’appliquent à la préversion :

La passerelle IA est prise en charge uniquement pour :
- API du modèle de fondation des points de terminaison de service de modèle de débit approvisionné.
- Points de terminaison pour le service des modèles servant des modèles externes.
- Modèle servant des points de terminaison qui servent les agents de Mosaic AI.
Lorsque des garde-fous d'IA sont utilisés, la taille du lot de requête, c'est-à-dire une taille de lot d'intégrations, une taille de lot de complétions, ou le paramètre n des demandes de conversation, ne peut pas dépasser 16.
Pour les charges de travail de débit approvisionnées, seules la limitation de débit et la journalisation des charges utiles à l’aide de tables d’inférence compatibles avec la passerelle d’IA sont prises en charge.
Consultez les limitations de la table d'inférence activée par la passerelle d’AI.
Si vous utilisez fonction appelant et spécifiez des garde-fous IA, ces garde-fous ne sont pas appliqués aux requêtes et aux réponses intermédiaires de la fonction. Toutefois, les garde-fous sont appliqués à la réponse de sortie finale.

Partager via