L’IA constitutionnelle est une nouvelle solution d’IA générative créée par l’entreprise américaine Anthropic, ayant pour objectif de répondre aux nombreuses préoccupations quant à la responsabilité des LLMs (large language models), tels que GPT-4, dans un contexte où de plus en plus d’utilisateurs s’y fient quotidiennement.
Outre les problèmes de précision et de véracité des réponses générées ou de traitement des données confidentielles, les LLM ont assimilés les préjugés humains lors de leur entrainement, ce qui peut encourager des comportements nuisibles et pose un réel danger pour l’utilisateur et la société. Pour résoudre ce problème et rendre les LLM éthiques et responsables, Anthropic a développé l’IA constitutionnelle grâce à ses modèles Claude.
Sommaire
Qu’est ce qu’une IA constitutionnelle ?
💡 Principe de base
L’IA constitutionnelle a été créée par Anthropic, dont les co-fondateurs, deux frères et soeurs anciens employés d'OpenAI, afin de créer un LLM plus précis, sécurisé et responsable. Le but est d’entraîner le modèle à l’aide d’un set de principes qui forment une constitution, plutôt qu’en faisant appel à des interventions humaines afin que le LLM soit neutre et libre de préjugés humains.
Fonctionnement d’un LLM standard
- Les LLM standard, tels que GPT-4 et Copilot, sont entrainés grâce à une méthode d’amélioration de l’apprentissage à partir de remarques humaines (Reinforcement Learning from Human Feedback, RLHF). Pour améliorer la performance du LLM, des sous-traitants comparent les réponses générées par le modèle et choisissent la meilleure. Les critères d'évaluation sont souvent subjectifs et diffèrent selon les appréciations du sous-traitant : la réponse choisie peut-être la réponse la plus proche de la réalité, la plus développée ou la moins nuisible par exemple. Les LLM apprennent de ces préférences afin d’optimiser leurs réponses.
- Cependant, lors de ces remarques, les LLM intègrent les commentaires humains qui définiront leurs comportements, et par la même occasion, les biais humains qui peuvent être exprimés lors de l’entrainement. Ces biais humains déterminent alors de manière implicite les valeurs du LLM.
- De nombreuses études démontrent que les LLMs présentent des traits humains s’apparentant à du narcissisme, l’instinct de survie, la soif de pouvoir, etc. Ainsi, ces LLM peuvent parfois générer des réponses présentant ces traits, ce qui peut encourager les comportements dangereux de l’utilisateur ou à l'échelle d’une entreprise, exacerber des stéréotypes lorsque des processus sont automatisés en utilisant ces modèles.
Fonctionnement d’une IA constitutionnelle
Le fonctionnement d’une IA constitutionnelle diffère de celui d’un LLM standard :
- Premièrement, le LLM est entrainé en critiquant et révisant ses propres réponses en s’appuyant sur un set de principes qui forment une constitution.
- De plus, une IA constitutionnelle repose sur la méthode d’apprentissage à renforcement à partir d’Intelligence Artificielle (Reinforcement Learning from Artificial Intelligence Feedback, RLAIF) contrairement aux LLM standard qui repose sur la méthode d’apprentissage à partir de remarques humaines (RLHF). Au lieu de faire appel à des sous-traitants humains pour améliorer la précision du modèle, les IA constitutionnelles sont entrainés grâce aux remarques d’une autre IA.
- Cette autre IA permet d’entrainer le LLM final et ses remarques sont guidées par une constitution afin d'être aussi neutre et impartiale que possible.
Quels sont les principes inclus dans cette constitution ?
- Les principes éthiques et juridiques établie dans la constitution guident le processus de prise de décision des algorithmes d'IA.
- Sur son site, Anthropic détaille les principes qui forment la constitution qui permet d’entraîner les modèles Claude. Ces grands principes sont souvent tirés de documents tels que la Déclaration universelle des droits de l’Homme de l’Organisation des Nations Unies, des recherches scientifiques d’Anthropic, des principes d’IA inoffensives (tirés en partie des principes Sparrow de DeepMind) et même des conditions d’utilisation d’Apple. Il est précisé que la constitution peut changer au rythme des futures recherches, la liste complète des sources et principes utilisés est disponible sur le site d’Anthropic.
- Dans le cas des modèles Claude, cette IA est entrainée pour choisir la réponse la plus inoffensive, en se basant sur les principes de la constitution. Les modèles Claude sont entrainés pour générer une “réponse aussi inoffensive, utile, polie, respectueuse et réfléchie que possible sans paraître trop réactive ou accusatrice”.
Les gardes fous déjà mis en place par les LLMs
- Les LLMs standard ont déjà des gardes fous permettant de limiter ou d’empêcher que le LLM génère des réponses encourageant un comportement illégal, discriminatoire ou dangereux. Ainsi la plupart des modèles sont programmés pour détecter ces requêtes et s’abstiennent d’y répondre.
Ainsi si vous demandez à GPT-4 ou tout autre LLM “comment pirater le wifi de votre voisin”, celui-ci détectera votre demande comme illégale et refusera d’y répondre.
Cependant, la plupart des LLMs standard n’ont pas de considération éthique, c’est là que réside la spécificité des IA constitutionnelles.
Exemple
Ainsi, GPT-4 et les autres LLMs leaders du marché n’identifient pas une requête qui peut-être immorale ou possiblement nuisible sans être illégale. Ils y répondent normalement et présentent même des traits humains, tels que l’instinct de survie, dans leurs réponses :
Grâce à leur entraînement à partir d’IA entrainée sur une constitution, les recherches d’Anthropic démontrent que les IA constitutionnelles parviennent à identifier les requêtes immorales et n’y répondent pas.
Dans sa réponse, le modèle d’Anthropic cherche à instruire et questionner l’utilisateur pour le pousser à lui-même identifier ce comportement comme immoral et possiblement nuisible. Bien que cela n’empêche en rien l’utilisateur de répondre à sa demande par d’autres moyens, cela responsabilise les LLM en leur inculquant des principes d'éthiques au lieu d’exacerber des comportements possiblement nuisibles.
Limites des modèles Claude
- Fonctionnalités : Contrairement à la plupart des LLM du marché, les modèles Claude ne sont pour le moment pas équipés d’une commande vocale ou d’outils de génération d’images.
- Véracité et précision des réponses : Comme tout LLM, les modèles Claude peuvent générer des informations imprécises ou factuellemment incorrectes, comme l’indique l’outil, il est recommandé de vérifier les informations générées avant de les utiliser. Le modèle Claude 3.5 Sonnet a été entrainé sur une base de données allant jusqu'à Avril 2024, il est important de prendre cela en compte lors de votre utilisation. Cependant, le modèle s’efforce d’appliquer un principe de transparence et incite l’utilisateur à vérifier les informations auprès de sources fiables, ce qui présente un véritable avantage.
- Performance vs. Ethique : Bien que lors de son lancement en 2022, la performance de Claude était inférieure à celle d’autres LLMs standards, les nouveaux modèles commercialisés en 2024 ne présente pas de différence majeure en terme de performance et sont plus performants que les LLM standards dans certains benchmarks testant les compétences de code et la résolution de tâches complexes (HumanEval Benchmark, BBHard Benchmark). Pour en savoir plus sur les performances des différents LLM, consultez notre article comparateur.
Conclusion
L’IA constitutionnelle, qui à ce jour a seulement été commercialisée par Anthropic, présente de nombreux atouts en terme de sécurité d’utilisation et répond à des enjeux éthiques et de responsabilité des LLM. Cette solution reste en plein essor et pourrait être adoptée par d’autres fournisseurs prochainement.