L’essor des IA génératives, dont la plus connue est ChatGPT d’Open AI, soulève une question primordiale pour les utilisateurs comme pour les entreprises : Que font les IA génératives de nos données personnelles et confidentielles ?
L’enjeu du traitement des données confidentielles par les LLM (Large Language Models) est multiple :
- Les LLM apprennent-ils à partir des questions posées par les utilisateurs ?
- Les LLM sont-ils susceptibles de divulguer des informations sensibles contenues dans la question d'un utilisateur, à un autre utilisateur posant une question similaire ?
- Dans les cas d'applications avancées telles que les "RAG" (Retrieval-augmented generation) – ou IA sur mesure – comment les LLM traitent-ils les données contenues dans les documents confidentiels soumis par l'utilisateur ? Pour plus d’informations sur la personalisation d’un LLM, découvrez notre article consacré à ce sujet.
Dans cet article, nous nous penchons sur le traitement qui est fait par les LLM des données sensibles :
- dans le cadre d’une utilisation “standard”,
- ou dans le cadre des IA sur mesure (ou RAG : Retrieval-augmented generation).
Sommaire
Les risques de fuites de données et de non-conformité
Comment un LLM utilise-t-il vos données lors d’une utilisation “standard” ?
Vous connaissez sûrement déjà les Large Language Models (LLM), des modèles d’Intelligence Artificielle Générative capables de comprendre la complexité du langage et de générer du langage naturel pour répondre à des commandes ou questions posées.
Les LLM sont entrainés sur de larges bases de données. Grâce à leurs connaissances du langage naturel, les LLM sont capables d’extraire et de résumer des informations, de générer du texte et de répondre à vos questions. Les avantages pour les utilisateurs aussi bien que les entreprises sont nombreux : automatisation de tâches et de processus, augmentation de la productivité, réduction des coûts, etc.
Il est primordial de comprendre comment vos données sont utilisées ainsi que les risques que les LLM peuvent présenter pour vos données personnelles et confidentielles.
Comment un RAG utilise-t-il vos données ?
Une autre approche, prisée par de nombreuses entreprises, est l’utilisation de RAG plutôt qu’un LLM classique. Les RAG (Retrieval-augmented generation) permettent de personnaliser un LLM avec les données privées de votre entreprise.
Comme expliqué dans notre article sur les RAG, ceux-ci s’appuient sur une donnée externe propre à votre entreprise (e-mails, fichiers PDF, etc.) ainsi que sur un LLM afin de permettre des réponses personnalisées. Contrairement aux LLM, qui ne peuvent accéder qu'à des données publiques et aux informations sur lesquelles ils ont été entraînés, et qui ne disposent donc pas des dernières données disponibles sur internet, les RAG permettent de s’adapter aux besoins de votre entreprise et ainsi de proposer des réponses plus pertinentes.
Les RAG étant relativement récents, leurs éditeurs restent souvent vagues sur un point essentiel pour toute entreprise : le traitement confidentiel et sécurisé des données.
De premiers risques rapidement identifiés par les entreprises
L’entrainement sur une large base de données constituant l’une des base des LLM, certains éditeurs de LLM stockent les données fournies par les utilisateurs afin d’améliorer leurs modèles. Cela pose d'évidentes questions de conformité au RGPD ou de confidentialité si les données partagées par l'utilisateur sont des données sensibles et personnelles.
Ainsi, en faisant abstraction de la qualité sur le fond des réponses des LLM, les principaux risques en matière de traitement des données sont les suivants :
Fuite de données confidentielles :
- Les LLM peuvent involontairement mémoriser et reproduire des données sensibles ou confidentielles si elles sont présentes dans les données d'entraînement.
- Les utilisateurs peuvent accidentellement partager des informations confidentielles dans leurs interactions avec le modèle.
Non-respect de la vie privée :
- Les utilisateurs peuvent, sans s'en rendre compte, partager des informations personnelles ou sensibles lors de leurs interactions avec les LLM. Ces données pourraient être stockées et utilisées de manière non sécurisée.
- Les interactions des utilisateurs avec les LLM peuvent être surveillées et analysées pour suivre et "profiler" l'utilisateur
- Même si les données sont anonymisées, il existe un risque que des techniques de ré-identification puissent être utilisées pour retrouver l'identité des utilisateurs à partir des données collectées.
Des secrets industriels de Samsung révélés par ChatGPT
Ainsi en mars 2023, des employés de Samsung ont involontairement généré une fuite de données particulièrement confidentielles. Ceux-ci ont en effet saisi à plusieurs reprises dans ChatGPT des codes sources et autres enregistrements audio de réunions de travail. A partir de ces informations, ChatGPT était devenu susceptible de révéler publiquement des secrets industriels de la firme sud-coréenne.
En réaction, Samsung a annoncé dans une note interne de mai 2023 interdire toute utilisation professionnelle de ChatGPT par ses employés de la division Appareils mobiles & électroménager, et la décision de développer en interne sa propre IA.
Amazon, comme nombre de grandes entreprises, mettent en garde leurs employés contre l'utilisation de ChatGPT
En janvier 2023, soit à peine deux mois après la mise en ligne de ChatGPT le 30 novembre 2022, Amazon mettait en garde ses employés quant au risque de partage de données confidentielles sur ChatGPT. Amazon avait en effet rapidement constaté que le chatbot renvoyait des réponses très similaires aux formulations de documents internes à l'entreprise.
De même, de nombreuses banques américaines ont largement restreint l'utilisation de ChatGPT par leurs employés, peu de temps après la mise en ligne de ChatGPT, en raison du manque de clarté de sa politique de confidentialité... en plus du risque d'inexactitude des réponses fournies par le LLM.
Comparaison des LLM leaders du marché
Les politiques de confidentialité et de traitement des données sonts propre à chaque éditeur de LLM.
Ainsi dans la suite nous détaillons les politiques de chacun des 6 leaders du marché :
- GPT-4 d’Open AI,
- les modèles de Mistral AI,
- Gemini de Google,
- Llama 3 de Meta AI,
- les modèles Claude d'Anthropic.
- et Copilot de Microsoft.
GPT-4
Les politiques de confidentialité et de traitement des données d’OpenAI diffèrent selon la version que vous utilisez, ainsi les politiques du compte GPT-4 Entreprise fournissent plus de sécurité et de contrôle sur vos données.
Compte individuel (GPT-4 version gratuite et plus) :
- Utilisation des données pour l’entraînement des modèles : GPT-4 collecte les données générées et fournies lors de l’utilisation, telles que les requête ou encore les réponses fournies par le LLM, ces données sont conservées “aussi longtemps que nécessaire pour vous fournir notre service ou à d’autres fins commerciales légitimes”.
- Minimisation de la collecte des données : GPT-4 utilise les données collectées afin d’améliorer ses services et à des fins de recherche et développement, cependant, il est maintenant possible de désactiver l’historique des discussions, qui seront formellement supprimés après 30 jours pour permettre de surveiller les abus. GPT-4 assure que “dans de nombreux cas, les données utilisées pour améliorer les modèles d'IA sont anonymisées et agrégées, ce qui signifie qu'elles ne peuvent pas être facilement retracées jusqu'à un utilisateur individuel”.
- Suppression et sécurité des données : Conformément aux lois en vigueurs dans l’Union Européenne, les utilisateurs peuvent demander l’accès à leurs données personnelles et ont le droit de savoir si elles sont traitées. Sous certaines conditions les utilisateurs peuvent aussi demander à rectifier, restreindre le traitement de leurs données ou encore en demander la suppression.
Compte GPT-4 Entreprise (sans obligation de taille ni de CA) :
- Le compte d’entreprise présente plus de garantie de confidentialité et une sécurité renforcée. Les données sont chiffrées en transit et en repos et Open AI assure ne pas utiliser les données transmises pour former ses modèles.
- Cependant, OpenAI recommande d'éviter de partager des informations sensibles telles que des mots de passe ou informations financières.
Malgré les garanties données en matière de sécurité et confidentialité, GPT-4 lui-même conseille de rester prudent lorsque vous partagez des données confidentielles avec lui !
(Source : Politique de Confidentialité d'Open AI)
Nous conseillons de rester très prudent et de ne pas divulger de données personnelles ni confidentielles à GPT-4.
Si vous devez partager certaines données possiblement sensibles, nous recommandons de privilégier un LLM donnant de meilleures garanties en matière de traitement des données confidentielles – voir la suite de ce benchmark.
Les modèles de Mistral AI
Mistral AI, fondé en avril 2023 par d'anciens employés français de Meta et Google s’est rapidement imposé comme un des LLM leaders sur la scène mondiale. Mistral AI commercialise de nombreux modèles de LLM, à la fois open source, c’est-à-dire destinés à des entreprises qui peuvent ensuite personaliser les fonctionnalités afin de s’adapter à leurs besoins (le plus récent étant le Mixtral 8x22b) ainsi que des modèles commerciaux (Mistral Small, Medium, Large, etc.).
- Version gratuite : Mistral AI utilise les informations fournies lors des requêtes de l’utilisateur afin d’entrainer ses modèles et d’améliorer ses services.
- Une version payante plus sécurisée : En utilisant la version payante de Mistral IA, il est possible de se dés-inscrire de la fonctionnalité qui utilise vos données afin d’entrainer les modèles, Mistral AI s’engage alors à ne plus utiliser vos données pour la formation de ses modèles.
- Utilisation pour les entreprises : Mistral AI n'utilise pas les données confidentielles des utilisateurs ayant un abonnement d’entreprise pour entraîner ses modèles et n’y a d’ailleurs pas accès, ces données étant chiffrées au repos et en transit. La particularité de Mistral AI est son engagement sur la confidentialité et l’utilisation des données, en particulier lors du déploiement de RAG, mention qui est souvent oubliée des politiques de confidentialité des LLM.
- Suppression et sécurité des données : Comme GPT-4, Mistral AI conserve vos données “aussi longtemps que nécessaire” pour fournir ses services, à des fins commerciales et légales. De même, les utilisateurs peuvent exercer leurs droits et ainsi accéder, rectifier, effacer ou limiter l’utilisation de leurs données. Conformément au RGPD, la politique de confidentialité de Mistral AI contient un accord de traitement des données stipulant que Mistral AI a pour obligation d’informer l’utilisateur en cas de violation des données personnelles de celui-ci.
Mistral AI présente alors un avantage conséquent pour la création de votre RAG et la gestion de vos données privées, vous assurant une protection des données sensibles de votre entreprise.
(Source : Politique de Confidentialité de Mistral AI)
Gemini
- Utilisation et conservation des données : Comme les autres fournisseurs de LLM, Google collecte et conserve les données des utilisateurs partagées avec Gemini. Ces données sont conservées pendant au maximum 3 ans et sont utilisées afin d’améliorer et d’entraîner le modèle. Comme dans GPT-4, il est possible de désactiver l’activité, c’est-à-dire que Gemini ne pourra plus utiliser vos conversations pour améliorer ses modèles que ce soit en faisant appel à des réviseurs humains ou pour entrainer ses modèles de LLM. Les conversations seront cependant conservées 72 heures afin “d’assurer le service et de traiter vos commentaires”.
- Documents importés dans Gemini : Les fichiers ou images importés dans Gemini ne sont pour l’instant pas utilisés pour entrainer leurs modèles de machine learning mais Google précise que ces politiques peuvent évoluer et qu’ils feront preuve de transparence si la manière dont ces documents sont traités change.
- Suppression et sécurité des données : Les utilisateurs peuvent également exercer leurs droits et accéder, s’opposer au traitement de leurs données personnelles ainsi que demander la suppression de leurs informations.
- Utilisation de réviseurs humain : Afin d’améliorer ses produits, Gemini fait appel à des réviseurs humains qui annotent les conversations avec Gemini. Bien que ces conversations soient anonymisées et dissociées de votre compte Google avant d'être lues, Gemini conseille de partager vos données avec précautions:
“Veillez à ne pas fournir d'informations confidentielles dans vos conversations, ni de données que vous ne souhaiteriez pas qu'un réviseur puisse voir ou que Google puisse utiliser pour améliorer ses produits, services et technologies de machine learning.”
- Utilisation avec un compte entreprise : Gemini assure ne pas vendre ou divulguer vos données en dehors de votre entreprise ainsi que ne pas les utiliser pour entraîner Gemini.
- Utilisation lors d’un RAG : Enfin, Gemini ne mentionne pas non plus de politiques spécifiques aux RAG dans ses conditions d'utilisation. En l’absence de politiques plus explicites quant au chiffrage et à la confidentialité de vos données, nous vous encourageons à vous tourner vers un autre modèle de LLM pour la manipulation de vos données sensibles.
Bien que la version de Gemini pour les entreprises contienne plus de garanties pour le traitement et la confidentialité des données partagées, il convient néanmoins de veiller à une utilisation vigilante lorsque vous manipuler vos données confidentielles.
(Source : Politique de Confidentialité de Gemini Apps )
Llama
Contrairement à GPT-4 et Gemini, Llama 3 est un modèle open source, les données ne sont donc pas conservées sur le serveur de Meta et restent au sein de l’entreprise, réduisant fortement le risque de violation des données et de fuite.
- Politique de confidentialité de Meta : Llama 3 n’a pas de politiques de confidentialité propre mais est inclue dans la politique de confidentialité générale de Meta (qui inclut ses nombreux produits tels que Instagram et Facebook). Bien que Llama 3 mette en avant son guide d’utilisation responsable et promet sur son site une attention particulière à la confidentialité et à la protection des données de ses utilisateurs, il reste difficile de trouver des garanties ou des informations précises quant au traitement des données de Llama 3.
- Collecte et utilisation des données : La politique d’utilisation propre à Meta AI spécifient seulement que les données partagées avec le logiciel peuvent être conservées et utilisées pour fournir des résultats plus personnalisés et conseillent aux utilisateurs de ne pas partager d’informations qu’ils ne souhaitent pas que l’IA retienne. La durée de conservation des données ou leurs traitements restent donc non renseignées. Il est cependant précisé que Meta puisse examiner vos conversations avec l’IA de façon automatisé ou par un examinateur humain.
- Sécurité et suppression des données : Pareillement aux autres fournisseurs LLM, les utilisateurs résidant dans l’Union Européenne peuvent exercer leurs droits d’accès, de modification et de suppression leurs données.
- Utilisation lors d’un RAG : En l’absence de politique spécifique à l’utilisation de Llama 3, les RAGs ne sont pas mentionnés sur le site ni dans les politiques de Meta AI et Llama 3.
Ce manque de clarté et d’explication précises quant au traitement et à la conservation des données, qu’elles soient personnelles ou confidentielles indiquent que Llama 3 n’est pour le moment pas le modèle à privilégier pour manipuler vos données sensibles.
(Source : Politique de Confidentialité de Meta)
Les modèles Claude d’Anthropic
Les LLM développés par Anthropic, dont le plus récent Claude 3.5 Sonnet, sont des IA dites “constitutionnelles” qui se veulent responsables et éthiques.
Contrairement à de nombreux LLM du marché, la politique de confidentialité d’Anthropic est la même pour tous les modèles Claude, et pour tous les abonnements proposés.
Politique de confidentialité :
- Anthropic insiste sur la transparence de sa politique de confidentialité. Le site indique clairement quelles informations sont utilisées, et à quelles fins.
- Les données saisies par l'utilisateur (input) et les réponses générées par le LLM ne sont pas utilisées pour l'entrainement des modèles excepté lorsqu’Anthropic détecte un enjeu de sécurité, ou que l’utilisateur le signale ou consent explicitement.
- Lorsque les données sont utilisées pour l’entrainement des modèles, celles-ci sont anonymisées et accessibles à un nombre restreint d’employés d’Anthropic.
Conservation et sécurité des données :
- Les données confidentielles sont conservées par Anthropic sur un serveur basé aux Etats-Unis pour une période de 30 jours.
- Les données sont conservées 10 ans seulement si l’utilisateur consent explicitement à ce que la société conserve ses données plus longtemps, lors du signalement d’un bug par exemple.
- La sécurité des données est par ailleurs régulièrement controlée par des certifications reconnues dans l’industrie (telles que SOC Type II).
(Source : Politique de Confidentialité d’Anthropic)
Copilot
Copilot est le LLM créé par Microsoft, en partie avec l’aide d’Open AI. Outre les fonctionnalités basiques d’un LLM, sa particularité réside en son intégration aux outils Microsoft 365 tels que Word, Excel et Powerpoint.
Conservation et utilisation des données :
- Microsoft ne se sert pas des données des utilisateurs pour entraîner ses modèles.
- Toutefois, l’entreprise conserve les données ou les documents fournis à Copilot, et les réponses associées, et ceci pour une période de temps indéfinie.
Points communs avec les RAG :
- De fait de son intégration au sein des outils Microsoft, Copilot permet d’effectuer des tâches s’apparentant à celles effectuées dans le cadre d’un RAG. Copilot peut ainsi répondre à une question en se basant sur des documents internes conservés dans Microsoft 365, sans qu’il soit nécessaire pour l’utilisateur d'effectuer des manipulations supplémentaires. Il est d’ailleurs possible de créer un RAG dans Copilot Studio (l’environnement de développement d’applications sur mesure), même sans expériences en codage, ou dans Microsoft Azure pour les utilisateurs les plus expérimentés.
(Source : Politique de Confidentialité de Microsoft Copilot)
Quelles sont les obligations légales des LLM ?
Bien que ces nouvelles technologies soient relativement récentes, leurs fournisseurs doivent agir en conformité avec les lois en vigueur en France et dans l’Union Européenne, notamment le RGDP.
Afin d’en savoir plus sur les obligations légales des LLM, nous avons fait appel à Julie Prost, avocate experte en Intelligence Artificielle et nouvelles technologies, co-fondatrice du cabinet Impala Avocats. Outre les question de confidentialité des données sur lesquelles les modèles sont entrainés, la collecte des données personnelles et confidentielles lors de l’utilisation soulève plusieurs questions juridiques :
- Des politiques de confidentialité explicites : les politiques de confidentialité doivent clairement mentionner comment les données personnelles des utilisateurs sont collectées, stockées, utilisées, partagées et notamment si elles sont utilisées pour l’entraînement de leurs modèles.
- Consentement : Comme dans la plupart des services collectant des données personnelles, les utilisateurs doivent explicitement donner leur consentement, le plus souvent en cochant une case avant l’inscription sur la plateforme.
- Minimisation de la collecte des données : dans l’Union Européenne, le RGPD impose de limiter la collecte des données aux informations nécessaires afin de fournir le service proposé. Les données sont d’ailleurs souvent anonymisées ou conservées sous pseudos afin d’en limiter l’attribution à un utilisateur spécifique. De plus, de nouvelles fonctionnalités de certains LLM permettent aux utilisateurs de manuellement désactiver ou minimiser la collecte de données.
- Suppression et sécurité des données : une politique de suppression des données après une certaine période doit être mise en place. Les données doivent être chiffrées et leurs accès strictement restreint à certains membres du personnels. Conformément aux lois en vigueurs dans l’Union Européenne, les utilisateurs peuvent demander l’accès à leurs données personnelles et ont le droit de savoir si elles sont traitées. Sous certaines conditions les utilisateurs peuvent aussi demander à rectifier, restreindre le traitement de leurs données ou encore en demander la suppression, cela est applicable à tout les LLM mentionnés et figure dans leurs politiques de confidentialité.
Quelles sont les sanctions potentielles ?
En cas de non-respect de ces réglementation, les fournisseurs peuvent être sanctionnés administrativement, au civil, pénal ainsi qu’en préjudice d’image. Outre des peines de prisons, des pertes de valeurs patrimoniales ainsi que l’allocation de dommages et intérêts, les amendes de la CNIL peuvent s'élever à 20 millions d’euros ou 4% du chiffre d’affaire annuel mondial.
Conclusion : Quel LLM choisir?
En clair, bien que ces fournisseurs de LLM déclarent apporter une attention particulière à la confidentialité des données de leurs utilisateurs, le traitement des données confidentielles reste souvent peu transparent : les données sont collectées pour une durée indéterminée, certaines données ne sont pas utilisées pour l’instant mais une évolution est possible, voire prévisible, et les données sont souvent utilisées pour améliorer les modèles automatiquement ou par un réviseur humain.
Mistral AI et Claude présentent un avantage comparatif en étant les seuls fournisseurs avec des garanties claires pour la confidentialité de vos données lors d’une utilisation “standard”, Mistral AI mentionnant d’autant plus le cas spécifique des RAG. La confidentialité des données privées, surtout pour les utilisations des entreprises étant un des “hot topics” de l’IA générative, il est probable que les politiques des LLM leaders du marché évoluent rapidement afin d'offrir de fortes garanties pour leurs utilisateurs. La sécurité des données d’une entreprise étant un enjeu primordial, à ce jour, nous vous recommandons d’utiliser les modèles Mistral AI ou Claude pour la création de vos RAG.
Bénéficier de l'accompagnement d’une équipe experte
Afin de choisir votre LLM en fonction de vos besoins et données, faites appel à un cabinet de conseil expert en data et IA. Solstice Lab est un cabinet de conseil à taille humaine, alliant stratégie et expertise Data, IA et Data science. Nous accompagnons nos clients depuis plusieurs années sur l’ensemble du cycle de vie de leurs projets : de la définition de la stratégie data au développement d’algorithmes et d’applications sur mesure. Nous connaissons les enjeux métiers, business et croyons en la capacité de votre data à servir votre performance. Avec plus de 35 projets à choisir, créer et déployer des solutions Data, nous sommes un partenaire de confiance pour vous guider vers le bon choix d’infrastructure.