Au vue du nombre de modèles d’IA générative disponibles sur le marché, il n’est pas toujours facile pour une équipe dirigeante de s’y retrouver et de choisir le Large Language Model (LLM) le plus performant et rentable pour votre entreprise. Cet article vous aidera à comparer ces modèles sur différents critères pour choisir le plus adapté à vos besoins.
Dans cet article, nous comparerons les huit LLM les plus prisés : les modèles GPT-4 et GPT-3.5 d’Open AI, Gemini 1.5 Pro de Google, Llama 3.0 et Llama 3.1 de Meta AI, Copilot Pro de Microsoft, Claude 3.5 Sonnet d’Anthropic et Mistral 8x22 de Mistral AI.
Sommaire
Quelles sont leurs principales caractéristiques ?
Tableau de comparaison : principales caractéristiques
💡Qu’est ce qu’un modèle multimodal ?
Un modèle multimodal est un modèle de LLM qui peut interpréter et générer plusieurs types de données tels que du texte, des sons, des images contrairement aux LLM “standard” qui peuvent seulement traiter et générer du texte.
💡Qu’est ce qu’un modèle open source ?
Un modèle open source est un LLM dont les codes et l’architecture peuvent être accessibles au public et donc être modifiés et adapté aux besoins spécifiques d’une entreprise. Les données sont alors souvent conservées sur le serveur de l’entreprise plutôt que sur celui du fournisseur. Les modèles open source sont privilégiés par les entreprises voulant modifier le modèle pour l’adapter à leurs opérations tout en gardant la main sur leurs données sensibles.
Dans la plupart des modèles open source présentés dans cet article, il est possible d’utiliser différentes versions de chaque modèles ayant des paramètres différents. Par exemple Llama 3.1 est disponible dans 3 versions : 8B, 70B et 405B. B signifie le milliards de paramètres (billion) sur lesquels les modèles ont étés entrainés. Ces paramètres permettent au modèle de s’adapter à différentes tâches et de l’entraîner à mieux comprendre le langage naturel. Ainsi, plus le nombre de paramètres est important, plus modèle est performant et flexible.
💡Qu’est ce qu’une fenêtre de contexte ?
Une fenêtre de contexte indique tout simplement le nombre de tokens que le modèle peut traiter à chaque demande. Ainsi, plus la fenêtre de contexte est grande, plus la demande et la réponse fournie par le modèle pourront être longues et détaillées. Si le modèle a une fenêtre de contexte de 4K, cela signifie qu’il peut traiter jusqu'à 4 000 tokens par demande.
Qu’est ce qu’un token ?
Un token, ou jeton, est une unité que le LLM peut comprendre et générer. Il n’y a pas d’équivalent stricte en terme de mots car cela varie en fonction de l’entraînement de chaque LLM. Par exemple pour GPT-3.5, un token correspond à un mot ou une partie de mot selon sa longueur (nombre de syllabes) et complexité (grammaticale et accents). En général une fenêtre de contexte de 4K équivaut à 10 pages de texte standard, tandis que 200k équivaudrait à 530 pages de texte standard.
- ➕ : Gemini 1.5 Pro et Claude 3.5 Sonnet se démarquent avec leurs larges fenêtres de contexte, de respectivement 128K (mais une version à 2 000K est disponible, la plus grande sur le marché) et 200K.
- ➖ : GPT-3.5 et Copilot Pro ont la plus petite fenêtre de contexte : 4K.
Date limite des connaissances du modèle
Pour traiter les demandes et générer des réponses, les LLM se basent uniquement sur les informations apprises durant l'entraînement. Ils n’ont donc pas accès à des données en temps réelles et sont limités par la date limite des connaissances du modèle.
Intégration avec d’autres applications
Afin d’améliorer la pertinence des réponses apportées à votre entreprise, les LLM peuvent s’intégrer à d’autres applications et ainsi avoir accès à vos documents internes par exemple. Il existe deux types d’intégration : l’intégration native, qui est souvent dû à une collaboration entre le fournisseur du LLM et d’autres applications, et l’intégration via API qui nécessite une intervention technique.
Intégration native
Lorsqu’une entreprise telle que Microsoft ou Google créée son propre LLM, celui-ci s’intègre souvent naturellement avec les autres applications de l’entreprise. L’exemple le plus connu étant Copilot Pro qui s’intègrent avec Microsoft 365 sans nécessiter aucune intervention. Ainsi Copilot Pro peut transformer un document Word en slides Power Point ou encore prendre des notes lors d’une réunion sur Microsoft Teams. Copilot Pro est ainsi accessible depuis les applications Microsoft ainsi que sur la dizaine d’ordinateurs portable Copilot + PCs.
De même, Gemini 1.5 Pro est intégré dans les outils Google Workspace tels que les Google Sheets, Docs, Slides, etc.
Ainsi, le LLM peut accéder aux données contenues dans certaines applications et est également disponible directement dans certaines applications. Par exemple, vous pouvez utiliser les modèles Claude dans Slack.
Intégration via API (Application Programming Interface)
Une autre solution pour intégrer votre solution LLM à vos mails ou d’autres outils spécifiques à votre entreprise est d’utiliser une API (Application Programming Interface). Il s’agit d'un outil qui permet à vos programmes de communiquer avec des outils extérieurs, comme les principaux LLM. Par exemple sur votre messagerie, l’API peut transmettre le détail d’un mail à votre LLM et celui-ci pourra vous fournir une réponse ou des explications sur le mail en fonction de ce que vous demandez.
Confidentialité des données
Les LLM diffèrent aussi sur leurs politiques de confidentialité : le lieu de conservation des données, la durée, l’utilisation ou non des données des utilisateurs afin d’améliorer les modèles. Afin d’en savoir plus, consultez notre article comparant le traitement des données sensibles de six modèles LLM.
Quel LLM est le plus rentable pour votre entreprise ?
LLM pratiquant une tarification à l’usage
Pour des usages commerciaux, les LLM pratiquent souvent une tarification à l’usage plutôt qu’un tarif forfaitaire comme pour l’usage des particuliers. Celui-ci est souvent facturé par tokens plutôt que par nombre de mots. Les tarifs varient selon le modèle et il existe souvent des prix différents pour l’entrée de tokens ou input, le nombre de token compris dans la requête de l’utilisateur, et la sortie ou output, les tokens compris dans la réponse générée par le modèle. Bien que ces tarifs diffèrent l’utilisateur intègre le coût des tokens d’input et d’output.
Le graphique ci-dessous présente les tarifs des différents LLM pour 1 million de tokens en dollars.
- ➖ : GPT-4 est de loin le LLM le plus couteux parmi les LLM facturant à l’utilisation avec un total de 180$/ 1 M de tokens pour la version 32K et moitié moins (80$/ 1 M de tokens) pour la version 8K. Cependant, à mesure que l’usage des LLM devienne de plus en plus répandu, Open AI travaille à réduire ses coûts sur ses modèles plus récents tels que GPT-4o (total de 20$/ 1 M de tokens avec une fenêtre de contexte de 128K).
- ➕ : Mistral 8x22 et Llama 3.0 se démarquent en étant les LLM les moins chers, respectivement 1,4$/ 1 M de tokens et 2,09$/ 1 M de tokens.
Autre tarification :
- Copilot : Contrairement à la plupart des LLM pour un usage professionnel, Copilot Pro pratique un abonnement forfaitaire de 22€ par utilisateur et par mois.
- Llama 3.1 : Comme Llama 3.0, Llama 3.1 pratique un abonnement à l’usage cependant, le tarif par token ne semble pas avoir été fixé et peut varier selon la plateforme utilisée (Azure, AWS, etc ). Plus d’informations peuvent être trouvées sur leur site.
Quel LLM est le plus performant ?
De nombreux standards se sont imposés afin de mesurer et comparer les performances des différents LLM sur des compétences allant des problèmes mathématiques au raisonnement logique. Le tableau ci-dessous, bien que non exhaustif, compare les LLM sur cinq critères importants lors du choix de votre LLM : la rapidité, ses capacités en code, en mathématiques, pour résoudre des tâches complexes et sa performance lors de questions à choix multiples sur différents domaines.
Rapidité des modèles : latence
La latence correspond au temps d’attente entre le moment où l’utilisateur soumet sa requête au modèle et le moment où le LLM commence sa réponse. Elle est calculée en seconde par la méthode time to first token sur plusieurs requêtes de complexité et longueurs différentes. Ainsi, plus la latence est faible, plus le modèle est rapide.
Bien que nos mesures ne prennent pas en compte tout les modèles présentés, certains se démarquent :
- ➕: Llama 3.1 8B est le plus rapide avec un time to first token de 0,32 secondes.
- ➖: Claude 3.5 Sonnet est le modèle le plus lent avec un time to first token de 1,22 secondes.
Questions à choix multiples (MMLU benchmark)
Le MMLU benchmark permet de tester et comparer la performance de différents LLM grâce à un set de questions d’examens à choix multiples couvrant plus de 57 sujets divers (STEM, humanités, sciences sociales, etc). Cette mesure permet de rendre compte de la performance et des connaissances générales des LLM. Le pourcentage exprimés représente le taux de bonne réponses, plus il est élevé, plus le modèle est performant.
- ➕ : Claude 3.5 Sonnet est le plus performant sur cette mesure (88,7%), suivi de près par Llama 3.1 405B (88,6%) et Llama 3.1 70B (86%).
- ➖ : Llama 3 8B score le moins bien sur ce benchmark avec un score de 68,4%.
Compétences en code python (HumanEval Benchmark)
Le HumanEval Benchmark permet de tester les compétences en code python des LLM en les testant sur 164 problèmes de programmes. Ce benchmark est la référence pour mesurer les capacité de codes des LLM. Le pourcentage exprimé représente le taux de bonne résolution, plus il est élevé, plus le modèle est performant.
- ➕ : Claude 3.5 Sonnet parvient à résoudre les problèmes à 92%.
- ➖ : Le modèle de loin le moins performant sur cette métrique est GPT-3.5 avec un taux de résolution de 48,10%.
Résolution de problèmes mathématiques (MATH Benchmark)
Le MATH Benchmark est un test composé de 12 500 problèmes mathématiques, souvent issus de compétitions lycéennes). Ce test est très exigeant, même pour les humains travaillant dans ce domaine. En moyenne un étudiant en doctorat en informatique atteint un score de 40% tandis que le triple médaillé d’or des olympiades internationales de mathématiques a obtenu 90%. Ainsi, bien que plus le score est élevé, plus le LLM est performant, la plupart des modèles performent moins bien sur cette métrique.
- ➕ : Llama 3.1 405B est le LLM le plus performant, obtenant un score de 73,8%, suivi de près par Claude 3.5 Sonnet avec un score de 71,10%.
- ➖ : GPT-3.5 est à nouveau le moins performant sur ce benchmark avec un score de 34,1%.
Résolution de tâches complexes (BBHard Benchmark)
Le BBHard Benchmark mesure la capacité des LLM à résoudre des tâches complexes, souvent allant au delà de leurs capacités présentes. Ce test inclut des questions de mathématiques, raisonnement abstrait et complexe ainsi que des tâches évaluant la compréhension des instructions et du langage. A l’instar des benchmark précédents, plus le score est élevé, plus le modèle est performant.
- ➕ : Claude 3.5 Sonnet parvient à un score de 93,10%.
- ➖ : Llama 3.0 8B atteint un score de 61%.
Limitations
Ce tableau résumant les performances des LLM sur différents capacités a été tiré de benchmark reconnus servant de standard afin de comparer ces LLM de manière objective. Cependant, cela présente des limites car les mesures ne sont pas disponibles pour tout les modèles, et manquent entièrement pour comparer Copilot Pro. Etant donné la rapide évolution et amélioration des LLM, ces mesures sont susceptibles d'évoluer.
Tableau récapitulatif
Accédez à notre tableau comparateur via Airtable.
Conclusion : quel LLM choisir ?
Choisir le LLM le plus adapté à vos besoins est une décision difficile et de nombreux critères doivent être pris en compte. Les LLM présentés dans cet article présentent des caractéristiques spécifiques et sont plus au moins adaptés à vos besoins et performent différemment sur des tâches telles que le code ou la compréhension du langage.
De plus, ces modèles évoluent rapidement au fur et à mesure que les fournisseurs développent des modèles plus puissants et spécialisés dans certains domaines. Il est ainsi important de rester au fait des évolutions de l’industrie et d’adapter votre choix en fonction de vos besoins présents et futurs.
Bénéficier de l'accompagnement d’une équipe experte
Afin de choisir votre LLM en fonction de vos besoins , faites appel à un cabinet de conseil expert en data et IA. Solstice Lab est un cabinet de conseil à taille humaine, alliant stratégie et expertise Data, IA et Data science. Nous accompagnons nos clients depuis plusieurs années sur l’ensemble du cycle de vie de leurs projets : de la définition de la stratégie data au développement d’algorithmes et d’applications sur mesure. Nous connaissons les enjeux métiers, business et croyons en la capacité de votre data à servir votre performance. Avec plus de 35 projets à choisir, créer et déployer des solutions Data, nous sommes un partenaire de confiance pour vous guider vers le bon choix d’infrastructure.