En avril 2024, dans le cadre de la veille technologique menée par EURODECISION, l’équipe de notre OpenLab IA.DA a testé sept grands modèles de langages (LLM, large language model) d’IA générative open source. Mis sur le devant de la scène en 2023 avec le lancement de ChatGPT, les LLM utilisent l’apprentissage auto-supervisé pour créer du contenu et peuvent par exemple servir dans des applications de chatbots ou des systèmes de recommandation.
Notre équipe a testé ces LLM sur plusieurs cas d’usage : résumés de documents, réponse à des questions sur des documents en mode Chatbot, analyse d’images et de graphiques, génération d’images, génération de code, analyse, correction et amélioration de code, création d’une application web complète, génération de la documentation d’une application… Nos observations sont similaires quels que soient les cas d’usage, nous n’avons donc pas inclus cette distinction dans nos concluions.
En offrant un aperçu des modèles de LLM d’IA générative disponibles sur le marché, le comparatif ci-dessous vise à orienter les choix technologiques en fonction des besoins spécifiques à chaque projet. Retrouvez ci-dessous l’avis de nos experts sur les avantages, les limites et les prérequis matériels de chaque modèle.
A noter que nous n’avons pas inclus ChatGPT d’OpenAI dans ce comparatif pour deux raisons : ce modèle ne permet pas de garantir la confidentialité des données, ce qui est un critère important pour EURODECISION et ses clients. Par ailleurs, nous avons souhaité tester ces LLM sur nos propres machines afin d’étudier également la partie matériel. Dans le cas de ChatGPT, il n’y a pas d’autre option que d’utiliser les machines OpenAI et d’être soumis aux contraintes inhérentes à leurs choix technologiques et commerciaux.
Mistral-7B-Instruct-v0.2 par MISTRAL AI
Le modèle Mistral-7B-Instruct-v0.2 développé par MISTRAL AI se distingue par sa légèreté et sa facilité d’utilisation. Il offre des performances intéressantes pour des usages simples, ce qui en fait un choix attrayant pour ceux qui sont très limités en puissance de calcul. Toutefois, ce modèle présente une tendance à l’“hallucination”, c’est-à-dire qu’il lui arrive de générer du contenu inopportun présenté de manière factuelle. De plus, il éprouve des difficultés à traiter une grande quantité d’informations. Pour faire fonctionner le Mistral-7B-Instruct-v0.2, un utilisateur aura besoin d’une petite carte graphique (GPU) ainsi que de 32 Go de RAM. En somme, le Mistral-7B-Instruct-v0.2 est un modèle intéressant pour ceux qui sont très limités en puissance de calcul.
Gemma-7b-it par GOOGLE
Edité par Google, le modèle Gemma-7b-it, maîtrise six langues et est considéré comme la référence actuelle en termes de performance pour les petits modèles. Cependant, il est contraint par une vérification de Google (token) et souffre lui aussi de la tendance à l’hallucination et de la difficulté à traiter une grande quantité d’informations. Pour fonctionner, il nécessite une petite carte graphique et 32 Go de RAM. De par sa taille et ses performances similaires, il s’agit d’un concurrent du modèle précédent, Mistral-7B.
LLaMa-2-13b-chat-hf par META
Le modèle LLaMa-2-13b-chat-hf, édité par META, gère des tâches de complexité moyenne et est multilingue. Cependant, il est considéré comme vieillissant (son lancement date de début 2023) et souffre également d’hallucination. Pour fonctionner, il nécessite une grosse carte graphique et 32 Go de RAM.
LLaMa-3-8b-Instruct par META
Sorti tout récemment (18 avril 2024), LLaMa-3-8b-Instruct, également développé par META, maîtrise 6 langues et est considéré comme une potentielle nouvelle référence dans la catégorie des petits modèles. Il présente les mêmes limites que les modèles précédents, notamment la tendance à l’hallucination et des difficultés à traiter une grande quantité d’informations. Toutefois, seule une petite carte graphique et 32 Go de RAM sont nécessaires pour utiliser ce modèle, ce qui en fait un modèle intéressant pour ceux qui sont très limités en puissance de calcul.
MiniCPM-2B par Open BMB
Ce modèle ne nécessite pas de carte graphique et fonctionne avec 16 Go de RAM. Doté d’une taille minuscule, il surprend par ses performances. Malheureusement, son utilisation commerciale est limitée car le modèle est soumis aux réglementations chinoises, ce qui le rend inutilisable dans un cadre professionnel.
CroissantLLMChat-v0.1 par Laboratoire de recherche MICS de CentraleSupélec
CroissantLLMChat-v0.1 est un modèle bilingue (français-anglais) créé par un laboratoire de recherche universitaire français. Il se distingue par sa petite taille, 16 Go de RAM suffisent et il ne nécessite pas de disposer d’une carte graphique. Reste qu’il est plutôt lent à l’utilisation, fait preuve d’hallucination et éprouve des difficultés à traiter une grande quantité d’informations. Malgré tout, ce modèle présente un fort potentiel pour un usage de type Chatbot sur du matériel léger.
Mixtral-8x7B-Instruct-v0.1 par MISTRAL AI
Le Mixtral-8x7B-Instruct-v0.1 est un modèle puissant et multilingue, capable de traiter une grande quantité d’informations. Toutefois, il est plus lent que les autres modèles testés et requiert une grosse carte graphique (GPU : 4080) et 64 Go de RAM. Il s’agit d’un des modèles de LLM les plus performants testés par EURODECISION avec une machine de 64 Go de RAM et un GPU.
En résumé, à ce jour (les outils évoluant tellement vite), si vous êtes très limité en puissance de calcul, LlaMa-3-8b-Instruct semble le LLM le plus pertinent. En revanche, si vous disposez d’une plus grosse machine, Mixtral-8x7B s’avèrera plus performant.
Notons que nous avons également essayé d’utiliser l’IA générative pour rédiger cet article, mais les résultats ne se sont pas avérés très concluants… Saurez-vous retrouver les quelques phrases générées par une IA que nous avons néanmoins conservées ?