Benchmark LLM open-source 2026 : Gemma 4 vs Qwen 3.5 sur L40S et RTX PRO 6000

TL;DR

Nous avons testé 4 modèles LLM open-source sur deux GPU — le Scaleway L40S (48 Go VRAM, ~450 €/mois) et le NVIDIA RTX PRO 6000 Blackwell (96 Go VRAM, ~900 €/mois) — dans les conditions réelles d'Eridia : system prompt métier de ~6 000 tokens, 5 outils déclarés, requêtes réalistes en français.

Le verdict : les modèles Gemma 4 de Google dominent nettement. Sur le L40S, ils répondent en 155 ms avec 16 tokens/s ; sur le RTX PRO 6000, en 61 ms avec 40 tokens/s — soit 2,5 fois plus vite. Les modèles Qwen3.5 d'Alibaba sont disqualifiés pour le chat interactif : leur mode « thinking », impossible à désactiver, impose 2 à 11 secondes d'attente avant le premier mot.

Pourquoi héberger son IA en 2026 ?

Pour une PME européenne qui manipule des documents sensibles — contrats, données RH, santé, finance — envoyer chaque requête à OpenAI ou Anthropic pose trois problèmes :

Souveraineté des données — vos documents transitent par des serveurs américains, soumis au Cloud Act
Coût imprévisible — à 20 utilisateurs actifs, la facture API peut dépasser 2 000 €/mois et varie chaque mois
Dépendance — un changement de tarif, une panne ou une modification des CGU, et votre outil métier s'arrête

L'auto-hébergement répond aux trois points : les données restent dans votre datacenter (ou chez un hébergeur européen comme Scaleway), le coût est fixe, et vous gardez le contrôle total. Reste une question : quel modèle et quel GPU choisir ? C'est tout l'objet de ce benchmark.

Le banc d'essai

Deux GPU représentatifs du marché

	Scaleway L40S	RTX PRO 6000 Blackwell
VRAM	48 Go GDDR6X	96 Go GDDR7
Bande passante mémoire	864 Go/s	~1 600 Go/s
Architecture	Ada Lovelace (2023)	Blackwell (2025)
TDP	350 W	600 W
Prix cloud	~450 €/mois (Scaleway)	~900 €/mois (RunPod)

Le L40S est le GPU le plus accessible pour de l'inférence LLM sérieuse en Europe : 48 Go de VRAM suffisent pour des modèles jusqu'à ~35B paramètres en FP8. Le RTX PRO 6000 Blackwell, avec le double de VRAM et presque le double de bande passante, représente la nouvelle référence pour une expérience comparable aux API cloud.

Quatre modèles, deux architectures

Modèle	Architecture	Paramètres	Contexte	Éditeur
Gemma 4 31B-it	Dense	31B (tous actifs)	128K	Google DeepMind
Gemma 4 26B-A4B-it	MoE	26B (~4B actifs)	128K	Google DeepMind
Qwen3.5 27B	Dense + thinking	27B (tous actifs)	128K	Alibaba Cloud
Qwen3.5 35B-A3B	MoE + thinking	35B (~3B actifs)	128K	Alibaba Cloud

Dense ou MoE ? Un modèle dense utilise tous ses paramètres pour chaque token. Un MoE (Mixture of Experts) ne route chaque token que vers un sous-ensemble d'experts (~4B sur 26B pour Gemma) : moins de calcul par token, mais tous les poids doivent quand même tenir en VRAM.

La quantification FP8 : faire tenir 31B dans 48 Go

Un modèle de 31 milliards de paramètres en précision complète (FP32) pèserait ~124 Go. La quantification réduit la précision des poids pour compresser le modèle :

Format	Bits/param	Taille pour 31B	Qualité
FP32	32	~124 Go	Référence (entraînement)
FP16 / BF16	16	~62 Go	Quasi identique
FP8 (notre choix)	8	~31 Go	< 1 % de dégradation
INT4 / GPTQ	4	~16 Go	Dégradation notable

Le FP8 est le sweet spot en 2026 : taille divisée par deux par rapport au FP16, dégradation quasi nulle selon les benchmarks académiques, accélération matérielle native sur Ada Lovelace et Blackwell, et support vLLM en un seul flag. Les quatre modèles testés sont distribués avec des checkpoints FP8 natifs sur Hugging Face.

Méthodologie : des conditions réelles, pas un benchmark académique

La plupart des benchmarks LLM mesurent des tâches isolées (MMLU, HumanEval…). Nous avons voulu mesurer ce que l'utilisateur ressent réellement dans Eridia :

System prompt complet — le vrai prompt Eridia (~6 000 tokens) : instructions métier, contexte utilisateur, règles de sécurité
5 outils déclarés — recherche de fichiers, exécution de code, création de documents, recherche de réunions, interaction utilisateur (format OpenAI function calling)
7 requêtes types en français — du simple « Bonjour » à l'analyse juridique complexe
3 runs par requête, mesure en streaming : TTFT (Time To First Token), tokens/s en génération, fiabilité des tool calls

#	Requête	Catégorie
1	« Bonjour, comment tu peux m'aider ? »	Chat simple
2	« Retrouve mes contrats récents, les PDF uploadés cette semaine »	Tool call
3	« Résume ma dernière réunion avec l'équipe produit »	Tool call
4	« Clause de non-concurrence de 3 ans — c'est valable ? »	Raisonnement
5	« Crée un plan d'action suite à la réunion de ce matin »	Raisonnement + outil
6	« Explique le RGPD pour les données de santé en détail »	Sortie longue
7	Conversation multi-tour sur Eridia vs ChatGPT	Multi-tour

Le moteur d'inférence principal est vLLM (v0.19+, FP8 natif, contexte 24K). Nous avons aussi testé llama.cpp + TurboQuant sur L40S pour comparer les deux approches — résultats plus bas.

Résultats

Vue d'ensemble

Moyennes sur les 7 requêtes, 3 runs chacune, avec vLLM :

Modèle	GPU	TTFT moyen	Tokens/s	Tool calls	Verdict
Gemma 4 26B-A4B	RTX PRO 6000	61 ms	39,5	100 %	Champion absolu
Gemma 4 31B	RTX PRO 6000	64 ms	34,5	100 %	Meilleure qualité
Gemma 4 31B	L40S	195 ms	15,8	100 %	Excellent rapport qualité/prix
Gemma 4 26B-A4B	L40S	260 ms	16,3	100 %	Bon rapport qualité/VRAM
Qwen3.5 27B	RTX PRO 6000	3,5 s	28,4	100 %	TTFT rédhibitoire
Qwen3.5 35B-A3B	RTX PRO 6000	4,3 s	24,0	100 %	TTFT rédhibitoire
Qwen3.5 27B	L40S	8,4 s	8,9	100 %	Trop lent pour du chat
Qwen3.5 35B-A3B	L40S	10,5 s	9,1	100 %	Trop lent pour du chat

Trois enseignements immédiats :

Les Gemma 4 sont seuls dans la course pour le chat interactif : premier token en moins de 300 ms partout, et même en moins de 70 ms sur Blackwell.
Le tool calling est fiable à 100 % sur les 8 configurations — ce n'est plus un critère différenciant en 2026.
Les Qwen3.5 paient leur mode thinking : la génération elle-même est correcte, mais l'utilisateur attend plusieurs secondes devant un écran vide avant chaque réponse.

Ce que vaut le passage au Blackwell

Modèle	TTFT (L40S → Blackwell)	Tokens/s (L40S → Blackwell)	Gain
Gemma 4 26B-A4B	260 ms → 61 ms	16,3 → 39,5	×2,4
Gemma 4 31B	195 ms → 64 ms	15,8 → 34,5	×2,2
Qwen3.5 27B	8,4 s → 3,5 s	8,9 → 28,4	×3,2
Qwen3.5 35B-A3B	10,5 s → 4,3 s	9,1 → 24,0	×2,6

Le RTX PRO 6000 offre un gain moyen de ×2,6 en débit et divise le TTFT par 3 à 4. L'explication est directe : la bande passante mémoire GDDR7 (~1 600 Go/s contre 864 Go/s) est le facteur limitant de l'inférence LLM, et le Blackwell en a presque le double.

Dans le détail : le profil du champion

Détail par requête pour la meilleure configuration, Gemma 4 26B-A4B sur RTX PRO 6000 :

Requête	TTFT	Tokens/s	Tokens générés
Chat simple	61 ms	39,4	375
Recherche de fichiers (outil)	189 ms	33,6	96
Résumé de réunion (outil)	190 ms	37,8	99
Raisonnement juridique	166 ms	40,8	874
Plan d'action (outil)	173 ms	41,4	202
Explication RGPD (sortie longue)	261 ms	38,4	1 210
Multi-tour	62 ms	43,3	568

Deux constantes que l'on retrouve sur toutes les configurations testées : les requêtes avec tool call ont un TTFT environ 3 fois plus élevé (le modèle doit décider d'appeler l'outil avant d'émettre quoi que ce soit), et le débit reste stable même sur les sorties longues de 1 200+ tokens. À l'inverse, les Qwen3.5 montrent des pointes de TTFT jusqu'à 28 secondes sur les requêtes de raisonnement — le mode thinking s'emballe précisément là où l'utilisateur attend une réponse rapide.

vLLM ou llama.cpp ?

Nous avons rejoué les mêmes requêtes sur le même L40S avec llama.cpp (fork TurboQuant, modèles GGUF) pour comparer les deux moteurs d'inférence de référence :

Métrique	vLLM FP8	llama.cpp Q4_K_M
TTFT (premier token)	195–260 ms	3,6–11 s
Tokens/s en génération	15–16	jusqu'à 130
VRAM (Gemma 4 26B MoE)	~40 Go	~17 Go
Multi-utilisateurs	Excellent (continuous batching)	Limité
Installation	Stack Python	Binaire compilé unique

Le tradeoff est fondamental et symétrique :

vLLM est optimisé pour le prompt processing : kernels CUDA spécialisés, le premier token arrive quasi instantanément même avec 6 000 tokens de system prompt. En contrepartie, la génération plafonne autour de 16 tokens/s sur L40S.
llama.cpp est optimisé pour la génération séquentielle : C++ pur, overhead minimal, jusqu'à 130 tokens/s — 8 fois plus vite que vLLM sur le même GPU. Mais le prefill est peu optimisé : 3 à 11 secondes avant le premier token.

S'y ajoute l'argument VRAM : en GGUF Q4_K_M avec le KV-cache compressé TurboQuant (~6 % de pénalité en vitesse), le même modèle tient dans 17 Go au lieu de 40 — de quoi viser des contextes de 64K+ tokens sans saturer le GPU.

En pratique : chat interactif et multi-utilisateurs → vLLM ; génération de documents longs, traitements batch, contexte très long ou budget VRAM serré → llama.cpp + TurboQuant.

Analyse : pourquoi de tels écarts ?

Le mode thinking de Qwen3.5, un piège pour le chat

Les Qwen3.5 intègrent un raisonnement interne (similaire aux modèles o1/o3 d'OpenAI) : avant chaque réponse, le modèle génère des tokens de réflexion cachés qui consomment du temps GPU sans rien afficher. Ce mode est activé par défaut et ne peut pas être désactivé via l'API standard. Pour de l'analyse en batch, pourquoi pas ; pour un assistant conversationnel, c'est rédhibitoire.

MoE vs dense : un avantage qui ne se révèle qu'avec de la bande passante

Sur le L40S, le MoE Gemma 4 26B-A4B n'est pas plus rapide que le dense 31B : l'inférence y est limitée par la lecture des poids en mémoire, et un MoE doit lire tous ses poids même si une fraction seulement est active. Sur le RTX PRO 6000, le bottleneck mémoire se desserre et l'avantage compute du MoE apparaît : 39,5 tokens/s contre 34,5 pour le dense, et un avantage qui grandira en multi-utilisateurs grâce à la charge de calcul réduite par requête.

Combien ça coûte ?

Solution	Coût mensuel	Coût pour 20 utilisateurs
L40S auto-hébergé (Scaleway)	~450 € fixe	~22 €/utilisateur
RTX PRO 6000 (RunPod)	~900 € fixe	~45 €/utilisateur
API OpenAI GPT-4o	Variable	~50–150 €/utilisateur*
API Anthropic Claude	Variable	~50–200 €/utilisateur*

Estimation pour ~500 requêtes/utilisateur/mois avec un system prompt comparable.

À 20 utilisateurs, l'auto-hébergement coûte 2 à 4 fois moins cher que les API — avec un coût fixe, prévisible, et des données qui ne quittent jamais l'Europe. C'est exactement le modèle de l'offre de déploiement sur-mesure d'Eridia.

Nos recommandations

Recommandation principale — Gemma 4 26B-A4B (MoE) sur RTX PRO 6000, ~900 €/mois. 40 tokens/s, premier token en 61 ms : une expérience indiscernable des API cloud premium, en souveraineté totale. Les 96 Go de VRAM laissent de la marge pour des contextes longs et le batching multi-utilisateurs. Idéal de 10 à 50 utilisateurs.

Budget serré — Gemma 4 31B-it sur Scaleway L40S, ~450 €/mois. La meilleure qualité de réponse à ce prix : TTFT sous 200 ms, 16 tokens/s, tool calling fiable, excellent français. Parfait pour démarrer à 10–30 utilisateurs (~22 €/utilisateur/mois), hébergé en France.

Qualité maximale — Gemma 4 31B-it sur RTX PRO 6000, ~900 €/mois. Si la richesse du raisonnement prime sur la vitesse pure : 35 tokens/s, TTFT 64 ms, et les réponses les plus structurées du panel.

Usage batch et contextes longs — Gemma 4 26B-A4B en GGUF Q4_K_M + TurboQuant sur L40S, ~450 €/mois. 130 tokens/s avec 17 Go de VRAM seulement : le choix des pipelines d'automatisation (résumés, extraction de données, génération de rapports) où le TTFT n'est pas critique.

Vous voulez cette stack sans avoir à la gérer vous-même ? Eridia installe ces modèles clé en main sur votre infrastructure, avec la sécurité et la conformité RGPD natives — parlons-en.

Et après ?

Tests multi-utilisateurs — mesurer la dégradation avec 5, 10, 20 requêtes simultanées
Benchmark contexte long — KV-cache f16 vs turbo4 à 64K et 128K tokens
Nouveaux modèles — Mistral Small 3.1 et Llama 4 Scout dès leur disponibilité
Setup hybride — vLLM pour le chat + llama.cpp pour le batch sur le même GPU

Benchmark réalisé avec Eridia v2 — eridia.ai. Moteurs : vLLM 0.19+ (FP8 natif), llama.cpp fork TurboQuant (GGUF Q4_K_M/Q8_0, KV-cache turbo4). GPU : Scaleway L40S (48 Go, 864 Go/s), RunPod RTX PRO 6000 Blackwell (96 Go, ~~1 600 Go/s). Contexte 24K, 7 requêtes en français, 3 runs par requête, system prompt complet (~~6 000 tokens). Méthodologie détaillée et scripts disponibles sur demande.

IA en entreprise : quel modèle open-source et quel GPU pour une PME européenne ?