TL;DR
Nous avons testé 4 modèles LLM open-source sur deux GPU — le Scaleway L40S (48 Go VRAM, ~450 €/mois) et le NVIDIA RTX PRO 6000 Blackwell (96 Go VRAM, ~900 €/mois) — dans les conditions réelles d'Eridia : system prompt métier de ~6 000 tokens, 5 outils déclarés, requêtes réalistes en français.
Le verdict : les modèles Gemma 4 de Google dominent nettement. Sur le L40S, ils répondent en 155 ms avec 16 tokens/s ; sur le RTX PRO 6000, en 61 ms avec 40 tokens/s — soit 2,5 fois plus vite. Les modèles Qwen3.5 d'Alibaba sont disqualifiés pour le chat interactif : leur mode « thinking », impossible à désactiver, impose 2 à 11 secondes d'attente avant le premier mot.
Pourquoi héberger son IA en 2026 ?
Pour une PME européenne qui manipule des documents sensibles — contrats, données RH, santé, finance — envoyer chaque requête à OpenAI ou Anthropic pose trois problèmes :
- Souveraineté des données — vos documents transitent par des serveurs américains, soumis au Cloud Act
- Coût imprévisible — à 20 utilisateurs actifs, la facture API peut dépasser 2 000 €/mois et varie chaque mois
- Dépendance — un changement de tarif, une panne ou une modification des CGU, et votre outil métier s'arrête
L'auto-hébergement répond aux trois points : les données restent dans votre datacenter (ou chez un hébergeur européen comme Scaleway), le coût est fixe, et vous gardez le contrôle total. Reste une question : quel modèle et quel GPU choisir ? C'est tout l'objet de ce benchmark.
Le banc d'essai
Deux GPU représentatifs du marché
| Scaleway L40S | RTX PRO 6000 Blackwell |
|---|---|---|
VRAM | 48 Go GDDR6X | 96 Go GDDR7 |
Bande passante mémoire | 864 Go/s | ~1 600 Go/s |
Architecture | Ada Lovelace (2023) | Blackwell (2025) |
TDP | 350 W | 600 W |
Prix cloud | ~450 €/mois (Scaleway) | ~900 €/mois (RunPod) |
Le L40S est le GPU le plus accessible pour de l'inférence LLM sérieuse en Europe : 48 Go de VRAM suffisent pour des modèles jusqu'à ~35B paramètres en FP8. Le RTX PRO 6000 Blackwell, avec le double de VRAM et presque le double de bande passante, représente la nouvelle référence pour une expérience comparable aux API cloud.
Quatre modèles, deux architectures
Modèle | Architecture | Paramètres | Contexte | Éditeur |
|---|---|---|---|---|
Gemma 4 31B-it | Dense | 31B (tous actifs) | 128K | Google DeepMind |
Gemma 4 26B-A4B-it | MoE | 26B (~4B actifs) | 128K | Google DeepMind |
Qwen3.5 27B | Dense + thinking | 27B (tous actifs) | 128K | Alibaba Cloud |
Qwen3.5 35B-A3B | MoE + thinking | 35B (~3B actifs) | 128K | Alibaba Cloud |
Dense ou MoE ? Un modèle dense utilise tous ses paramètres pour chaque token. Un MoE (Mixture of Experts) ne route chaque token que vers un sous-ensemble d'experts (~4B sur 26B pour Gemma) : moins de calcul par token, mais tous les poids doivent quand même tenir en VRAM.
La quantification FP8 : faire tenir 31B dans 48 Go
Un modèle de 31 milliards de paramètres en précision complète (FP32) pèserait ~124 Go. La quantification réduit la précision des poids pour compresser le modèle :
Format | Bits/param | Taille pour 31B | Qualité |
|---|---|---|---|
FP32 | 32 | ~124 Go | Référence (entraînement) |
FP16 / BF16 | 16 | ~62 Go | Quasi identique |
FP8 (notre choix) | 8 | ~31 Go | < 1 % de dégradation |
INT4 / GPTQ | 4 | ~16 Go | Dégradation notable |
Le FP8 est le sweet spot en 2026 : taille divisée par deux par rapport au FP16, dégradation quasi nulle selon les benchmarks académiques, accélération matérielle native sur Ada Lovelace et Blackwell, et support vLLM en un seul flag. Les quatre modèles testés sont distribués avec des checkpoints FP8 natifs sur Hugging Face.
Méthodologie : des conditions réelles, pas un benchmark académique
La plupart des benchmarks LLM mesurent des tâches isolées (MMLU, HumanEval…). Nous avons voulu mesurer ce que l'utilisateur ressent réellement dans Eridia :
- System prompt complet — le vrai prompt Eridia (~6 000 tokens) : instructions métier, contexte utilisateur, règles de sécurité
- 5 outils déclarés — recherche de fichiers, exécution de code, création de documents, recherche de réunions, interaction utilisateur (format OpenAI function calling)
- 7 requêtes types en français — du simple « Bonjour » à l'analyse juridique complexe
- 3 runs par requête, mesure en streaming : TTFT (Time To First Token), tokens/s en génération, fiabilité des tool calls
# | Requête | Catégorie |
|---|---|---|
1 | « Bonjour, comment tu peux m'aider ? » | Chat simple |
2 | « Retrouve mes contrats récents, les PDF uploadés cette semaine » | Tool call |
3 | « Résume ma dernière réunion avec l'équipe produit » | Tool call |
4 | « Clause de non-concurrence de 3 ans — c'est valable ? » | Raisonnement |
5 | « Crée un plan d'action suite à la réunion de ce matin » | Raisonnement + outil |
6 | « Explique le RGPD pour les données de santé en détail » | Sortie longue |
7 | Conversation multi-tour sur Eridia vs ChatGPT | Multi-tour |
Le moteur d'inférence principal est vLLM (v0.19+, FP8 natif, contexte 24K). Nous avons aussi testé llama.cpp + TurboQuant sur L40S pour comparer les deux approches — résultats plus bas.
Résultats
Vue d'ensemble
Moyennes sur les 7 requêtes, 3 runs chacune, avec vLLM :
Modèle | GPU | TTFT moyen | Tokens/s | Tool calls | Verdict |
|---|---|---|---|---|---|
Gemma 4 26B-A4B | RTX PRO 6000 | 61 ms | 39,5 | 100 % | Champion absolu |
Gemma 4 31B | RTX PRO 6000 | 64 ms | 34,5 | 100 % | Meilleure qualité |
Gemma 4 31B | L40S | 195 ms | 15,8 | 100 % | Excellent rapport qualité/prix |
Gemma 4 26B-A4B | L40S | 260 ms | 16,3 | 100 % | Bon rapport qualité/VRAM |
Qwen3.5 27B | RTX PRO 6000 | 3,5 s | 28,4 | 100 % | TTFT rédhibitoire |
Qwen3.5 35B-A3B | RTX PRO 6000 | 4,3 s | 24,0 | 100 % | TTFT rédhibitoire |
Qwen3.5 27B | L40S | 8,4 s | 8,9 | 100 % | Trop lent pour du chat |
Qwen3.5 35B-A3B | L40S | 10,5 s | 9,1 | 100 % | Trop lent pour du chat |
Trois enseignements immédiats :
- Les Gemma 4 sont seuls dans la course pour le chat interactif : premier token en moins de 300 ms partout, et même en moins de 70 ms sur Blackwell.
- Le tool calling est fiable à 100 % sur les 8 configurations — ce n'est plus un critère différenciant en 2026.
- Les Qwen3.5 paient leur mode thinking : la génération elle-même est correcte, mais l'utilisateur attend plusieurs secondes devant un écran vide avant chaque réponse.
Ce que vaut le passage au Blackwell
Modèle | TTFT (L40S → Blackwell) | Tokens/s (L40S → Blackwell) | Gain |
|---|---|---|---|
Gemma 4 26B-A4B | 260 ms → 61 ms | 16,3 → 39,5 | ×2,4 |
Gemma 4 31B | 195 ms → 64 ms | 15,8 → 34,5 | ×2,2 |
Qwen3.5 27B | 8,4 s → 3,5 s | 8,9 → 28,4 | ×3,2 |
Qwen3.5 35B-A3B | 10,5 s → 4,3 s | 9,1 → 24,0 | ×2,6 |
Le RTX PRO 6000 offre un gain moyen de ×2,6 en débit et divise le TTFT par 3 à 4. L'explication est directe : la bande passante mémoire GDDR7 (~1 600 Go/s contre 864 Go/s) est le facteur limitant de l'inférence LLM, et le Blackwell en a presque le double.
Dans le détail : le profil du champion
Détail par requête pour la meilleure configuration, Gemma 4 26B-A4B sur RTX PRO 6000 :
Requête | TTFT | Tokens/s | Tokens générés |
|---|---|---|---|
Chat simple | 61 ms | 39,4 | 375 |
Recherche de fichiers (outil) | 189 ms | 33,6 | 96 |
Résumé de réunion (outil) | 190 ms | 37,8 | 99 |
Raisonnement juridique | 166 ms | 40,8 | 874 |
Plan d'action (outil) | 173 ms | 41,4 | 202 |
Explication RGPD (sortie longue) | 261 ms | 38,4 | 1 210 |
Multi-tour | 62 ms | 43,3 | 568 |
Deux constantes que l'on retrouve sur toutes les configurations testées : les requêtes avec tool call ont un TTFT environ 3 fois plus élevé (le modèle doit décider d'appeler l'outil avant d'émettre quoi que ce soit), et le débit reste stable même sur les sorties longues de 1 200+ tokens. À l'inverse, les Qwen3.5 montrent des pointes de TTFT jusqu'à 28 secondes sur les requêtes de raisonnement — le mode thinking s'emballe précisément là où l'utilisateur attend une réponse rapide.
vLLM ou llama.cpp ?
Nous avons rejoué les mêmes requêtes sur le même L40S avec llama.cpp (fork TurboQuant, modèles GGUF) pour comparer les deux moteurs d'inférence de référence :
Métrique | vLLM FP8 | llama.cpp Q4_K_M |
|---|---|---|
TTFT (premier token) | 195–260 ms | 3,6–11 s |
Tokens/s en génération | 15–16 | jusqu'à 130 |
VRAM (Gemma 4 26B MoE) | ~40 Go | ~17 Go |
Multi-utilisateurs | Excellent (continuous batching) | Limité |
Installation | Stack Python | Binaire compilé unique |
Le tradeoff est fondamental et symétrique :
- vLLM est optimisé pour le prompt processing : kernels CUDA spécialisés, le premier token arrive quasi instantanément même avec 6 000 tokens de system prompt. En contrepartie, la génération plafonne autour de 16 tokens/s sur L40S.
- llama.cpp est optimisé pour la génération séquentielle : C++ pur, overhead minimal, jusqu'à 130 tokens/s — 8 fois plus vite que vLLM sur le même GPU. Mais le prefill est peu optimisé : 3 à 11 secondes avant le premier token.
S'y ajoute l'argument VRAM : en GGUF Q4_K_M avec le KV-cache compressé TurboQuant (~6 % de pénalité en vitesse), le même modèle tient dans 17 Go au lieu de 40 — de quoi viser des contextes de 64K+ tokens sans saturer le GPU.
En pratique : chat interactif et multi-utilisateurs → vLLM ; génération de documents longs, traitements batch, contexte très long ou budget VRAM serré → llama.cpp + TurboQuant.
Analyse : pourquoi de tels écarts ?
Le mode thinking de Qwen3.5, un piège pour le chat
Les Qwen3.5 intègrent un raisonnement interne (similaire aux modèles o1/o3 d'OpenAI) : avant chaque réponse, le modèle génère des tokens de réflexion cachés qui consomment du temps GPU sans rien afficher. Ce mode est activé par défaut et ne peut pas être désactivé via l'API standard. Pour de l'analyse en batch, pourquoi pas ; pour un assistant conversationnel, c'est rédhibitoire.
MoE vs dense : un avantage qui ne se révèle qu'avec de la bande passante
Sur le L40S, le MoE Gemma 4 26B-A4B n'est pas plus rapide que le dense 31B : l'inférence y est limitée par la lecture des poids en mémoire, et un MoE doit lire tous ses poids même si une fraction seulement est active. Sur le RTX PRO 6000, le bottleneck mémoire se desserre et l'avantage compute du MoE apparaît : 39,5 tokens/s contre 34,5 pour le dense, et un avantage qui grandira en multi-utilisateurs grâce à la charge de calcul réduite par requête.
Combien ça coûte ?
Solution | Coût mensuel | Coût pour 20 utilisateurs |
|---|---|---|
L40S auto-hébergé (Scaleway) | ~450 € fixe | ~22 €/utilisateur |
RTX PRO 6000 (RunPod) | ~900 € fixe | ~45 €/utilisateur |
API OpenAI GPT-4o | Variable | ~50–150 €/utilisateur* |
API Anthropic Claude | Variable | ~50–200 €/utilisateur* |
Estimation pour ~500 requêtes/utilisateur/mois avec un system prompt comparable.
À 20 utilisateurs, l'auto-hébergement coûte 2 à 4 fois moins cher que les API — avec un coût fixe, prévisible, et des données qui ne quittent jamais l'Europe. C'est exactement le modèle de l'offre de déploiement sur-mesure d'Eridia.
Nos recommandations
Recommandation principale — Gemma 4 26B-A4B (MoE) sur RTX PRO 6000, ~900 €/mois. 40 tokens/s, premier token en 61 ms : une expérience indiscernable des API cloud premium, en souveraineté totale. Les 96 Go de VRAM laissent de la marge pour des contextes longs et le batching multi-utilisateurs. Idéal de 10 à 50 utilisateurs.
Budget serré — Gemma 4 31B-it sur Scaleway L40S, ~450 €/mois. La meilleure qualité de réponse à ce prix : TTFT sous 200 ms, 16 tokens/s, tool calling fiable, excellent français. Parfait pour démarrer à 10–30 utilisateurs (~22 €/utilisateur/mois), hébergé en France.
Qualité maximale — Gemma 4 31B-it sur RTX PRO 6000, ~900 €/mois. Si la richesse du raisonnement prime sur la vitesse pure : 35 tokens/s, TTFT 64 ms, et les réponses les plus structurées du panel.
Usage batch et contextes longs — Gemma 4 26B-A4B en GGUF Q4_K_M + TurboQuant sur L40S, ~450 €/mois. 130 tokens/s avec 17 Go de VRAM seulement : le choix des pipelines d'automatisation (résumés, extraction de données, génération de rapports) où le TTFT n'est pas critique.
Vous voulez cette stack sans avoir à la gérer vous-même ? Eridia installe ces modèles clé en main sur votre infrastructure, avec la sécurité et la conformité RGPD natives — parlons-en.
Et après ?
- Tests multi-utilisateurs — mesurer la dégradation avec 5, 10, 20 requêtes simultanées
- Benchmark contexte long — KV-cache f16 vs turbo4 à 64K et 128K tokens
- Nouveaux modèles — Mistral Small 3.1 et Llama 4 Scout dès leur disponibilité
- Setup hybride — vLLM pour le chat + llama.cpp pour le batch sur le même GPU
Benchmark réalisé avec Eridia v2 — eridia.ai. Moteurs : vLLM 0.19+ (FP8 natif), llama.cpp fork TurboQuant (GGUF Q4_K_M/Q8_0, KV-cache turbo4). GPU : Scaleway L40S (48 Go, 864 Go/s), RunPod RTX PRO 6000 Blackwell (96 Go, ~1 600 Go/s). Contexte 24K, 7 requêtes en français, 3 runs par requête, system prompt complet (~6 000 tokens). Méthodologie détaillée et scripts disponibles sur demande.