Aller au contenu principal
Bibliothèque de modèles v2.4

Modèles IA pour
inférence locale

99 modèles avec exigences VRAM exactes en FP16, Q8, Q4 et Q2. Choisissez un modèle et découvrez quel GPU peut l’exécuter et avec quelle qualité.

99 modèles indexés
51 fonctionnent sur 8 GB
59 chat
13 code
Recommandation

Vous débutez ?

Llama 3.1 8B Q4 est le meilleur point de départ : il fonctionne sur tout GPU avec 6 GB+ de VRAM. Avec 12 GB+, passez à Mistral 7B ou Llama 3.1 13B.

Voir Llama 3.1 8B
Sélecteur de parcours modèle
/modelo/couche de décision

Choisissez un parcours modèle adapté à votre matériel

Guidage par intention :Ces parcours relient votre intention à une cible VRAM minimale, avec un modèle et un GPU recommandés avant d’ouvrir le catalogue complet.

3
Scénarios de décision
9.3GB
VRAM min moyenne
12GB
Parcours le plus élevé

Chat et raisonnement (59)

LLM généralistes pour la conversation et le raisonnement complexe

Llama 3.1 405B 230 GB
Paramètres 405B
Fournisseur Meta
Contexte 131K tokens
llama-3.1-community Voir les détails →
DeepSeek R1 403 GB
Paramètres 671B
Fournisseur DeepSeek
Contexte 128K tokens
MIT Voir les détails →
DeepSeek V3.2 369.1 GB
Paramètres 671B
Fournisseur DeepSeek
Contexte 128K tokens
MIT Voir les détails →
DeepSeek V3 411 GB
Paramètres 685B
Fournisseur DeepSeek
Contexte 128K tokens
MIT Voir les détails →
Llama 3.3 70B 42 GB
Paramètres 70B
Fournisseur Meta
Contexte 128K tokens
GPU min. M4 Max 48GB
llama-3-community Voir les détails →
Qwen2.5 72B 41 GB
Paramètres 72B
Fournisseur Alibaba
Contexte 131K tokens
GPU min. M4 Max 48GB
Apache-2.0 Voir les détails →
Llama 3.1 70B 40 GB
Paramètres 70B
Fournisseur Meta
Contexte 131K tokens
GPU min. M4 Max 48GB
llama-3.1-community Voir les détails →
DeepSeek R1 Distill 32B 19.2 GB
Paramètres 32B
Fournisseur DeepSeek
Contexte 128K tokens
GPU min. RX 7900 XT
MIT Voir les détails →
Qwen3 235B-A22B 129.3 GB
Paramètres 235B
Fournisseur Alibaba
Contexte 131K tokens
GPU min. M3 Ultra
Apache 2.0 Voir les détails →
Qwen2.5 32B 19.2 GB
Paramètres 32B
Fournisseur Alibaba
Contexte 131K tokens
GPU min. RX 7900 XT
Apache-2.0 Voir les détails →
Command R+ 59 GB
Paramètres 104B
Fournisseur Cohere
Contexte 131K tokens
GPU min. M4 Ultra
CC-BY-NC-4.0 Voir les détails →
Qwen3.5 35B-A3B 19.3 GB
Paramètres 35B
Fournisseur Alibaba
Contexte 128K tokens
Vitesse CPU 8 tok/s
Apache 2.0 Voir les détails →
Gemma 2 27B 15 GB
Paramètres 27B
Fournisseur Google
Contexte 8K tokens
GPU min. M1 Pro
Gemma Voir les détails →
Gemma 3 27B 16.2 GB
Paramètres 27B
Fournisseur Google
Contexte 128K tokens
GPU min. M3 Pro
Gemma Voir les détails →
Mistral Small 4 65.5 GB
Paramètres 119B
Fournisseur Mistral AI
Contexte 256K tokens
GPU min. M4 Ultra
Apache 2.0 Voir les détails →
Mixtral 8x7B 26 GB
Paramètres 46.7B
Fournisseur Mistral AI
Contexte 33K tokens
GPU min. RTX 5090
Apache-2.0 Voir les détails →
Mistral Small 3 14.4 GB
Paramètres 24B
Fournisseur Mistral AI
Contexte 33K tokens
GPU min. M1 Pro
Apache-2.0 Voir les détails →
Phi-4 8.4 GB
Paramètres 14B
Fournisseur Microsoft
Contexte 16K tokens
GPU min. RTX 3080
MIT Voir les détails →
Qwen3 32B 17.6 GB
Paramètres 32B
Fournisseur Alibaba
Contexte 128K tokens
Vitesse CPU 2 tok/s
Apache 2.0 Voir les détails →
Qwen3 30B-A3B 16.5 GB
Paramètres 30B
Fournisseur Alibaba
Contexte 131K tokens
GPU min. M3 Pro
Apache 2.0 Voir les détails →
DeepSeek R1 Distill 14B 8.4 GB
Paramètres 14B
Fournisseur DeepSeek
Contexte 128K tokens
GPU min. RTX 3080
MIT Voir les détails →
Qwen3.5 27B 14.9 GB
Paramètres 27B
Fournisseur Alibaba
Contexte 128K tokens
Vitesse CPU 3 tok/s
Apache 2.0 Voir les détails →
Magistral Small 24B 13.2 GB
Paramètres 24B
Fournisseur Mistral AI
Contexte 128K tokens
Vitesse CPU 5 tok/s
Apache 2.0 Voir les détails →
Yi 1.5 34B 20 GB
Paramètres 34B
Fournisseur 01.AI
Contexte 4K tokens
GPU min. RX 7900 XT
Apache-2.0 Voir les détails →
Qwen2.5 14B 8.4 GB
Paramètres 14B
Fournisseur Alibaba
Contexte 131K tokens
GPU min. RTX 3080
Apache-2.0 Voir les détails →
Mistral Small 3.2 13.2 GB
Paramètres 24B
Fournisseur Mistral AI
Contexte 128K tokens
Vitesse CPU 1 tok/s
Apache 2.0 Voir les détails →
Qwen3 14B 7.7 GB
Paramètres 14B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 5 tok/s
Apache 2.0 Voir les détails →
Gemma 3 12B 7.2 GB
Paramètres 12B
Fournisseur Google
Contexte 128K tokens
GPU min. RTX 3050 8GB
Gemma Voir les détails →
Phi-3 Medium 8 GB
Paramètres 14B
Fournisseur Microsoft
Contexte 128K tokens
GPU min. RTX 3050 8GB
MIT Voir les détails →
DeepSeek R1 Distill 8B 4.8 GB
Paramètres 8B
Fournisseur DeepSeek
Contexte 128K tokens
Vitesse CPU 8 tok/s
MIT Voir les détails →
Mistral Nemo 12B 7 GB
Paramètres 12B
Fournisseur Mistral AI
Contexte 131K tokens
Vitesse CPU 6 tok/s
Apache-2.0 Voir les détails →
Qwen3.5 9B 5 GB
Paramètres 9B
Fournisseur Alibaba
Contexte 128K tokens
Vitesse CPU 12 tok/s
Apache 2.0 Voir les détails →
Qwen3 8B 4.4 GB
Paramètres 8B
Fournisseur Alibaba
Contexte 128K tokens
Vitesse CPU 9 tok/s
Apache 2.0 Voir les détails →
Nous Hermes 2 Mixtral 8x7B 26 GB
Paramètres 47B
Fournisseur Nous Research
Contexte 33K tokens
Vitesse CPU 2 tok/s
apache-2.0 Voir les détails →
Gemma 2 9B 5.5 GB
Paramètres 9B
Fournisseur Google
Contexte 8K tokens
GPU min. GTX 1660 Super
Gemma Voir les détails →
Phi-3.5 MoE 21 GB
Paramètres 41.9B
Fournisseur Microsoft
Contexte 131K tokens
GPU min. M4 Pro
MIT Voir les détails →
Phi-4 Mini 2.1 GB
Paramètres 3.8B
Fournisseur Microsoft
Contexte 128K tokens
Vitesse CPU 30 tok/s
MIT Voir les détails →
Llama 3.1 8B 5 GB
Paramètres 8B
Fournisseur Meta
Contexte 131K tokens
Vitesse CPU 7 tok/s
llama-3.1-community Voir les détails →
Qwen2.5 7B 4.5 GB
Paramètres 7B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 8 tok/s
Apache-2.0 Voir les détails →
DeepSeek V2 Lite 9 GB
Paramètres 16B
Fournisseur DeepSeek
Contexte 33K tokens
GPU min. RTX 3080
DeepSeek Voir les détails →
Mistral 7B 4.5 GB
Paramètres 7B
Fournisseur Mistral AI
Contexte 33K tokens
Vitesse CPU 8 tok/s
Apache-2.0 Voir les détails →
Yi 1.5 9B 5.5 GB
Paramètres 9B
Fournisseur 01.AI
Contexte 4K tokens
GPU min. GTX 1660 Super
Apache-2.0 Voir les détails →
Phi-3 Small 4.5 GB
Paramètres 7B
Fournisseur Microsoft
Contexte 128K tokens
Vitesse CPU 8 tok/s
MIT Voir les détails →
Qwen3.5 4B 2.6 GB
Paramètres 4.66B
Fournisseur Alibaba
Contexte 262K tokens
Vitesse CPU 12 tok/s
Apache 2.0 Voir les détails →
Qwen3 4B 2.2 GB
Paramètres 4B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 15 tok/s
Apache 2.0 Voir les détails →
Gemma 3 4B 2.4 GB
Paramètres 4B
Fournisseur Google
Contexte 128K tokens
Vitesse CPU 16 tok/s
Gemma Voir les détails →
Phi-3.5 Mini 2.3 GB
Paramètres 3.8B
Fournisseur Microsoft
Contexte 128K tokens
Vitesse CPU 13 tok/s
MIT Voir les détails →
DeepSeek R1 Distill 1.5B 1 GB
Paramètres 1.5B
Fournisseur DeepSeek
Contexte 128K tokens
Vitesse CPU 35 tok/s
MIT Voir les détails →
Yi 1.5 6B 3.7 GB
Paramètres 6B
Fournisseur 01.AI
Contexte 4K tokens
Vitesse CPU 9 tok/s
Apache-2.0 Voir les détails →
Phi-3 Mini 2.5 GB
Paramètres 3.8B
Fournisseur Microsoft
Contexte 128K tokens
Vitesse CPU 14 tok/s
MIT Voir les détails →
Qwen3.5 2B 1.2 GB
Paramètres 2.27B
Fournisseur Alibaba
Contexte 262K tokens
Vitesse CPU 22 tok/s
Apache 2.0 Voir les détails →
Qwen3 1.7B 0.9 GB
Paramètres 1.7B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 35 tok/s
Apache 2.0 Voir les détails →
Gemma 2 2B 1.5 GB
Paramètres 2B
Fournisseur Google
Contexte 8K tokens
Vitesse CPU 32 tok/s
Gemma Voir les détails →
Qwen2.5 3B 1.9 GB
Paramètres 3B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 20 tok/s
Apache-2.0 Voir les détails →
Llama 3.2 3B 1.8 GB
Paramètres 3B
Fournisseur Meta
Contexte 131K tokens
Vitesse CPU 18 tok/s
llama-3.2-community Voir les détails →
Gemma 3 1B 0.7 GB
Paramètres 1B
Fournisseur Google
Contexte 128K tokens
Vitesse CPU 42 tok/s
Gemma Voir les détails →
Qwen2.5 1.5B 1 GB
Paramètres 1.5B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 38 tok/s
Apache-2.0 Voir les détails →
Llama 3.2 1B 0.6 GB
Paramètres 1B
Fournisseur Meta
Contexte 131K tokens
Vitesse CPU 52 tok/s
llama-3.2-community Voir les détails →
Qwen2.5 0.5B 0.35 GB
Paramètres 0.5B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 95 tok/s
Apache-2.0 Voir les détails →

Génération de code (13)

Modèles spécialisés pour écrire, relire et expliquer du code

Qwen2.5-Coder 32B 19.2 GB
Paramètres 32B
Fournisseur Alibaba
Contexte 131K tokens
GPU min. RX 7900 XT
Apache-2.0 Voir les détails →
Qwen3-Coder-Next 80B-A3B 44 GB
Paramètres 80B
Fournisseur Alibaba
Contexte 262K tokens
GPU min. M4 Max 48GB
Apache 2.0 Voir les détails →
Qwen3-Coder 30B-A3B 16.5 GB
Paramètres 30B
Fournisseur Alibaba
Contexte 262K tokens
GPU min. M3 Pro
Apache 2.0 Voir les détails →
Devstral Small 2 24B 13.2 GB
Paramètres 24B
Fournisseur Mistral AI
Contexte 256K tokens
Vitesse CPU 5 tok/s
Apache 2.0 Voir les détails →
CodeLlama 34B 19 GB
Paramètres 34B
Fournisseur Meta
Contexte 16K tokens
GPU min. RX 7900 XT
llama-2-community Voir les détails →
DeepSeek Coder V2 9 GB
Paramètres 16B
Fournisseur DeepSeek
Contexte 131K tokens
GPU min. RTX 3080
DeepSeek Voir les détails →
Qwen2.5 Coder 14B 8 GB
Paramètres 14B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 5 tok/s
Apache-2.0 Voir les détails →
StarCoder 2 15B 9 GB
Paramètres 15B
Fournisseur BigCode
Contexte 16K tokens
GPU min. RTX 3080
BigCode OpenRAIL-M v1 Voir les détails →
Qwen2.5-Coder 7B 4.2 GB
Paramètres 7B
Fournisseur Alibaba
Contexte 131K tokens
Vitesse CPU 9 tok/s
Apache-2.0 Voir les détails →
StarCoder 2 7B 4.5 GB
Paramètres 7B
Fournisseur BigCode
Contexte 16K tokens
Vitesse CPU 8 tok/s
BigCode OpenRAIL-M v1 Voir les détails →
CodeGemma 7B 4.5 GB
Paramètres 7B
Fournisseur Google
Contexte 8K tokens
GPU min. GTX 1660 Super
Gemma Voir les détails →
CodeLlama 7B 4.5 GB
Paramètres 7B
Fournisseur Meta
Contexte 16K tokens
Vitesse CPU 8 tok/s
llama-2-community Voir les détails →
StarCoder 2 3B 1.9 GB
Paramètres 3B
Fournisseur BigCode
Contexte 16K tokens
Vitesse CPU 18 tok/s
BigCode OpenRAIL-M v1 Voir les détails →

Vision et multimodal (11)

Modèles qui traitent image et texte ensemble