Bibliothèque de modèles v2.4

Modèles IA pour
inférence locale

99 modèles avec exigences VRAM exactes en FP16, Q8, Q4 et Q2. Choisissez un modèle et découvrez quel GPU peut l’exécuter et avec quelle qualité.

99 modèles indexés

51 fonctionnent sur 8 GB

59 chat

13 code

Recommandation

Vous débutez ?

Llama 3.1 8B Q4 est le meilleur point de départ : il fonctionne sur tout GPU avec 6 GB+ de VRAM. Avec 12 GB+, passez à Mistral 7B ou Llama 3.1 13B.

Voir Llama 3.1 8B

Vérifiez si votre GPU peut exécuter n’importe quel modèle

Sélecteur de parcours modèle

/modelo/couche de décision

Choisissez un parcours modèle adapté à votre matériel

Guidage par intention :Ces parcours relient votre intention à une cible VRAM minimale, avec un modèle et un GPU recommandés avant d’ouvrir le catalogue complet.

3

Scénarios de décision

9.3GB

VRAM min moyenne

12GB

Parcours le plus élevé

check_circle

forum

Assistant IA local personnel

Utilisateurs qui veulent la confidentialité et éviter les abonnements cloud

Modèle: Llama 3.1 8BGPU: RTX 4060

Sélectionné

Signal VRAM minimal

Exigence du scénario

8 GB

4GB8GB12GB16GB 24GB+

Llama 3.1 8B

Modèle recommandé

RTX 4060

GPU recommandé

Vérifier la compatibilité Vérifier la disponibilité

Détail du modèle Détail du GPU

mic

Transcription audio privée

Journalistes, chercheurs et professionnels de santé

Modèle: Whisper Large V3GPU: RTX 3060

Signal VRAM minimal

Exigence du scénario

8 GB

4GB8GB12GB16GB 24GB+

Whisper Large V3

Modèle recommandé

RTX 3060

GPU recommandé

Vérifier la compatibilité Vérifier la disponibilité

Détail du modèle Détail du GPU

image

Génération d’images locale

Créateurs et artistes numériques

Modèle: Stable Diffusion XLGPU: RTX 3060

Signal VRAM minimal

Exigence du scénario

12 GB

4GB8GB12GB16GB 24GB+

Stable Diffusion XL

Modèle recommandé

RTX 3060

GPU recommandé

Vérifier la compatibilité Vérifier la disponibilité

Détail du modèle Détail du GPU

Chat et raisonnement (59)

LLM généralistes pour la conversation et le raisonnement complexe

Llama 3.1 405B 230 GB

Paramètres 405B

Fournisseur Meta

Contexte 131K tokens

llama-3.1-community Voir les détails →

DeepSeek R1 403 GB

Paramètres 671B

Fournisseur DeepSeek

Contexte 128K tokens

MIT Voir les détails →

DeepSeek V3.2 369.1 GB

Paramètres 671B

Fournisseur DeepSeek

Contexte 128K tokens

MIT Voir les détails →

DeepSeek V3 411 GB

Paramètres 685B

Fournisseur DeepSeek

Contexte 128K tokens

MIT Voir les détails →

Llama 3.3 70B 42 GB

Paramètres 70B

Fournisseur Meta

Contexte 128K tokens

GPU min. M4 Max 48GB

llama-3-community Voir les détails →

Qwen2.5 72B 41 GB

Paramètres 72B

Fournisseur Alibaba

Contexte 131K tokens

GPU min. M4 Max 48GB

Apache-2.0 Voir les détails →

Llama 3.1 70B 40 GB

Paramètres 70B

Fournisseur Meta

Contexte 131K tokens

GPU min. M4 Max 48GB

llama-3.1-community Voir les détails →

DeepSeek R1 Distill 32B 19.2 GB

Paramètres 32B

Fournisseur DeepSeek

Contexte 128K tokens

GPU min. RX 7900 XT

MIT Voir les détails →

Qwen3 235B-A22B 129.3 GB

Paramètres 235B

Fournisseur Alibaba

Contexte 131K tokens

GPU min. M3 Ultra

Apache 2.0 Voir les détails →

Qwen2.5 32B 19.2 GB

Paramètres 32B

Fournisseur Alibaba

Contexte 131K tokens

GPU min. RX 7900 XT

Apache-2.0 Voir les détails →

Command R+ 59 GB

Paramètres 104B

Fournisseur Cohere

Contexte 131K tokens

GPU min. M4 Ultra

CC-BY-NC-4.0 Voir les détails →

Qwen3.5 35B-A3B 19.3 GB

Paramètres 35B

Fournisseur Alibaba

Contexte 128K tokens

Vitesse CPU 8 tok/s

Apache 2.0 Voir les détails →

Gemma 2 27B 15 GB

Paramètres 27B

Fournisseur Google

Contexte 8K tokens

GPU min. M1 Pro

Gemma Voir les détails →

Gemma 3 27B 16.2 GB

Paramètres 27B

Fournisseur Google

Contexte 128K tokens

GPU min. M3 Pro

Gemma Voir les détails →

Mistral Small 4 65.5 GB

Paramètres 119B

Fournisseur Mistral AI

Contexte 256K tokens

GPU min. M4 Ultra

Apache 2.0 Voir les détails →

Mixtral 8x7B 26 GB

Paramètres 46.7B

Fournisseur Mistral AI

Contexte 33K tokens

GPU min. RTX 5090

Apache-2.0 Voir les détails →

Mistral Small 3 14.4 GB

Paramètres 24B

Fournisseur Mistral AI

Contexte 33K tokens

GPU min. M1 Pro

Apache-2.0 Voir les détails →

Paramètres 14B

Fournisseur Microsoft

Contexte 16K tokens

GPU min. RTX 3080

MIT Voir les détails →

Qwen3 32B 17.6 GB

Paramètres 32B

Fournisseur Alibaba

Contexte 128K tokens

Vitesse CPU 2 tok/s

Apache 2.0 Voir les détails →

Qwen3 30B-A3B 16.5 GB

Paramètres 30B

Fournisseur Alibaba

Contexte 131K tokens

GPU min. M3 Pro

Apache 2.0 Voir les détails →

DeepSeek R1 Distill 14B 8.4 GB

Paramètres 14B

Fournisseur DeepSeek

Contexte 128K tokens

GPU min. RTX 3080

MIT Voir les détails →

Qwen3.5 27B 14.9 GB

Paramètres 27B

Fournisseur Alibaba

Contexte 128K tokens

Vitesse CPU 3 tok/s

Apache 2.0 Voir les détails →

Magistral Small 24B 13.2 GB

Paramètres 24B

Fournisseur Mistral AI

Contexte 128K tokens

Vitesse CPU 5 tok/s

Apache 2.0 Voir les détails →

Yi 1.5 34B 20 GB

Paramètres 34B

Fournisseur 01.AI

Contexte 4K tokens

GPU min. RX 7900 XT

Apache-2.0 Voir les détails →

Qwen2.5 14B 8.4 GB

Paramètres 14B

Fournisseur Alibaba

Contexte 131K tokens

GPU min. RTX 3080

Apache-2.0 Voir les détails →

Mistral Small 3.2 13.2 GB

Paramètres 24B

Fournisseur Mistral AI

Contexte 128K tokens

Vitesse CPU 1 tok/s

Apache 2.0 Voir les détails →

Qwen3 14B 7.7 GB

Paramètres 14B

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 5 tok/s

Apache 2.0 Voir les détails →

Gemma 3 12B 7.2 GB

Paramètres 12B

Fournisseur Google

Contexte 128K tokens

GPU min. RTX 3050 8GB

Gemma Voir les détails →

Phi-3 Medium 8 GB

Paramètres 14B

Fournisseur Microsoft

Contexte 128K tokens

GPU min. RTX 3050 8GB

MIT Voir les détails →

DeepSeek R1 Distill 8B 4.8 GB

Fournisseur DeepSeek

Contexte 128K tokens

Vitesse CPU 8 tok/s

MIT Voir les détails →

Mistral Nemo 12B 7 GB

Paramètres 12B

Fournisseur Mistral AI

Contexte 131K tokens

Vitesse CPU 6 tok/s

Apache-2.0 Voir les détails →

Qwen3.5 9B 5 GB

Fournisseur Alibaba

Contexte 128K tokens

Vitesse CPU 12 tok/s

Apache 2.0 Voir les détails →

Qwen3 8B 4.4 GB

Fournisseur Alibaba

Contexte 128K tokens

Vitesse CPU 9 tok/s

Apache 2.0 Voir les détails →

Nous Hermes 2 Mixtral 8x7B 26 GB

Paramètres 47B

Fournisseur Nous Research

Contexte 33K tokens

Vitesse CPU 2 tok/s

apache-2.0 Voir les détails →

Gemma 2 9B 5.5 GB

Fournisseur Google

Contexte 8K tokens

GPU min. GTX 1660 Super

Gemma Voir les détails →

Phi-3.5 MoE 21 GB

Paramètres 41.9B

Fournisseur Microsoft

Contexte 131K tokens

GPU min. M4 Pro

MIT Voir les détails →

Phi-4 Mini 2.1 GB

Paramètres 3.8B

Fournisseur Microsoft

Contexte 128K tokens

Vitesse CPU 30 tok/s

MIT Voir les détails →

Llama 3.1 8B 5 GB

Fournisseur Meta

Contexte 131K tokens

Vitesse CPU 7 tok/s

llama-3.1-community Voir les détails →

Qwen2.5 7B 4.5 GB

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 8 tok/s

Apache-2.0 Voir les détails →

DeepSeek V2 Lite 9 GB

Paramètres 16B

Fournisseur DeepSeek

Contexte 33K tokens

GPU min. RTX 3080

DeepSeek Voir les détails →

Mistral 7B 4.5 GB

Fournisseur Mistral AI

Contexte 33K tokens

Vitesse CPU 8 tok/s

Apache-2.0 Voir les détails →

Yi 1.5 9B 5.5 GB

Fournisseur 01.AI

Contexte 4K tokens

GPU min. GTX 1660 Super

Apache-2.0 Voir les détails →

Phi-3 Small 4.5 GB

Fournisseur Microsoft

Contexte 128K tokens

Vitesse CPU 8 tok/s

MIT Voir les détails →

Qwen3.5 4B 2.6 GB

Paramètres 4.66B

Fournisseur Alibaba

Contexte 262K tokens

Vitesse CPU 12 tok/s

Apache 2.0 Voir les détails →

Qwen3 4B 2.2 GB

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 15 tok/s

Apache 2.0 Voir les détails →

Gemma 3 4B 2.4 GB

Fournisseur Google

Contexte 128K tokens

Vitesse CPU 16 tok/s

Gemma Voir les détails →

Phi-3.5 Mini 2.3 GB

Paramètres 3.8B

Fournisseur Microsoft

Contexte 128K tokens

Vitesse CPU 13 tok/s

MIT Voir les détails →

DeepSeek R1 Distill 1.5B 1 GB

Paramètres 1.5B

Fournisseur DeepSeek

Contexte 128K tokens

Vitesse CPU 35 tok/s

MIT Voir les détails →

Yi 1.5 6B 3.7 GB

Fournisseur 01.AI

Contexte 4K tokens

Vitesse CPU 9 tok/s

Apache-2.0 Voir les détails →

Phi-3 Mini 2.5 GB

Paramètres 3.8B

Fournisseur Microsoft

Contexte 128K tokens

Vitesse CPU 14 tok/s

MIT Voir les détails →

Qwen3.5 2B 1.2 GB

Paramètres 2.27B

Fournisseur Alibaba

Contexte 262K tokens

Vitesse CPU 22 tok/s

Apache 2.0 Voir les détails →

Qwen3 1.7B 0.9 GB

Paramètres 1.7B

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 35 tok/s

Apache 2.0 Voir les détails →

Gemma 2 2B 1.5 GB

Fournisseur Google

Contexte 8K tokens

Vitesse CPU 32 tok/s

Gemma Voir les détails →

Qwen2.5 3B 1.9 GB

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 20 tok/s

Apache-2.0 Voir les détails →

Llama 3.2 3B 1.8 GB

Fournisseur Meta

Contexte 131K tokens

Vitesse CPU 18 tok/s

llama-3.2-community Voir les détails →

Gemma 3 1B 0.7 GB

Fournisseur Google

Contexte 128K tokens

Vitesse CPU 42 tok/s

Gemma Voir les détails →

Qwen2.5 1.5B 1 GB

Paramètres 1.5B

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 38 tok/s

Apache-2.0 Voir les détails →

Llama 3.2 1B 0.6 GB

Fournisseur Meta

Contexte 131K tokens

Vitesse CPU 52 tok/s

llama-3.2-community Voir les détails →

Qwen2.5 0.5B 0.35 GB

Paramètres 0.5B

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 95 tok/s

Apache-2.0 Voir les détails →

Génération de code (13)

Modèles spécialisés pour écrire, relire et expliquer du code

Qwen2.5-Coder 32B 19.2 GB

Paramètres 32B

Fournisseur Alibaba

Contexte 131K tokens

GPU min. RX 7900 XT

Apache-2.0 Voir les détails →

Qwen3-Coder-Next 80B-A3B 44 GB

Paramètres 80B

Fournisseur Alibaba

Contexte 262K tokens

GPU min. M4 Max 48GB

Apache 2.0 Voir les détails →

Qwen3-Coder 30B-A3B 16.5 GB

Paramètres 30B

Fournisseur Alibaba

Contexte 262K tokens

GPU min. M3 Pro

Apache 2.0 Voir les détails →

Devstral Small 2 24B 13.2 GB

Paramètres 24B

Fournisseur Mistral AI

Contexte 256K tokens

Vitesse CPU 5 tok/s

Apache 2.0 Voir les détails →

CodeLlama 34B 19 GB

Paramètres 34B

Fournisseur Meta

Contexte 16K tokens

GPU min. RX 7900 XT

llama-2-community Voir les détails →

DeepSeek Coder V2 9 GB

Paramètres 16B

Fournisseur DeepSeek

Contexte 131K tokens

GPU min. RTX 3080

DeepSeek Voir les détails →

Qwen2.5 Coder 14B 8 GB

Paramètres 14B

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 5 tok/s

Apache-2.0 Voir les détails →

StarCoder 2 15B 9 GB

Paramètres 15B

Fournisseur BigCode

Contexte 16K tokens

GPU min. RTX 3080

BigCode OpenRAIL-M v1 Voir les détails →

Qwen2.5-Coder 7B 4.2 GB

Fournisseur Alibaba

Contexte 131K tokens

Vitesse CPU 9 tok/s

Apache-2.0 Voir les détails →

StarCoder 2 7B 4.5 GB

Fournisseur BigCode

Contexte 16K tokens

Vitesse CPU 8 tok/s

BigCode OpenRAIL-M v1 Voir les détails →

CodeGemma 7B 4.5 GB

Fournisseur Google

Contexte 8K tokens

GPU min. GTX 1660 Super

Gemma Voir les détails →

CodeLlama 7B 4.5 GB

Fournisseur Meta

Contexte 16K tokens

Vitesse CPU 8 tok/s

llama-2-community Voir les détails →

StarCoder 2 3B 1.9 GB

Fournisseur BigCode

Contexte 16K tokens

Vitesse CPU 18 tok/s

BigCode OpenRAIL-M v1 Voir les détails →

Vision et multimodal (11)

Modèles qui traitent image et texte ensemble

Llama 4 Maverick 116.1 GB

Paramètres 211B

Fournisseur Meta

Contexte 1000K tokens

GPU min. M4 Ultra

Llama 4 Voir les détails →

Gemma 4 27B 14.9 GB

Paramètres 27B

Fournisseur Google

Contexte 256K tokens

Vitesse CPU 3 tok/s

Apache 2.0 Voir les détails →

Gemma 4 31B 17.1 GB

Paramètres 31B

Fournisseur Google

Contexte 128K tokens

Vitesse CPU 1 tok/s

Apache 2.0 Voir les détails →

Llama 3.2 90B Vision 54 GB

Paramètres 90B

Fournisseur Meta

Contexte 131K tokens

GPU min. M4 Ultra

llama-3.2-community Voir les détails →

Llama 4 Scout 60 GB

Paramètres 109B

Fournisseur Meta

Contexte 10000K tokens

GPU min. M4 Ultra

Llama 4 Voir les détails →

Gemma 4 12B 6.6 GB

Paramètres 12B

Fournisseur Google

Contexte 256K tokens

Vitesse CPU 8 tok/s

Apache 2.0 Voir les détails →

Mistral Small 3.1 13.2 GB

Paramètres 24B

Fournisseur Mistral AI

Contexte 128K tokens

Vitesse CPU 1 tok/s

Apache 2.0 Voir les détails →

Gemma 4 E4B 2.2 GB

Fournisseur Google

Contexte 128K tokens

Vitesse CPU 14 tok/s

Apache 2.0 Voir les détails →

Llama 3.2 11B Vision 6.6 GB

Paramètres 11B

Fournisseur Meta

Contexte 131K tokens

GPU min. RTX 3050 8GB

llama-3.2-community Voir les détails →

LLaVA 1.5 7B 4.5 GB

Fournisseur Haotian Liu et al.

Contexte 4K tokens

GPU min. GTX 1660 Super

llava-v1.5-community Voir les détails →

Gemma 4 E2B 1.1 GB

Fournisseur Google

Contexte 128K tokens

Vitesse CPU 25 tok/s

Apache 2.0 Voir les détails →

Génération d’images (7)

Modèles de diffusion pour générer et modifier des images en local

Flux.1 Dev 12 GB

Paramètres 12B

Fournisseur Black Forest Labs

GPU min. RTX 3060

FLUX.1-dev Non-Commercial Voir les détails →

Stable Diffusion 3.5 Large 10 GB

Fournisseur Stability AI

GPU min. RTX 3080

Stability AI Community Voir les détails →

FLUX.2 Dev 17.6 GB

Paramètres 32B

Fournisseur Black Forest Labs

GPU min. M3 Pro

FLUX.2-dev Non-Commercial Voir les détails →

Stable Diffusion 3.5 Medium 5 GB

Fournisseur Stability AI

GPU min. GTX 1660 Super

Stability AI Community Voir les détails →

Stable Diffusion 3 Medium 3 GB

Fournisseur Stability AI

GPU min. GTX 1660 Super

Stability AI Community Voir les détails →

Flux.1 Schnell 12 GB

Paramètres 12B

Fournisseur Black Forest Labs

GPU min. RTX 3060

Apache-2.0 Voir les détails →

Stable Diffusion XL 6 GB

Paramètres 6.6B

Fournisseur Stability AI

GPU min. GTX 1660 Super

CreativeML Open RAIL++-M Voir les détails →

Reconnaissance vocale (5)

Modèles de transcription et de traduction

Whisper Large V3 1.5 GB

Paramètres 1.55B

Fournisseur OpenAI

GPU min. GTX 1660 Super

MIT Voir les détails →

Whisper Medium 0.8 GB

Paramètres 0.769B

Fournisseur OpenAI

GPU min. GTX 1660 Super

MIT Voir les détails →

Whisper Small 0.4 GB

Paramètres 0.244B

Fournisseur OpenAI

GPU min. GTX 1660 Super

MIT Voir les détails →

Whisper Base 0.25 GB

Paramètres 0.074B

Fournisseur OpenAI

GPU min. GTX 1660 Super

MIT Voir les détails →

Whisper Tiny 0.2 GB

Paramètres 0.039B

Fournisseur OpenAI

GPU min. GTX 1660 Super

MIT Voir les détails →

agent (4)

Hermes 3 405B 230 GB

Paramètres 405B

Fournisseur Nous Research

Contexte 131K tokens

llama-3.1-community Voir les détails →

Hermes 3 70B 40 GB

Paramètres 70B

Fournisseur Nous Research

Contexte 131K tokens

Vitesse CPU 0.8 tok/s

llama-3.1-community Voir les détails →

Hermes 3 8B 5 GB

Fournisseur Nous Research

Contexte 131K tokens

Vitesse CPU 7 tok/s

llama-3.1-community Voir les détails →

Hermes 2 Pro Llama-3 8B 5 GB

Fournisseur Nous Research

Contexte 8K tokens

Vitesse CPU 7 tok/s

apache-2.0 Voir les détails →