Zum Hauptinhalt springen
Modellbibliothek v2.4

KI-Modelle fuer
lokale Inferenz

99 Modelle mit exakten VRAM-Anforderungen in FP16, Q8, Q4 und Q2. Waehle ein Modell und finde heraus, welche GPU es mit welcher Qualitaet ausfuehren kann.

99 modelle indexiert
51 laufen auf 8 GB
59 chat
13 code
Empfehlung

Gerade am Anfang?

Llama 3.1 8B Q4 ist der beste Einstieg und laeuft auf GPUs mit 6 GB+ VRAM. Mit 12 GB+ kannst du auf Mistral 7B oder Llama 3.1 13B wechseln.

Llama 3.1 8B ansehen
Modell-Routenwahl
/modelo/Entscheidungsebene

Waehle einen Modellpfad, der zu deiner Hardware passt

Absichtsbasierte Navigation:Diese Routen verbinden deine Absicht mit einem VRAM-Mindestziel plus empfohlenem Modell und GPU, bevor du den gesamten Modellkatalog oeffnest.

3
Entscheidungsszenarien
9.3GB
Ø Mindest-VRAM
12GB
Hoechste Route

Chat und Reasoning (59)

Allgemeine LLMs fuer Konversation und komplexes Schlussfolgern

Llama 3.1 405B 230 GB
Parameter 405B
Anbieter Meta
Kontext 131K tokens
llama-3.1-community Details ansehen →
DeepSeek R1 403 GB
Parameter 671B
Anbieter DeepSeek
Kontext 128K tokens
MIT Details ansehen →
DeepSeek V3.2 369.1 GB
Parameter 671B
Anbieter DeepSeek
Kontext 128K tokens
MIT Details ansehen →
DeepSeek V3 411 GB
Parameter 685B
Anbieter DeepSeek
Kontext 128K tokens
MIT Details ansehen →
Llama 3.3 70B 42 GB
Parameter 70B
Anbieter Meta
Kontext 128K tokens
Min. GPU M4 Max 48GB
llama-3-community Details ansehen →
Qwen2.5 72B 41 GB
Parameter 72B
Anbieter Alibaba
Kontext 131K tokens
Min. GPU M4 Max 48GB
Apache-2.0 Details ansehen →
Llama 3.1 70B 40 GB
Parameter 70B
Anbieter Meta
Kontext 131K tokens
Min. GPU M4 Max 48GB
llama-3.1-community Details ansehen →
DeepSeek R1 Distill 32B 19.2 GB
Parameter 32B
Anbieter DeepSeek
Kontext 128K tokens
Min. GPU RX 7900 XT
MIT Details ansehen →
Qwen3 235B-A22B 129.3 GB
Parameter 235B
Anbieter Alibaba
Kontext 131K tokens
Min. GPU M3 Ultra
Apache 2.0 Details ansehen →
Qwen2.5 32B 19.2 GB
Parameter 32B
Anbieter Alibaba
Kontext 131K tokens
Min. GPU RX 7900 XT
Apache-2.0 Details ansehen →
Command R+ 59 GB
Parameter 104B
Anbieter Cohere
Kontext 131K tokens
Min. GPU M4 Ultra
CC-BY-NC-4.0 Details ansehen →
Qwen3.5 35B-A3B 19.3 GB
Parameter 35B
Anbieter Alibaba
Kontext 128K tokens
CPU-Geschwindigkeit 8 tok/s
Apache 2.0 Details ansehen →
Gemma 2 27B 15 GB
Parameter 27B
Anbieter Google
Kontext 8K tokens
Min. GPU M1 Pro
Gemma Details ansehen →
Gemma 3 27B 16.2 GB
Parameter 27B
Anbieter Google
Kontext 128K tokens
Min. GPU M3 Pro
Gemma Details ansehen →
Mistral Small 4 65.5 GB
Parameter 119B
Anbieter Mistral AI
Kontext 256K tokens
Min. GPU M4 Ultra
Apache 2.0 Details ansehen →
Mixtral 8x7B 26 GB
Parameter 46.7B
Anbieter Mistral AI
Kontext 33K tokens
Min. GPU RTX 5090
Apache-2.0 Details ansehen →
Mistral Small 3 14.4 GB
Parameter 24B
Anbieter Mistral AI
Kontext 33K tokens
Min. GPU M1 Pro
Apache-2.0 Details ansehen →
Phi-4 8.4 GB
Parameter 14B
Anbieter Microsoft
Kontext 16K tokens
Min. GPU RTX 3080
MIT Details ansehen →
Qwen3 32B 17.6 GB
Parameter 32B
Anbieter Alibaba
Kontext 128K tokens
CPU-Geschwindigkeit 2 tok/s
Apache 2.0 Details ansehen →
Qwen3 30B-A3B 16.5 GB
Parameter 30B
Anbieter Alibaba
Kontext 131K tokens
Min. GPU M3 Pro
Apache 2.0 Details ansehen →
DeepSeek R1 Distill 14B 8.4 GB
Parameter 14B
Anbieter DeepSeek
Kontext 128K tokens
Min. GPU RTX 3080
MIT Details ansehen →
Qwen3.5 27B 14.9 GB
Parameter 27B
Anbieter Alibaba
Kontext 128K tokens
CPU-Geschwindigkeit 3 tok/s
Apache 2.0 Details ansehen →
Magistral Small 24B 13.2 GB
Parameter 24B
Anbieter Mistral AI
Kontext 128K tokens
CPU-Geschwindigkeit 5 tok/s
Apache 2.0 Details ansehen →
Yi 1.5 34B 20 GB
Parameter 34B
Anbieter 01.AI
Kontext 4K tokens
Min. GPU RX 7900 XT
Apache-2.0 Details ansehen →
Qwen2.5 14B 8.4 GB
Parameter 14B
Anbieter Alibaba
Kontext 131K tokens
Min. GPU RTX 3080
Apache-2.0 Details ansehen →
Mistral Small 3.2 13.2 GB
Parameter 24B
Anbieter Mistral AI
Kontext 128K tokens
CPU-Geschwindigkeit 1 tok/s
Apache 2.0 Details ansehen →
Qwen3 14B 7.7 GB
Parameter 14B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 5 tok/s
Apache 2.0 Details ansehen →
Gemma 3 12B 7.2 GB
Parameter 12B
Anbieter Google
Kontext 128K tokens
Min. GPU RTX 3050 8GB
Gemma Details ansehen →
Phi-3 Medium 8 GB
Parameter 14B
Anbieter Microsoft
Kontext 128K tokens
Min. GPU RTX 3050 8GB
MIT Details ansehen →
DeepSeek R1 Distill 8B 4.8 GB
Parameter 8B
Anbieter DeepSeek
Kontext 128K tokens
CPU-Geschwindigkeit 8 tok/s
MIT Details ansehen →
Mistral Nemo 12B 7 GB
Parameter 12B
Anbieter Mistral AI
Kontext 131K tokens
CPU-Geschwindigkeit 6 tok/s
Apache-2.0 Details ansehen →
Qwen3.5 9B 5 GB
Parameter 9B
Anbieter Alibaba
Kontext 128K tokens
CPU-Geschwindigkeit 12 tok/s
Apache 2.0 Details ansehen →
Qwen3 8B 4.4 GB
Parameter 8B
Anbieter Alibaba
Kontext 128K tokens
CPU-Geschwindigkeit 9 tok/s
Apache 2.0 Details ansehen →
Nous Hermes 2 Mixtral 8x7B 26 GB
Parameter 47B
Anbieter Nous Research
Kontext 33K tokens
CPU-Geschwindigkeit 2 tok/s
apache-2.0 Details ansehen →
Gemma 2 9B 5.5 GB
Parameter 9B
Anbieter Google
Kontext 8K tokens
Min. GPU GTX 1660 Super
Gemma Details ansehen →
Phi-3.5 MoE 21 GB
Parameter 41.9B
Anbieter Microsoft
Kontext 131K tokens
Min. GPU M4 Pro
MIT Details ansehen →
Phi-4 Mini 2.1 GB
Parameter 3.8B
Anbieter Microsoft
Kontext 128K tokens
CPU-Geschwindigkeit 30 tok/s
MIT Details ansehen →
Llama 3.1 8B 5 GB
Parameter 8B
Anbieter Meta
Kontext 131K tokens
CPU-Geschwindigkeit 7 tok/s
llama-3.1-community Details ansehen →
Qwen2.5 7B 4.5 GB
Parameter 7B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 8 tok/s
Apache-2.0 Details ansehen →
DeepSeek V2 Lite 9 GB
Parameter 16B
Anbieter DeepSeek
Kontext 33K tokens
Min. GPU RTX 3080
DeepSeek Details ansehen →
Mistral 7B 4.5 GB
Parameter 7B
Anbieter Mistral AI
Kontext 33K tokens
CPU-Geschwindigkeit 8 tok/s
Apache-2.0 Details ansehen →
Yi 1.5 9B 5.5 GB
Parameter 9B
Anbieter 01.AI
Kontext 4K tokens
Min. GPU GTX 1660 Super
Apache-2.0 Details ansehen →
Phi-3 Small 4.5 GB
Parameter 7B
Anbieter Microsoft
Kontext 128K tokens
CPU-Geschwindigkeit 8 tok/s
MIT Details ansehen →
Qwen3.5 4B 2.6 GB
Parameter 4.66B
Anbieter Alibaba
Kontext 262K tokens
CPU-Geschwindigkeit 12 tok/s
Apache 2.0 Details ansehen →
Qwen3 4B 2.2 GB
Parameter 4B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 15 tok/s
Apache 2.0 Details ansehen →
Gemma 3 4B 2.4 GB
Parameter 4B
Anbieter Google
Kontext 128K tokens
CPU-Geschwindigkeit 16 tok/s
Gemma Details ansehen →
Phi-3.5 Mini 2.3 GB
Parameter 3.8B
Anbieter Microsoft
Kontext 128K tokens
CPU-Geschwindigkeit 13 tok/s
MIT Details ansehen →
DeepSeek R1 Distill 1.5B 1 GB
Parameter 1.5B
Anbieter DeepSeek
Kontext 128K tokens
CPU-Geschwindigkeit 35 tok/s
MIT Details ansehen →
Yi 1.5 6B 3.7 GB
Parameter 6B
Anbieter 01.AI
Kontext 4K tokens
CPU-Geschwindigkeit 9 tok/s
Apache-2.0 Details ansehen →
Phi-3 Mini 2.5 GB
Parameter 3.8B
Anbieter Microsoft
Kontext 128K tokens
CPU-Geschwindigkeit 14 tok/s
MIT Details ansehen →
Qwen3.5 2B 1.2 GB
Parameter 2.27B
Anbieter Alibaba
Kontext 262K tokens
CPU-Geschwindigkeit 22 tok/s
Apache 2.0 Details ansehen →
Qwen3 1.7B 0.9 GB
Parameter 1.7B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 35 tok/s
Apache 2.0 Details ansehen →
Gemma 2 2B 1.5 GB
Parameter 2B
Anbieter Google
Kontext 8K tokens
CPU-Geschwindigkeit 32 tok/s
Gemma Details ansehen →
Qwen2.5 3B 1.9 GB
Parameter 3B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 20 tok/s
Apache-2.0 Details ansehen →
Llama 3.2 3B 1.8 GB
Parameter 3B
Anbieter Meta
Kontext 131K tokens
CPU-Geschwindigkeit 18 tok/s
llama-3.2-community Details ansehen →
Gemma 3 1B 0.7 GB
Parameter 1B
Anbieter Google
Kontext 128K tokens
CPU-Geschwindigkeit 42 tok/s
Gemma Details ansehen →
Qwen2.5 1.5B 1 GB
Parameter 1.5B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 38 tok/s
Apache-2.0 Details ansehen →
Llama 3.2 1B 0.6 GB
Parameter 1B
Anbieter Meta
Kontext 131K tokens
CPU-Geschwindigkeit 52 tok/s
llama-3.2-community Details ansehen →
Qwen2.5 0.5B 0.35 GB
Parameter 0.5B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 95 tok/s
Apache-2.0 Details ansehen →

Code-Generierung (13)

Spezialisierte Modelle zum Schreiben, Pruefen und Erklaeren von Code

Qwen2.5-Coder 32B 19.2 GB
Parameter 32B
Anbieter Alibaba
Kontext 131K tokens
Min. GPU RX 7900 XT
Apache-2.0 Details ansehen →
Qwen3-Coder-Next 80B-A3B 44 GB
Parameter 80B
Anbieter Alibaba
Kontext 262K tokens
Min. GPU M4 Max 48GB
Apache 2.0 Details ansehen →
Qwen3-Coder 30B-A3B 16.5 GB
Parameter 30B
Anbieter Alibaba
Kontext 262K tokens
Min. GPU M3 Pro
Apache 2.0 Details ansehen →
Devstral Small 2 24B 13.2 GB
Parameter 24B
Anbieter Mistral AI
Kontext 256K tokens
CPU-Geschwindigkeit 5 tok/s
Apache 2.0 Details ansehen →
CodeLlama 34B 19 GB
Parameter 34B
Anbieter Meta
Kontext 16K tokens
Min. GPU RX 7900 XT
llama-2-community Details ansehen →
DeepSeek Coder V2 9 GB
Parameter 16B
Anbieter DeepSeek
Kontext 131K tokens
Min. GPU RTX 3080
DeepSeek Details ansehen →
Qwen2.5 Coder 14B 8 GB
Parameter 14B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 5 tok/s
Apache-2.0 Details ansehen →
StarCoder 2 15B 9 GB
Parameter 15B
Anbieter BigCode
Kontext 16K tokens
Min. GPU RTX 3080
BigCode OpenRAIL-M v1 Details ansehen →
Qwen2.5-Coder 7B 4.2 GB
Parameter 7B
Anbieter Alibaba
Kontext 131K tokens
CPU-Geschwindigkeit 9 tok/s
Apache-2.0 Details ansehen →
StarCoder 2 7B 4.5 GB
Parameter 7B
Anbieter BigCode
Kontext 16K tokens
CPU-Geschwindigkeit 8 tok/s
BigCode OpenRAIL-M v1 Details ansehen →
CodeGemma 7B 4.5 GB
Parameter 7B
Anbieter Google
Kontext 8K tokens
Min. GPU GTX 1660 Super
Gemma Details ansehen →
CodeLlama 7B 4.5 GB
Parameter 7B
Anbieter Meta
Kontext 16K tokens
CPU-Geschwindigkeit 8 tok/s
llama-2-community Details ansehen →
StarCoder 2 3B 1.9 GB
Parameter 3B
Anbieter BigCode
Kontext 16K tokens
CPU-Geschwindigkeit 18 tok/s
BigCode OpenRAIL-M v1 Details ansehen →

Vision und Multimodal (11)

Modelle, die Bild und Text gemeinsam verarbeiten