Modellbibliothek v2.4

KI-Modelle fuer
lokale Inferenz

99 Modelle mit exakten VRAM-Anforderungen in FP16, Q8, Q4 und Q2. Waehle ein Modell und finde heraus, welche GPU es mit welcher Qualitaet ausfuehren kann.

99 modelle indexiert

51 laufen auf 8 GB

59 chat

13 code

Empfehlung

Gerade am Anfang?

Llama 3.1 8B Q4 ist der beste Einstieg und laeuft auf GPUs mit 6 GB+ VRAM. Mit 12 GB+ kannst du auf Mistral 7B oder Llama 3.1 13B wechseln.

Llama 3.1 8B ansehen

Pruefe, ob deine GPU ein beliebiges Modell ausfuehren kann

Modell-Routenwahl

/modelo/Entscheidungsebene

Waehle einen Modellpfad, der zu deiner Hardware passt

Absichtsbasierte Navigation:Diese Routen verbinden deine Absicht mit einem VRAM-Mindestziel plus empfohlenem Modell und GPU, bevor du den gesamten Modellkatalog oeffnest.

3

Entscheidungsszenarien

9.3GB

Ø Mindest-VRAM

12GB

Hoechste Route

check_circle

forum

Persoenlicher lokaler KI-Assistent

Fuer alle, die Datenschutz wollen und Cloud-Abos vermeiden moechten

Modell: Llama 3.1 8BGPU: RTX 4060

Ausgewaehlt

Mindest-VRAM-Signal

Szenario-Anforderung

8 GB

4GB8GB12GB16GB 24GB+

Llama 3.1 8B

Empfohlenes Modell

RTX 4060

Empfohlene GPU

Kompatibilitaet pruefen Verfuegbarkeit pruefen

Modelldetails GPU-Details

mic

Private Audio-Transkription

Journalisten, Forscher und Fachanwender

Modell: Whisper Large V3GPU: RTX 3060

Mindest-VRAM-Signal

Szenario-Anforderung

8 GB

4GB8GB12GB16GB 24GB+

Whisper Large V3

Empfohlenes Modell

RTX 3060

Empfohlene GPU

Kompatibilitaet pruefen Verfuegbarkeit pruefen

Modelldetails GPU-Details

image

Lokale Bildgenerierung

Creator und Digital-Kuenstler

Modell: Stable Diffusion XLGPU: RTX 3060

Mindest-VRAM-Signal

Szenario-Anforderung

12 GB

4GB8GB12GB16GB 24GB+

Stable Diffusion XL

Empfohlenes Modell

RTX 3060

Empfohlene GPU

Kompatibilitaet pruefen Verfuegbarkeit pruefen

Modelldetails GPU-Details

Chat und Reasoning (59)

Allgemeine LLMs fuer Konversation und komplexes Schlussfolgern

Llama 3.1 405B 230 GB

Kontext 131K tokens

llama-3.1-community Details ansehen →

DeepSeek R1 403 GB

Anbieter DeepSeek

Kontext 128K tokens

MIT Details ansehen →

DeepSeek V3.2 369.1 GB

Anbieter DeepSeek

Kontext 128K tokens

MIT Details ansehen →

DeepSeek V3 411 GB

Anbieter DeepSeek

Kontext 128K tokens

MIT Details ansehen →

Llama 3.3 70B 42 GB

Kontext 128K tokens

Min. GPU M4 Max 48GB

llama-3-community Details ansehen →

Qwen2.5 72B 41 GB

Anbieter Alibaba

Kontext 131K tokens

Min. GPU M4 Max 48GB

Apache-2.0 Details ansehen →

Llama 3.1 70B 40 GB

Kontext 131K tokens

Min. GPU M4 Max 48GB

llama-3.1-community Details ansehen →

DeepSeek R1 Distill 32B 19.2 GB

Anbieter DeepSeek

Kontext 128K tokens

Min. GPU RX 7900 XT

MIT Details ansehen →

Qwen3 235B-A22B 129.3 GB

Anbieter Alibaba

Kontext 131K tokens

Min. GPU M3 Ultra

Apache 2.0 Details ansehen →

Qwen2.5 32B 19.2 GB

Anbieter Alibaba

Kontext 131K tokens

Min. GPU RX 7900 XT

Apache-2.0 Details ansehen →

Command R+ 59 GB

Anbieter Cohere

Kontext 131K tokens

Min. GPU M4 Ultra

CC-BY-NC-4.0 Details ansehen →

Qwen3.5 35B-A3B 19.3 GB

Anbieter Alibaba

Kontext 128K tokens

CPU-Geschwindigkeit 8 tok/s

Apache 2.0 Details ansehen →

Gemma 2 27B 15 GB

Anbieter Google

Kontext 8K tokens

Min. GPU M1 Pro

Gemma Details ansehen →

Gemma 3 27B 16.2 GB

Anbieter Google

Kontext 128K tokens

Min. GPU M3 Pro

Gemma Details ansehen →

Mistral Small 4 65.5 GB

Anbieter Mistral AI

Kontext 256K tokens

Min. GPU M4 Ultra

Apache 2.0 Details ansehen →

Mixtral 8x7B 26 GB

Parameter 46.7B

Anbieter Mistral AI

Kontext 33K tokens

Min. GPU RTX 5090

Apache-2.0 Details ansehen →

Mistral Small 3 14.4 GB

Anbieter Mistral AI

Kontext 33K tokens

Min. GPU M1 Pro

Apache-2.0 Details ansehen →

Anbieter Microsoft

Kontext 16K tokens

Min. GPU RTX 3080

MIT Details ansehen →

Qwen3 32B 17.6 GB

Anbieter Alibaba

Kontext 128K tokens

CPU-Geschwindigkeit 2 tok/s

Apache 2.0 Details ansehen →

Qwen3 30B-A3B 16.5 GB

Anbieter Alibaba

Kontext 131K tokens

Min. GPU M3 Pro

Apache 2.0 Details ansehen →

DeepSeek R1 Distill 14B 8.4 GB

Anbieter DeepSeek

Kontext 128K tokens

Min. GPU RTX 3080

MIT Details ansehen →

Qwen3.5 27B 14.9 GB

Anbieter Alibaba

Kontext 128K tokens

CPU-Geschwindigkeit 3 tok/s

Apache 2.0 Details ansehen →

Magistral Small 24B 13.2 GB

Anbieter Mistral AI

Kontext 128K tokens

CPU-Geschwindigkeit 5 tok/s

Apache 2.0 Details ansehen →

Yi 1.5 34B 20 GB

Kontext 4K tokens

Min. GPU RX 7900 XT

Apache-2.0 Details ansehen →

Qwen2.5 14B 8.4 GB

Anbieter Alibaba

Kontext 131K tokens

Min. GPU RTX 3080

Apache-2.0 Details ansehen →

Mistral Small 3.2 13.2 GB

Anbieter Mistral AI

Kontext 128K tokens

CPU-Geschwindigkeit 1 tok/s

Apache 2.0 Details ansehen →

Qwen3 14B 7.7 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 5 tok/s

Apache 2.0 Details ansehen →

Gemma 3 12B 7.2 GB

Anbieter Google

Kontext 128K tokens

Min. GPU RTX 3050 8GB

Gemma Details ansehen →

Phi-3 Medium 8 GB

Anbieter Microsoft

Kontext 128K tokens

Min. GPU RTX 3050 8GB

MIT Details ansehen →

DeepSeek R1 Distill 8B 4.8 GB

Anbieter DeepSeek

Kontext 128K tokens

CPU-Geschwindigkeit 8 tok/s

MIT Details ansehen →

Mistral Nemo 12B 7 GB

Anbieter Mistral AI

Kontext 131K tokens

CPU-Geschwindigkeit 6 tok/s

Apache-2.0 Details ansehen →

Qwen3.5 9B 5 GB

Anbieter Alibaba

Kontext 128K tokens

CPU-Geschwindigkeit 12 tok/s

Apache 2.0 Details ansehen →

Qwen3 8B 4.4 GB

Anbieter Alibaba

Kontext 128K tokens

CPU-Geschwindigkeit 9 tok/s

Apache 2.0 Details ansehen →

Nous Hermes 2 Mixtral 8x7B 26 GB

Anbieter Nous Research

Kontext 33K tokens

CPU-Geschwindigkeit 2 tok/s

apache-2.0 Details ansehen →

Gemma 2 9B 5.5 GB

Anbieter Google

Kontext 8K tokens

Min. GPU GTX 1660 Super

Gemma Details ansehen →

Phi-3.5 MoE 21 GB

Parameter 41.9B

Anbieter Microsoft

Kontext 131K tokens

Min. GPU M4 Pro

MIT Details ansehen →

Phi-4 Mini 2.1 GB

Anbieter Microsoft

Kontext 128K tokens

CPU-Geschwindigkeit 30 tok/s

MIT Details ansehen →

Llama 3.1 8B 5 GB

Kontext 131K tokens

CPU-Geschwindigkeit 7 tok/s

llama-3.1-community Details ansehen →

Qwen2.5 7B 4.5 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 8 tok/s

Apache-2.0 Details ansehen →

DeepSeek V2 Lite 9 GB

Anbieter DeepSeek

Kontext 33K tokens

Min. GPU RTX 3080

DeepSeek Details ansehen →

Mistral 7B 4.5 GB

Anbieter Mistral AI

Kontext 33K tokens

CPU-Geschwindigkeit 8 tok/s

Apache-2.0 Details ansehen →

Yi 1.5 9B 5.5 GB

Kontext 4K tokens

Min. GPU GTX 1660 Super

Apache-2.0 Details ansehen →

Phi-3 Small 4.5 GB

Anbieter Microsoft

Kontext 128K tokens

CPU-Geschwindigkeit 8 tok/s

MIT Details ansehen →

Qwen3.5 4B 2.6 GB

Parameter 4.66B

Anbieter Alibaba

Kontext 262K tokens

CPU-Geschwindigkeit 12 tok/s

Apache 2.0 Details ansehen →

Qwen3 4B 2.2 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 15 tok/s

Apache 2.0 Details ansehen →

Gemma 3 4B 2.4 GB

Anbieter Google

Kontext 128K tokens

CPU-Geschwindigkeit 16 tok/s

Gemma Details ansehen →

Phi-3.5 Mini 2.3 GB

Anbieter Microsoft

Kontext 128K tokens

CPU-Geschwindigkeit 13 tok/s

MIT Details ansehen →

DeepSeek R1 Distill 1.5B 1 GB

Anbieter DeepSeek

Kontext 128K tokens

CPU-Geschwindigkeit 35 tok/s

MIT Details ansehen →

Yi 1.5 6B 3.7 GB

Kontext 4K tokens

CPU-Geschwindigkeit 9 tok/s

Apache-2.0 Details ansehen →

Phi-3 Mini 2.5 GB

Anbieter Microsoft

Kontext 128K tokens

CPU-Geschwindigkeit 14 tok/s

MIT Details ansehen →

Qwen3.5 2B 1.2 GB

Parameter 2.27B

Anbieter Alibaba

Kontext 262K tokens

CPU-Geschwindigkeit 22 tok/s

Apache 2.0 Details ansehen →

Qwen3 1.7B 0.9 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 35 tok/s

Apache 2.0 Details ansehen →

Gemma 2 2B 1.5 GB

Anbieter Google

Kontext 8K tokens

CPU-Geschwindigkeit 32 tok/s

Gemma Details ansehen →

Qwen2.5 3B 1.9 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 20 tok/s

Apache-2.0 Details ansehen →

Llama 3.2 3B 1.8 GB

Kontext 131K tokens

CPU-Geschwindigkeit 18 tok/s

llama-3.2-community Details ansehen →

Gemma 3 1B 0.7 GB

Anbieter Google

Kontext 128K tokens

CPU-Geschwindigkeit 42 tok/s

Gemma Details ansehen →

Qwen2.5 1.5B 1 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 38 tok/s

Apache-2.0 Details ansehen →

Llama 3.2 1B 0.6 GB

Kontext 131K tokens

CPU-Geschwindigkeit 52 tok/s

llama-3.2-community Details ansehen →

Qwen2.5 0.5B 0.35 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 95 tok/s

Apache-2.0 Details ansehen →

Code-Generierung (13)

Spezialisierte Modelle zum Schreiben, Pruefen und Erklaeren von Code

Qwen2.5-Coder 32B 19.2 GB

Anbieter Alibaba

Kontext 131K tokens

Min. GPU RX 7900 XT

Apache-2.0 Details ansehen →

Qwen3-Coder-Next 80B-A3B 44 GB

Anbieter Alibaba

Kontext 262K tokens

Min. GPU M4 Max 48GB

Apache 2.0 Details ansehen →

Qwen3-Coder 30B-A3B 16.5 GB

Anbieter Alibaba

Kontext 262K tokens

Min. GPU M3 Pro

Apache 2.0 Details ansehen →

Devstral Small 2 24B 13.2 GB

Anbieter Mistral AI

Kontext 256K tokens

CPU-Geschwindigkeit 5 tok/s

Apache 2.0 Details ansehen →

CodeLlama 34B 19 GB

Kontext 16K tokens

Min. GPU RX 7900 XT

llama-2-community Details ansehen →

DeepSeek Coder V2 9 GB

Anbieter DeepSeek

Kontext 131K tokens

Min. GPU RTX 3080

DeepSeek Details ansehen →

Qwen2.5 Coder 14B 8 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 5 tok/s

Apache-2.0 Details ansehen →

StarCoder 2 15B 9 GB

Anbieter BigCode

Kontext 16K tokens

Min. GPU RTX 3080

BigCode OpenRAIL-M v1 Details ansehen →

Qwen2.5-Coder 7B 4.2 GB

Anbieter Alibaba

Kontext 131K tokens

CPU-Geschwindigkeit 9 tok/s

Apache-2.0 Details ansehen →

StarCoder 2 7B 4.5 GB

Anbieter BigCode

Kontext 16K tokens

CPU-Geschwindigkeit 8 tok/s

BigCode OpenRAIL-M v1 Details ansehen →

CodeGemma 7B 4.5 GB

Anbieter Google

Kontext 8K tokens

Min. GPU GTX 1660 Super

Gemma Details ansehen →

CodeLlama 7B 4.5 GB

Kontext 16K tokens

CPU-Geschwindigkeit 8 tok/s

llama-2-community Details ansehen →

StarCoder 2 3B 1.9 GB

Anbieter BigCode

Kontext 16K tokens

CPU-Geschwindigkeit 18 tok/s

BigCode OpenRAIL-M v1 Details ansehen →

Vision und Multimodal (11)

Modelle, die Bild und Text gemeinsam verarbeiten

Llama 4 Maverick 116.1 GB

Kontext 1000K tokens

Min. GPU M4 Ultra

Llama 4 Details ansehen →

Gemma 4 27B 14.9 GB

Anbieter Google

Kontext 256K tokens

CPU-Geschwindigkeit 3 tok/s

Apache 2.0 Details ansehen →

Gemma 4 31B 17.1 GB

Anbieter Google

Kontext 128K tokens

CPU-Geschwindigkeit 1 tok/s

Apache 2.0 Details ansehen →

Llama 3.2 90B Vision 54 GB

Kontext 131K tokens

Min. GPU M4 Ultra

llama-3.2-community Details ansehen →

Llama 4 Scout 60 GB

Kontext 10000K tokens

Min. GPU M4 Ultra

Llama 4 Details ansehen →

Gemma 4 12B 6.6 GB

Anbieter Google

Kontext 256K tokens

CPU-Geschwindigkeit 8 tok/s

Apache 2.0 Details ansehen →

Mistral Small 3.1 13.2 GB

Anbieter Mistral AI

Kontext 128K tokens

CPU-Geschwindigkeit 1 tok/s

Apache 2.0 Details ansehen →

Gemma 4 E4B 2.2 GB

Anbieter Google

Kontext 128K tokens

CPU-Geschwindigkeit 14 tok/s

Apache 2.0 Details ansehen →

Llama 3.2 11B Vision 6.6 GB

Kontext 131K tokens

Min. GPU RTX 3050 8GB

llama-3.2-community Details ansehen →

LLaVA 1.5 7B 4.5 GB

Anbieter Haotian Liu et al.

Kontext 4K tokens

Min. GPU GTX 1660 Super

llava-v1.5-community Details ansehen →

Gemma 4 E2B 1.1 GB

Anbieter Google

Kontext 128K tokens

CPU-Geschwindigkeit 25 tok/s

Apache 2.0 Details ansehen →

Bildgenerierung (7)

Diffusionsmodelle zum lokalen Erzeugen und Bearbeiten von Bildern

Flux.1 Dev 12 GB

Anbieter Black Forest Labs

Min. GPU RTX 3060

FLUX.1-dev Non-Commercial Details ansehen →

Stable Diffusion 3.5 Large 10 GB

Anbieter Stability AI

Min. GPU RTX 3080

Stability AI Community Details ansehen →

FLUX.2 Dev 17.6 GB

Anbieter Black Forest Labs

Min. GPU M3 Pro

FLUX.2-dev Non-Commercial Details ansehen →

Stable Diffusion 3.5 Medium 5 GB

Anbieter Stability AI

Min. GPU GTX 1660 Super

Stability AI Community Details ansehen →

Stable Diffusion 3 Medium 3 GB

Anbieter Stability AI

Min. GPU GTX 1660 Super

Stability AI Community Details ansehen →

Flux.1 Schnell 12 GB

Anbieter Black Forest Labs

Min. GPU RTX 3060

Apache-2.0 Details ansehen →

Stable Diffusion XL 6 GB

Anbieter Stability AI

Min. GPU GTX 1660 Super

CreativeML Open RAIL++-M Details ansehen →

Spracherkennung (5)

Modelle fuer Transkription und Uebersetzung

Whisper Large V3 1.5 GB

Parameter 1.55B

Anbieter OpenAI

Min. GPU GTX 1660 Super

MIT Details ansehen →

Whisper Medium 0.8 GB

Parameter 0.769B

Anbieter OpenAI

Min. GPU GTX 1660 Super

MIT Details ansehen →

Whisper Small 0.4 GB

Parameter 0.244B

Anbieter OpenAI

Min. GPU GTX 1660 Super

MIT Details ansehen →

Whisper Base 0.25 GB

Parameter 0.074B

Anbieter OpenAI

Min. GPU GTX 1660 Super

MIT Details ansehen →

Whisper Tiny 0.2 GB

Parameter 0.039B

Anbieter OpenAI

Min. GPU GTX 1660 Super

MIT Details ansehen →

agent (4)

Hermes 3 405B 230 GB

Anbieter Nous Research

Kontext 131K tokens

llama-3.1-community Details ansehen →

Hermes 3 70B 40 GB

Anbieter Nous Research

Kontext 131K tokens

CPU-Geschwindigkeit 0.8 tok/s

llama-3.1-community Details ansehen →

Hermes 3 8B 5 GB

Anbieter Nous Research

Kontext 131K tokens

CPU-Geschwindigkeit 7 tok/s

llama-3.1-community Details ansehen →

Hermes 2 Pro Llama-3 8B 5 GB

Anbieter Nous Research

Kontext 8K tokens

CPU-Geschwindigkeit 7 tok/s

apache-2.0 Details ansehen →