Welche GPU brauche ich fuer lokale KI?

Fuer lokale KI wird eine GPU mit mindestens 8 GB VRAM empfohlen. Die NVIDIA RTX 3060 (12 GB VRAM) ist eine starke Einstiegskarte und erreicht etwa 30 Tokens/s mit Llama 3.1 8B in Q4.

Wie viel VRAM brauche ich fuer Llama 3?

Llama 3.1 8B benoetigt in Q4 etwa 5 GB VRAM. Fuer Llama 3.3 70B brauchst du rund 42 GB VRAM oder Apple Silicon mit 48 GB Unified Memory.

Kann ich KI ohne GPU ausfuehren?

Ja. Kleine Modelle wie Phi-3-mini laufen nur auf der CPU mit etwa 10-15 Tokens/s auf einem modernen i7. Dafuer werden mindestens 16 GB RAM empfohlen.

Waehle ein Modell.
Wir sagen dir, welche Hardware du brauchst.

Name: RunAIatHome
Author: RunAIatHome

Exakte VRAM-Anforderungen, echte Benchmarks und kompatible GPUs ohne Raten.

Schluss mit Raten. Finde den exakten GPU, der bestimmt, welche KI-Modelle du ausfuehren kannst">VRAM und die GPU, die du brauchst, in unter 5 Minuten.

Aktive Modellauswahl

Llama 3.1 8B Phi-4 Stable Diffusion Qwen2.5 Coder

Mit einem Modell starten Echte Setups ansehen

Modellprofil

Phi-4

Microsoft · 14B Parameter

OPTIMIERT

VRAM-Bedarf

8.4 GB

4GB8GB12GB16GB 24GB+

Empfohlene lokale Knoten

Inferenz FP16

Latenz 24ms

Warum das schwierig ist

Lokale KI auszufuehren ist schwieriger als noetig

Reine Spezifikationen reichen nicht

TFLOPS, CUDA-Kerne und Tensor-OPS sagen dir nicht, welche Modelle wirklich laufen. Die reale Leistung haengt von Speicherbandbreite und Quantisierung ab.

Falsche Hardware-Entscheidungen

Der Kauf der falschen GPU kann dich jahrelang ausbremsen. VRAM ist der zentrale Engpass bei LLMs, und viele Consumer-Karten sind fuer lokale Inferenz unterdimensioniert.

Keine klaren Antworten

Viele Anleitungen sind vage oder veraltet. Wenn ein Tutorial erscheint, haben sich Modellarchitekturen und Runtime-Optimierungen oft schon veraendert.

Beende das Raetselraten.

Unsere Diagnose-Engine gleicht die exakten Faehigkeiten deines Systems mit jedem Modell im Katalog ab. Keine synthetischen Benchmarks: echte Inferenz auf echter Hardware.

Pruefe deine Hardware in 2 Minuten

So funktioniert es