VRAM Calculator
RunAIatHome VRAM Calculator tells you whether your GPU can run any AI model. Select your hardware and find out instantly.
La regla práctica es: parámetros × bytes_por_parámetro + 1-2 GB de overhead de contexto. Q4 usa 0.5 bytes/parámetro, Q8 usa 1 byte, FP16 usa 2 bytes. La RTX 3060 12 GB cubre cualquier 7B en Q8 con margen.
— RunAIatHome VRAM Calculator — fórmula validada con Ollama 0.5.xDecision Engine Framing Strip
Resolve fit, offload, or shortfall before you leave the tool
Compare real VRAM requirements against the live catalog, surface confidence for the result, and move to the next internal step when you need a lighter model or a stronger GPU.
Compatible GPUs by required VRAM
The calculator tells you how much VRAM you need. Here are the most popular GPUs at each tier — filtered to the ones that actually meet the requirements.
NVIDIA GeForce RTX 3060
Runs Llama 3.1 8B at Q8, Mistral 7B at Q8, and models up to 13B at Q4 without offloading
Check availability →
NVIDIA GeForce RTX 4060 Ti 16GB
Runs 13B models at Q8 smoothly, Qwen2.5 14B, Gemma 3 12B, and Stable Diffusion XL without limits
Check availability →
NVIDIA GeForce RTX 4090
Runs 30B models at Q4, Llama 3.3 70B with partial offload, 7B fine-tuning at FP16
Check availability →Affiliate disclosure: The links above are affiliate links (Amazon Associates). If you buy through them, we receive a small commission at no extra cost to you. Prices and availability may change.
Found this useful? Get guides like this in your inbox every week.
How RunAIatHome VRAM Calculation Works
1. Model Size
Each parameter takes 2 bytes (FP16), 1 byte (Q8), 0.5 bytes (Q4), or 0.25 bytes (Q2).
2. KV Cache
Runtime overhead for context processing adds ~0.5-2 GB depending on context length.
3. Offloading
If VRAM overflows, layers offload to system RAM — usable but slower.
Quantization Explained
See exactly how Q4, Q8, and FP16 affect VRAM requirements and speed for any model.
Guía práctica de VRAM para modelos de IA local
La VRAM (Video RAM) es la memoria de tu GPU y el recurso más crítico para ejecutar modelos de IA en local. A diferencia de la RAM del sistema, es mucho más rápida pero también más limitada. Cuando un modelo no cabe completamente en VRAM, el sistema hace offloading de capas a RAM, lo que puede reducir la velocidad de inferencia en un 50–80%.
El cálculo básico de VRAM necesaria es: número de parámetros × bytes por parámetro según cuantización + overhead de KV cache. Para un modelo de 7B en Q4 (0.5 bytes/parámetro): 7000M × 0.5 bytes ≈ 3.5 GB + ~1 GB de overhead = unos 4.5–5 GB totales. Esta calculadora hace ese cálculo automáticamente para cualquier combinación de modelo y cuantización.
¿Qué nivel de cuantización debo usar?
La cuantización reduce la precisión de los pesos del modelo para ahorrar memoria. Estos son los niveles más comunes y cuándo usar cada uno:
- FP16: Precisión completa. La mejor calidad posible, pero necesita el doble de VRAM que Q8. Solo recomendable para fine-tuning o evaluaciones donde la calidad exacta es crítica. Un modelo de 7B necesita ~14 GB de VRAM.
- Q8: Pérdida de calidad prácticamente imperceptible. Reduce la VRAM a la mitad respecto a FP16. Ideal cuando tienes VRAM suficiente y quieres calidad máxima sin el coste de FP16. Un modelo de 7B necesita ~7 GB.
- Q4_K_M: El punto dulce. Reduce la VRAM a la mitad respecto a Q8 con una pérdida de calidad del 5–10%. La opción más popular en Ollama y llama.cpp para uso diario. Un modelo de 7B necesita ~4.5 GB. Recomendado para la mayoría de usuarios.
- Q2: Máxima compresión. Permite cargar modelos muy grandes en poca VRAM, pero con una pérdida de calidad notable. Solo recomendable cuando no hay otra opción y necesitas el modelo sí o sí en tu hardware.
Casos reales: qué modelos caben en cada GPU
Estos son los modelos más populares y la cuantización máxima recomendada según la VRAM disponible:
| GPU / VRAM | Modelos compatibles en Q4 |
|---|---|
| RTX 3060 (12 GB) | Llama 3.1 8B (Q8), Mistral 7B (Q8), Phi-4 14B (Q4), DeepSeek R1 8B (Q8) |
| RTX 4060 Ti (16 GB) | Qwen2.5 14B (Q8), Gemma 3 12B (Q8), Mistral Small 24B (Q4) |
| RTX 4090 (24 GB) | Llama 3.3 70B (Q2), Qwen2.5 32B (Q8), Mixtral 8x7B (Q4) |