Skip to main content

VRAM Calculator

RunAIatHome VRAM Calculator tells you whether your GPU can run any AI model. Select your hardware and find out instantly.

Javier Morales Local infrastructure and AI specialist — 8 years of experience
GitHub: github.com/javier-morales-ia
Un modelo de 7B parámetros en cuantización Q4 requiere 4.5 GB de VRAM; el mismo modelo en Q8 sube a 7.5 GB y en FP16 necesita 14 GB

La regla práctica es: parámetros × bytes_por_parámetro + 1-2 GB de overhead de contexto. Q4 usa 0.5 bytes/parámetro, Q8 usa 1 byte, FP16 usa 2 bytes. La RTX 3060 12 GB cubre cualquier 7B en Q8 con margen.

— RunAIatHome VRAM Calculator — fórmula validada con Ollama 0.5.x
Calculator Confidence Layer Active

Decision Engine Framing Strip

Resolve fit, offload, or shortfall before you leave the tool

Compare real VRAM requirements against the live catalog, surface confidence for the result, and move to the next internal step when you need a lighter model or a stronger GPU.

Compatible GPUs by required VRAM

The calculator tells you how much VRAM you need. Here are the most popular GPUs at each tier — filtered to the ones that actually meet the requirements.

Entry 12 GB VRAM
NVIDIA GeForce RTX 3060

NVIDIA GeForce RTX 3060

Runs Llama 3.1 8B at Q8, Mistral 7B at Q8, and models up to 13B at Q4 without offloading

Check availability →
Balanced 16 GB VRAM
NVIDIA GeForce RTX 4060 Ti 16GB

NVIDIA GeForce RTX 4060 Ti 16GB

Runs 13B models at Q8 smoothly, Qwen2.5 14B, Gemma 3 12B, and Stable Diffusion XL without limits

Check availability →
High-end 24 GB VRAM
NVIDIA GeForce RTX 4090

NVIDIA GeForce RTX 4090

Runs 30B models at Q4, Llama 3.3 70B with partial offload, 7B fine-tuning at FP16

Check availability →

Affiliate disclosure: The links above are affiliate links (Amazon Associates). If you buy through them, we receive a small commission at no extra cost to you. Prices and availability may change.

Found this useful? Get guides like this in your inbox every week.

No spam. Unsubscribe in one click.

How RunAIatHome VRAM Calculation Works

1. Model Size

Each parameter takes 2 bytes (FP16), 1 byte (Q8), 0.5 bytes (Q4), or 0.25 bytes (Q2).

2. KV Cache

Runtime overhead for context processing adds ~0.5-2 GB depending on context length.

3. Offloading

If VRAM overflows, layers offload to system RAM — usable but slower.

Quantization Explained

See exactly how Q4, Q8, and FP16 affect VRAM requirements and speed for any model.

Guía práctica de VRAM para modelos de IA local

La VRAM (Video RAM) es la memoria de tu GPU y el recurso más crítico para ejecutar modelos de IA en local. A diferencia de la RAM del sistema, es mucho más rápida pero también más limitada. Cuando un modelo no cabe completamente en VRAM, el sistema hace offloading de capas a RAM, lo que puede reducir la velocidad de inferencia en un 50–80%.

El cálculo básico de VRAM necesaria es: número de parámetros × bytes por parámetro según cuantización + overhead de KV cache. Para un modelo de 7B en Q4 (0.5 bytes/parámetro): 7000M × 0.5 bytes ≈ 3.5 GB + ~1 GB de overhead = unos 4.5–5 GB totales. Esta calculadora hace ese cálculo automáticamente para cualquier combinación de modelo y cuantización.

¿Qué nivel de cuantización debo usar?

La cuantización reduce la precisión de los pesos del modelo para ahorrar memoria. Estos son los niveles más comunes y cuándo usar cada uno:

  • FP16: Precisión completa. La mejor calidad posible, pero necesita el doble de VRAM que Q8. Solo recomendable para fine-tuning o evaluaciones donde la calidad exacta es crítica. Un modelo de 7B necesita ~14 GB de VRAM.
  • Q8: Pérdida de calidad prácticamente imperceptible. Reduce la VRAM a la mitad respecto a FP16. Ideal cuando tienes VRAM suficiente y quieres calidad máxima sin el coste de FP16. Un modelo de 7B necesita ~7 GB.
  • Q4_K_M: El punto dulce. Reduce la VRAM a la mitad respecto a Q8 con una pérdida de calidad del 5–10%. La opción más popular en Ollama y llama.cpp para uso diario. Un modelo de 7B necesita ~4.5 GB. Recomendado para la mayoría de usuarios.
  • Q2: Máxima compresión. Permite cargar modelos muy grandes en poca VRAM, pero con una pérdida de calidad notable. Solo recomendable cuando no hay otra opción y necesitas el modelo sí o sí en tu hardware.

Casos reales: qué modelos caben en cada GPU

Estos son los modelos más populares y la cuantización máxima recomendada según la VRAM disponible:

GPU / VRAM Modelos compatibles en Q4
RTX 3060 (12 GB) Llama 3.1 8B (Q8), Mistral 7B (Q8), Phi-4 14B (Q4), DeepSeek R1 8B (Q8)
RTX 4060 Ti (16 GB) Qwen2.5 14B (Q8), Gemma 3 12B (Q8), Mistral Small 24B (Q4)
RTX 4090 (24 GB) Llama 3.3 70B (Q2), Qwen2.5 32B (Q8), Mixtral 8x7B (Q4)