Que necesito para correr Llama en local
Para correr Llama 3.1 8B en local necesitas una GPU con al menos 8 GB de VRAM, 16 GB de RAM del sistema, y Ollama instalado. En 10 minutos puedes tener el modelo funcionando.
Aviso de afiliado: algunos enlaces son de Amazon Associates. Nuestras recomendaciones son independientes.
RTX 4060 Ti 16GB
Pros
- 16 GB VRAM — corre Llama 13B Q4 completo
- 55 tok/s con Llama 8B Q4
- Arquitectura Ada — eficiencia energética moderna
Cons
- Bus de memoria 128-bit vs 192-bit en RTX 3060
Nuestras mejores opciones para Llama
RTX 4060 Ti 16GB
16GB VRAM — runs Llama 13B Q4 fully in GPU at 55 tok/s
Mid-range
RTX 3060 12GB
12GB VRAM — Llama 8B Q4 at 30 tok/s, best entry for local LLMs
Entry
RTX 3090 24GB
24GB VRAM — runs Llama 70B Q2 on a single card
High-end
Setup recomendado 1: Entrada — RTX 3060
La RTX 3060 12GB es la mejor opcion de entrada para Llama. 12 GB de VRAM permiten correr Llama 3.1 8B a 30 tok/s en Q4. El setup mas popular para empezar con IA local.
Setup recomendado 2: Medio — RTX 4060 Ti 16GB
La RTX 4060 Ti 16GB corre Llama 13B Q4 completamente en VRAM y genera 55 tok/s con Llama 8B. La opcion ideal si quieres modelos de 13B sin limitaciones.
Setup recomendado 3: Alta gama — RTX 3090 24GB
La RTX 3090 24GB permite correr Llama 3.3 70B en Q2 (requiere ~17 GB). La opcion para usuarios que quieren los modelos mas grandes disponibles sin multi-GPU.
Guias relacionadas
Los precios y disponibilidad pueden cambiar. Enlaces de afiliado.
RTX 3060 12GB
Llama 8B Q4 a 30 tok/s — el setup de entrada para LLMs
RTX 4060 Ti 16GB
Llama 13B Q4 completo en GPU, 55 tok/s con Llama 8B
RTX 3090 24GB
Llama 70B Q2 en una sola GPU, 65 tok/s con Llama 8B