Buscador de modelos de IA

RunAIatHome Busca, filtra y explora modelos de IA que puedes ejecutar en local. Consulta VRAM, puntuación de calidad y enlaces de descarga.

Javier Morales Especialista en infraestructura e IA local — 8 años de experiencia Actualizado 2026-03-31

GitHub: github.com/javier-morales-ia

El 80% de los modelos de IA de código abierto pueden ejecutarse en local con menos de 8 GB de VRAM en cuantización Q4

Modelos como Llama 3.1 8B (5 GB Q4), Mistral 7B (5 GB Q4) o Gemma 2 9B (6 GB Q4) entran en GPUs de gama media. Solo los modelos de 30B o más requieren GPUs de gama alta o setups multi-GPU.

— RunAIatHome Model Browser — análisis de 99 modelos catalogados

¿Te resultó útil? Recibe guías como esta en tu correo cada semana.

El hardware que necesitas para estos modelos

Los precios y disponibilidad pueden cambiar. Algunos enlaces son de afiliado.

Entry — 8 GB VRAM Amazon

NVIDIA GeForce RTX 4060 Ti

0.0 (0 reseñas)

Ventajas

8 GB VRAM — corre modelos 7B–13B en Q4
Ideal para Llama, Mistral y Gemma localmente
Buena eficiencia energética para uso diario

Balanced — 12 GB VRAM Amazon

NVIDIA GeForce RTX 4070

0.0 (0 reseñas)

Ventajas

12 GB VRAM — corre modelos 13B–34B en Q4
Suficiente para Flux.1 y generación de imagen
Buen equilibrio rendimiento / consumo

High-end — 24 GB VRAM Amazon

NVIDIA GeForce RTX 4090

0.0 (0 reseñas)

Ventajas

24 GB VRAM — corre modelos 70B+ en Q4
Máxima capacidad para IA local sin compromiso
Recomendada para investigación y producción

RunAIatHome: cómo elegir el modelo de IA adecuado para tu hardware

El buscador de modelos de IA te permite filtrar por categoría (chat, código, imagen, transcripción), tamaño en parámetros y VRAM necesaria. Pero más allá del filtro, es útil entender cómo se relacionan los modelos con el hardware disponible para tomar una decisión informada.

La regla general es simple: cuantos más parámetros tiene un modelo, mayor es su VRAM mínima para poder cargarlo completamente en GPU. Sin embargo, la cuantización rompe esta relación lineal: un modelo de 14B a Q4 puede caber en menos VRAM que uno de 7B a FP16. Por eso el mejor criterio no es el número de parámetros, sino la VRAM necesaria en la cuantización que planeas usar.

Categorías de modelos y sus casos de uso

Chat y asistentes generales Llama 3.1, Mistral, Qwen2.5 y Gemma 3 son los más usados para conversación general. Ofrecen buen soporte multilingüe y rendimiento sólido en razonamiento. Para uso en español, Mistral y Qwen2.5 tienen especialmente buen desempeño gracias a sus datos de entrenamiento multilingüe amplios.
Código y programación Qwen2.5-Coder, DeepSeek-Coder y CodeLlama son los más valorados por la comunidad para autocompletar código, revisar pull requests y explicar errores. Los modelos de código suelen tener contextos largos (32K–128K tokens) que permiten cargar archivos completos.
Razonamiento profundo DeepSeek R1 y sus versiones destiladas (8B, 14B, 32B) son los más capaces para matemáticas, lógica y tareas que requieren cadenas de pensamiento largas. Usan el token <think> para mostrar su proceso de razonamiento antes de dar la respuesta.
Generación de imagen Stable Diffusion XL, Flux.1 Schnell y Flux.1 Dev son los estándares actuales. SDXL es el más liviano (8 GB VRAM), mientras que Flux.1 Dev ofrece calidad fotorrealista y requiere 12 GB. Para uso con ComfyUI o Automatic1111, se recomienda GPU NVIDIA para mejor compatibilidad.
Transcripción de audio Whisper de OpenAI (disponible en local con faster-whisper o whisper.cpp) es el estándar para transcripción multilingüe. El modelo large-v3 ofrece la mejor calidad y necesita solo 3–4 GB de VRAM, por lo que es compatible con casi cualquier GPU moderna.

Herramientas para ejecutar modelos en local

Una vez que has elegido el modelo, necesitas una herramienta para ejecutarlo. Las principales opciones para entusiastas de IA local son:

Ollama: La opción más sencilla. Un comando de terminal basta para descargar y ejecutar cualquier modelo. Incluye una API REST compatible con OpenAI que funciona con la mayoría de clientes de chat.
LM Studio: Interfaz gráfica con descubrimiento de modelos integrado desde Hugging Face. Ideal para quienes prefieren no usar la terminal. Muy buena para explorar modelos nuevos.
llama.cpp: El backend de bajo nivel. Máximo control y rendimiento, especialmente en CPU y con cuantizaciones avanzadas como IQ3_M o Q5_K_M. Requiere más configuración.
Open WebUI: Una interfaz web que se conecta a Ollama y ofrece una experiencia similar a ChatGPT para usuarios domésticos. Perfecta para compartir el servidor local con otros miembros de la familia.

Preguntas frecuentes sobre modelos de IA para GPU local

¿Cuántos parámetros necesito para tareas de trabajo real?

Para la mayoría de tareas profesionales —redacción, resúmenes, código, análisis de texto— los modelos de 7B–14B parámetros en Q4 son suficientes y caben en GPUs con 8–12 GB de VRAM. Los modelos de 30B–70B ofrecen mejor razonamiento pero requieren 16–40 GB de VRAM. En la práctica, un Qwen2.5 14B en Q4 supera a muchas respuestas de GPT-3.5 Turbo en tareas técnicas.

¿Qué diferencia hay entre modelos base e instruct?

Los modelos base son preentrenados en texto puro y completan texto sin seguir instrucciones; son útiles para fine-tuning. Los modelos instruct (también llamados chat) han sido afinados con RLHF o DPO para seguir instrucciones humanas de forma natural. Para uso cotidiano siempre necesitas la versión instruct; los modelos base requieren prompting especializado para ser útiles.

¿Puedo usar modelos multimodales en local?

Sí. Modelos como LLaVA, Llama 3.2 Vision y Qwen2-VL aceptan imágenes como entrada y están disponibles en Ollama. Requieren entre 8 y 24 GB de VRAM según el tamaño. Son útiles para describir imágenes, responder preguntas sobre fotos, o analizar diagramas y capturas de pantalla localmente sin enviar datos a la nube.

Aprende Más

Llama vs Mistral vs DeepSeek: cuál elegir ¿Cuánta VRAM necesito para IA local? Ollama vs LM Studio: cuál elegir para IA local