NVIDIA GeForce RTX 4060 Ti
Ventajas
- 8 GB VRAM — corre modelos 7B–13B en Q4
- Ideal para Llama, Mistral y Gemma localmente
- Buena eficiencia energética para uso diario
RunAIatHome Busca, filtra y explora modelos de IA que puedes ejecutar en local. Consulta VRAM, puntuación de calidad y enlaces de descarga.
Modelos como Llama 3.1 8B (5 GB Q4), Mistral 7B (5 GB Q4) o Gemma 2 9B (6 GB Q4) entran en GPUs de gama media. Solo los modelos de 30B o más requieren GPUs de gama alta o setups multi-GPU.
— RunAIatHome Model Browser — análisis de 99 modelos catalogados¿Te resultó útil? Recibe guías como esta en tu correo cada semana.
Los precios y disponibilidad pueden cambiar. Algunos enlaces son de afiliado.
Ventajas
Ventajas
Ventajas
El buscador de modelos de IA te permite filtrar por categoría (chat, código, imagen, transcripción), tamaño en parámetros y VRAM necesaria. Pero más allá del filtro, es útil entender cómo se relacionan los modelos con el hardware disponible para tomar una decisión informada.
La regla general es simple: cuantos más parámetros tiene un modelo, mayor es su VRAM mínima para poder cargarlo completamente en GPU. Sin embargo, la cuantización rompe esta relación lineal: un modelo de 14B a Q4 puede caber en menos VRAM que uno de 7B a FP16. Por eso el mejor criterio no es el número de parámetros, sino la VRAM necesaria en la cuantización que planeas usar.
<think> para mostrar su proceso de razonamiento antes de dar la respuesta.
Una vez que has elegido el modelo, necesitas una herramienta para ejecutarlo. Las principales opciones para entusiastas de IA local son:
Para la mayoría de tareas profesionales —redacción, resúmenes, código, análisis de texto— los modelos de 7B–14B parámetros en Q4 son suficientes y caben en GPUs con 8–12 GB de VRAM. Los modelos de 30B–70B ofrecen mejor razonamiento pero requieren 16–40 GB de VRAM. En la práctica, un Qwen2.5 14B en Q4 supera a muchas respuestas de GPT-3.5 Turbo en tareas técnicas.
Los modelos base son preentrenados en texto puro y completan texto sin seguir instrucciones; son útiles para fine-tuning. Los modelos instruct (también llamados chat) han sido afinados con RLHF o DPO para seguir instrucciones humanas de forma natural. Para uso cotidiano siempre necesitas la versión instruct; los modelos base requieren prompting especializado para ser útiles.
Sí. Modelos como LLaVA, Llama 3.2 Vision y Qwen2-VL aceptan imágenes como entrada y están disponibles en Ollama. Requieren entre 8 y 24 GB de VRAM según el tamaño. Son útiles para describir imágenes, responder preguntas sobre fotos, o analizar diagramas y capturas de pantalla localmente sin enviar datos a la nube.