Saltar al contenido principal
Biblioteca de modelos v2.4

Modelos de IA para
inferencia local

99 modelos con requisitos exactos de VRAM en FP16, Q8, Q4 y Q2. Elige cualquier modelo y descubre qué GPU puede ejecutarlo y con qué calidad.

99 modelos indexados
51 funcionan con 8 GB
59 chat
13 código
Recomendación

¿Empiezas ahora?

Llama 3.1 8B Q4 es el mejor punto de entrada: funciona en GPUs de 6 GB+ VRAM. Si tienes 12 GB+, sube a Mistral 7B o Llama 3.1 13B.

Ver Llama 3.1 8B
Selector de rutas de modelo
/modelo/capa de decisión

Elige una ruta de modelo que encaje con tu hardware

Guía por intención:Estas rutas conectan tu intención con una VRAM mínima, más un modelo y GPU recomendados antes de entrar al catálogo completo.

3
Escenarios de decisión
9.3GB
VRAM mínima media
12GB
Ruta más exigente

Chat y razonamiento (59)

LLMs de propósito general para conversación y razonamiento complejo

Llama 3.1 405B 230 GB
Parámetros 405B
Proveedor Meta
Contexto 131K tokens
llama-3.1-community Ver detalles →
DeepSeek R1 403 GB
Parámetros 671B
Proveedor DeepSeek
Contexto 128K tokens
MIT Ver detalles →
DeepSeek V3.2 369.1 GB
Parámetros 671B
Proveedor DeepSeek
Contexto 128K tokens
MIT Ver detalles →
DeepSeek V3 411 GB
Parámetros 685B
Proveedor DeepSeek
Contexto 128K tokens
MIT Ver detalles →
Llama 3.3 70B 42 GB
Parámetros 70B
Proveedor Meta
Contexto 128K tokens
GPU mín. M4 Max 48GB
llama-3-community Ver detalles →
Qwen2.5 72B 41 GB
Parámetros 72B
Proveedor Alibaba
Contexto 131K tokens
GPU mín. M4 Max 48GB
Apache-2.0 Ver detalles →
Llama 3.1 70B 40 GB
Parámetros 70B
Proveedor Meta
Contexto 131K tokens
GPU mín. M4 Max 48GB
llama-3.1-community Ver detalles →
DeepSeek R1 Distill 32B 19.2 GB
Parámetros 32B
Proveedor DeepSeek
Contexto 128K tokens
GPU mín. RX 7900 XT
MIT Ver detalles →
Qwen3 235B-A22B 129.3 GB
Parámetros 235B
Proveedor Alibaba
Contexto 131K tokens
GPU mín. M3 Ultra
Apache 2.0 Ver detalles →
Qwen2.5 32B 19.2 GB
Parámetros 32B
Proveedor Alibaba
Contexto 131K tokens
GPU mín. RX 7900 XT
Apache-2.0 Ver detalles →
Command R+ 59 GB
Parámetros 104B
Proveedor Cohere
Contexto 131K tokens
GPU mín. M4 Ultra
CC-BY-NC-4.0 Ver detalles →
Qwen3.5 35B-A3B 19.3 GB
Parámetros 35B
Proveedor Alibaba
Contexto 128K tokens
Velocidad CPU 8 tok/s
Apache 2.0 Ver detalles →
Gemma 2 27B 15 GB
Parámetros 27B
Proveedor Google
Contexto 8K tokens
GPU mín. M1 Pro
Gemma Ver detalles →
Gemma 3 27B 16.2 GB
Parámetros 27B
Proveedor Google
Contexto 128K tokens
GPU mín. M3 Pro
Gemma Ver detalles →
Mistral Small 4 65.5 GB
Parámetros 119B
Proveedor Mistral AI
Contexto 256K tokens
GPU mín. M4 Ultra
Apache 2.0 Ver detalles →
Mixtral 8x7B 26 GB
Parámetros 46.7B
Proveedor Mistral AI
Contexto 33K tokens
GPU mín. RTX 5090
Apache-2.0 Ver detalles →
Mistral Small 3 14.4 GB
Parámetros 24B
Proveedor Mistral AI
Contexto 33K tokens
GPU mín. M1 Pro
Apache-2.0 Ver detalles →
Phi-4 8.4 GB
Parámetros 14B
Proveedor Microsoft
Contexto 16K tokens
GPU mín. RTX 3080
MIT Ver detalles →
Qwen3 32B 17.6 GB
Parámetros 32B
Proveedor Alibaba
Contexto 128K tokens
Velocidad CPU 2 tok/s
Apache 2.0 Ver detalles →
Qwen3 30B-A3B 16.5 GB
Parámetros 30B
Proveedor Alibaba
Contexto 131K tokens
GPU mín. M3 Pro
Apache 2.0 Ver detalles →
DeepSeek R1 Distill 14B 8.4 GB
Parámetros 14B
Proveedor DeepSeek
Contexto 128K tokens
GPU mín. RTX 3080
MIT Ver detalles →
Qwen3.5 27B 14.9 GB
Parámetros 27B
Proveedor Alibaba
Contexto 128K tokens
Velocidad CPU 3 tok/s
Apache 2.0 Ver detalles →
Magistral Small 24B 13.2 GB
Parámetros 24B
Proveedor Mistral AI
Contexto 128K tokens
Velocidad CPU 5 tok/s
Apache 2.0 Ver detalles →
Yi 1.5 34B 20 GB
Parámetros 34B
Proveedor 01.AI
Contexto 4K tokens
GPU mín. RX 7900 XT
Apache-2.0 Ver detalles →
Qwen2.5 14B 8.4 GB
Parámetros 14B
Proveedor Alibaba
Contexto 131K tokens
GPU mín. RTX 3080
Apache-2.0 Ver detalles →
Mistral Small 3.2 13.2 GB
Parámetros 24B
Proveedor Mistral AI
Contexto 128K tokens
Velocidad CPU 1 tok/s
Apache 2.0 Ver detalles →
Qwen3 14B 7.7 GB
Parámetros 14B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 5 tok/s
Apache 2.0 Ver detalles →
Gemma 3 12B 7.2 GB
Parámetros 12B
Proveedor Google
Contexto 128K tokens
GPU mín. RTX 3050 8GB
Gemma Ver detalles →
Phi-3 Medium 8 GB
Parámetros 14B
Proveedor Microsoft
Contexto 128K tokens
GPU mín. RTX 3050 8GB
MIT Ver detalles →
DeepSeek R1 Distill 8B 4.8 GB
Parámetros 8B
Proveedor DeepSeek
Contexto 128K tokens
Velocidad CPU 8 tok/s
MIT Ver detalles →
Mistral Nemo 12B 7 GB
Parámetros 12B
Proveedor Mistral AI
Contexto 131K tokens
Velocidad CPU 6 tok/s
Apache-2.0 Ver detalles →
Qwen3.5 9B 5 GB
Parámetros 9B
Proveedor Alibaba
Contexto 128K tokens
Velocidad CPU 12 tok/s
Apache 2.0 Ver detalles →
Qwen3 8B 4.4 GB
Parámetros 8B
Proveedor Alibaba
Contexto 128K tokens
Velocidad CPU 9 tok/s
Apache 2.0 Ver detalles →
Nous Hermes 2 Mixtral 8x7B 26 GB
Parámetros 47B
Proveedor Nous Research
Contexto 33K tokens
Velocidad CPU 2 tok/s
apache-2.0 Ver detalles →
Gemma 2 9B 5.5 GB
Parámetros 9B
Proveedor Google
Contexto 8K tokens
GPU mín. GTX 1660 Super
Gemma Ver detalles →
Phi-3.5 MoE 21 GB
Parámetros 41.9B
Proveedor Microsoft
Contexto 131K tokens
GPU mín. M4 Pro
MIT Ver detalles →
Phi-4 Mini 2.1 GB
Parámetros 3.8B
Proveedor Microsoft
Contexto 128K tokens
Velocidad CPU 30 tok/s
MIT Ver detalles →
Llama 3.1 8B 5 GB
Parámetros 8B
Proveedor Meta
Contexto 131K tokens
Velocidad CPU 7 tok/s
llama-3.1-community Ver detalles →
Qwen2.5 7B 4.5 GB
Parámetros 7B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 8 tok/s
Apache-2.0 Ver detalles →
DeepSeek V2 Lite 9 GB
Parámetros 16B
Proveedor DeepSeek
Contexto 33K tokens
GPU mín. RTX 3080
DeepSeek Ver detalles →
Mistral 7B 4.5 GB
Parámetros 7B
Proveedor Mistral AI
Contexto 33K tokens
Velocidad CPU 8 tok/s
Apache-2.0 Ver detalles →
Yi 1.5 9B 5.5 GB
Parámetros 9B
Proveedor 01.AI
Contexto 4K tokens
GPU mín. GTX 1660 Super
Apache-2.0 Ver detalles →
Phi-3 Small 4.5 GB
Parámetros 7B
Proveedor Microsoft
Contexto 128K tokens
Velocidad CPU 8 tok/s
MIT Ver detalles →
Qwen3.5 4B 2.6 GB
Parámetros 4.66B
Proveedor Alibaba
Contexto 262K tokens
Velocidad CPU 12 tok/s
Apache 2.0 Ver detalles →
Qwen3 4B 2.2 GB
Parámetros 4B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 15 tok/s
Apache 2.0 Ver detalles →
Gemma 3 4B 2.4 GB
Parámetros 4B
Proveedor Google
Contexto 128K tokens
Velocidad CPU 16 tok/s
Gemma Ver detalles →
Phi-3.5 Mini 2.3 GB
Parámetros 3.8B
Proveedor Microsoft
Contexto 128K tokens
Velocidad CPU 13 tok/s
MIT Ver detalles →
DeepSeek R1 Distill 1.5B 1 GB
Parámetros 1.5B
Proveedor DeepSeek
Contexto 128K tokens
Velocidad CPU 35 tok/s
MIT Ver detalles →
Yi 1.5 6B 3.7 GB
Parámetros 6B
Proveedor 01.AI
Contexto 4K tokens
Velocidad CPU 9 tok/s
Apache-2.0 Ver detalles →
Phi-3 Mini 2.5 GB
Parámetros 3.8B
Proveedor Microsoft
Contexto 128K tokens
Velocidad CPU 14 tok/s
MIT Ver detalles →
Qwen3.5 2B 1.2 GB
Parámetros 2.27B
Proveedor Alibaba
Contexto 262K tokens
Velocidad CPU 22 tok/s
Apache 2.0 Ver detalles →
Qwen3 1.7B 0.9 GB
Parámetros 1.7B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 35 tok/s
Apache 2.0 Ver detalles →
Gemma 2 2B 1.5 GB
Parámetros 2B
Proveedor Google
Contexto 8K tokens
Velocidad CPU 32 tok/s
Gemma Ver detalles →
Qwen2.5 3B 1.9 GB
Parámetros 3B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 20 tok/s
Apache-2.0 Ver detalles →
Llama 3.2 3B 1.8 GB
Parámetros 3B
Proveedor Meta
Contexto 131K tokens
Velocidad CPU 18 tok/s
llama-3.2-community Ver detalles →
Gemma 3 1B 0.7 GB
Parámetros 1B
Proveedor Google
Contexto 128K tokens
Velocidad CPU 42 tok/s
Gemma Ver detalles →
Qwen2.5 1.5B 1 GB
Parámetros 1.5B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 38 tok/s
Apache-2.0 Ver detalles →
Llama 3.2 1B 0.6 GB
Parámetros 1B
Proveedor Meta
Contexto 131K tokens
Velocidad CPU 52 tok/s
llama-3.2-community Ver detalles →
Qwen2.5 0.5B 0.35 GB
Parámetros 0.5B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 95 tok/s
Apache-2.0 Ver detalles →

Generación de código (13)

Modelos especializados para escribir, revisar y explicar código

Qwen2.5-Coder 32B 19.2 GB
Parámetros 32B
Proveedor Alibaba
Contexto 131K tokens
GPU mín. RX 7900 XT
Apache-2.0 Ver detalles →
Qwen3-Coder-Next 80B-A3B 44 GB
Parámetros 80B
Proveedor Alibaba
Contexto 262K tokens
GPU mín. M4 Max 48GB
Apache 2.0 Ver detalles →
Qwen3-Coder 30B-A3B 16.5 GB
Parámetros 30B
Proveedor Alibaba
Contexto 262K tokens
GPU mín. M3 Pro
Apache 2.0 Ver detalles →
Devstral Small 2 24B 13.2 GB
Parámetros 24B
Proveedor Mistral AI
Contexto 256K tokens
Velocidad CPU 5 tok/s
Apache 2.0 Ver detalles →
CodeLlama 34B 19 GB
Parámetros 34B
Proveedor Meta
Contexto 16K tokens
GPU mín. RX 7900 XT
llama-2-community Ver detalles →
DeepSeek Coder V2 9 GB
Parámetros 16B
Proveedor DeepSeek
Contexto 131K tokens
GPU mín. RTX 3080
DeepSeek Ver detalles →
Qwen2.5 Coder 14B 8 GB
Parámetros 14B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 5 tok/s
Apache-2.0 Ver detalles →
StarCoder 2 15B 9 GB
Parámetros 15B
Proveedor BigCode
Contexto 16K tokens
GPU mín. RTX 3080
BigCode OpenRAIL-M v1 Ver detalles →
Qwen2.5-Coder 7B 4.2 GB
Parámetros 7B
Proveedor Alibaba
Contexto 131K tokens
Velocidad CPU 9 tok/s
Apache-2.0 Ver detalles →
StarCoder 2 7B 4.5 GB
Parámetros 7B
Proveedor BigCode
Contexto 16K tokens
Velocidad CPU 8 tok/s
BigCode OpenRAIL-M v1 Ver detalles →
CodeGemma 7B 4.5 GB
Parámetros 7B
Proveedor Google
Contexto 8K tokens
GPU mín. GTX 1660 Super
Gemma Ver detalles →
CodeLlama 7B 4.5 GB
Parámetros 7B
Proveedor Meta
Contexto 16K tokens
Velocidad CPU 8 tok/s
llama-2-community Ver detalles →
StarCoder 2 3B 1.9 GB
Parámetros 3B
Proveedor BigCode
Contexto 16K tokens
Velocidad CPU 18 tok/s
BigCode OpenRAIL-M v1 Ver detalles →