Biblioteca de modelos v2.4

Modelos de IA para
inferencia local

99 modelos con requisitos exactos de VRAM en FP16, Q8, Q4 y Q2. Elige cualquier modelo y descubre qué GPU puede ejecutarlo y con qué calidad.

99 modelos indexados

51 funcionan con 8 GB

59 chat

13 código

Recomendación

¿Empiezas ahora?

Llama 3.1 8B Q4 es el mejor punto de entrada: funciona en GPUs de 6 GB+ VRAM. Si tienes 12 GB+, sube a Mistral 7B o Llama 3.1 13B.

Ver Llama 3.1 8B

Comprueba si tu GPU puede ejecutar cualquier modelo

Selector de rutas de modelo

/modelo/capa de decisión

Elige una ruta de modelo que encaje con tu hardware

Guía por intención:Estas rutas conectan tu intención con una VRAM mínima, más un modelo y GPU recomendados antes de entrar al catálogo completo.

3

Escenarios de decisión

9.3GB

VRAM mínima media

12GB

Ruta más exigente

check_circle

forum

Personal local AI assistant

Users who want privacy and want to skip cloud subscriptions

Modelo: Llama 3.1 8BGPU: RTX 4060

Seleccionado

Señal mínima de VRAM

Requisito del escenario

8 GB

4GB8GB12GB16GB 24GB+

Llama 3.1 8B

Modelo recomendado

RTX 4060

GPU recomendada

Ver compatibilidad Comprobar disponibilidad

Detalle del modelo Detalle de GPU

mic

Private audio transcription

Journalists, researchers, healthcare professionals

Modelo: Whisper Large V3GPU: RTX 3060

Señal mínima de VRAM

Requisito del escenario

8 GB

4GB8GB12GB16GB 24GB+

Whisper Large V3

Modelo recomendado

RTX 3060

GPU recomendada

Ver compatibilidad Comprobar disponibilidad

Detalle del modelo Detalle de GPU

image

Local image generation

Creators and digital artists

Modelo: Stable Diffusion XLGPU: RTX 3060

Señal mínima de VRAM

Requisito del escenario

12 GB

4GB8GB12GB16GB 24GB+

Stable Diffusion XL

Modelo recomendado

RTX 3060

GPU recomendada

Ver compatibilidad Comprobar disponibilidad

Detalle del modelo Detalle de GPU

Chat y razonamiento (59)

LLMs de propósito general para conversación y razonamiento complejo

Llama 3.1 405B 230 GB

Parámetros 405B

Contexto 131K tokens

llama-3.1-community Ver detalles →

DeepSeek R1 403 GB

Parámetros 671B

Proveedor DeepSeek

Contexto 128K tokens

MIT Ver detalles →

DeepSeek V3.2 369.1 GB

Parámetros 671B

Proveedor DeepSeek

Contexto 128K tokens

MIT Ver detalles →

DeepSeek V3 411 GB

Parámetros 685B

Proveedor DeepSeek

Contexto 128K tokens

MIT Ver detalles →

Llama 3.3 70B 42 GB

Parámetros 70B

Contexto 128K tokens

GPU mín. M4 Max 48GB

llama-3-community Ver detalles →

Qwen2.5 72B 41 GB

Parámetros 72B

Proveedor Alibaba

Contexto 131K tokens

GPU mín. M4 Max 48GB

Apache-2.0 Ver detalles →

Llama 3.1 70B 40 GB

Parámetros 70B

Contexto 131K tokens

GPU mín. M4 Max 48GB

llama-3.1-community Ver detalles →

DeepSeek R1 Distill 32B 19.2 GB

Parámetros 32B

Proveedor DeepSeek

Contexto 128K tokens

GPU mín. RX 7900 XT

MIT Ver detalles →

Qwen3 235B-A22B 129.3 GB

Parámetros 235B

Proveedor Alibaba

Contexto 131K tokens

GPU mín. M3 Ultra

Apache 2.0 Ver detalles →

Qwen2.5 32B 19.2 GB

Parámetros 32B

Proveedor Alibaba

Contexto 131K tokens

GPU mín. RX 7900 XT

Apache-2.0 Ver detalles →

Command R+ 59 GB

Parámetros 104B

Proveedor Cohere

Contexto 131K tokens

GPU mín. M4 Ultra

CC-BY-NC-4.0 Ver detalles →

Qwen3.5 35B-A3B 19.3 GB

Parámetros 35B

Proveedor Alibaba

Contexto 128K tokens

Velocidad CPU 8 tok/s

Apache 2.0 Ver detalles →

Gemma 2 27B 15 GB

Parámetros 27B

Proveedor Google

Contexto 8K tokens

GPU mín. M1 Pro

Gemma Ver detalles →

Gemma 3 27B 16.2 GB

Parámetros 27B

Proveedor Google

Contexto 128K tokens

GPU mín. M3 Pro

Gemma Ver detalles →

Mistral Small 4 65.5 GB

Parámetros 119B

Proveedor Mistral AI

Contexto 256K tokens

GPU mín. M4 Ultra

Apache 2.0 Ver detalles →

Mixtral 8x7B 26 GB

Parámetros 46.7B

Proveedor Mistral AI

Contexto 33K tokens

GPU mín. RTX 5090

Apache-2.0 Ver detalles →

Mistral Small 3 14.4 GB

Parámetros 24B

Proveedor Mistral AI

Contexto 33K tokens

GPU mín. M1 Pro

Apache-2.0 Ver detalles →

Parámetros 14B

Proveedor Microsoft

Contexto 16K tokens

GPU mín. RTX 3080

MIT Ver detalles →

Qwen3 32B 17.6 GB

Parámetros 32B

Proveedor Alibaba

Contexto 128K tokens

Velocidad CPU 2 tok/s

Apache 2.0 Ver detalles →

Qwen3 30B-A3B 16.5 GB

Parámetros 30B

Proveedor Alibaba

Contexto 131K tokens

GPU mín. M3 Pro

Apache 2.0 Ver detalles →

DeepSeek R1 Distill 14B 8.4 GB

Parámetros 14B

Proveedor DeepSeek

Contexto 128K tokens

GPU mín. RTX 3080

MIT Ver detalles →

Qwen3.5 27B 14.9 GB

Parámetros 27B

Proveedor Alibaba

Contexto 128K tokens

Velocidad CPU 3 tok/s

Apache 2.0 Ver detalles →

Magistral Small 24B 13.2 GB

Parámetros 24B

Proveedor Mistral AI

Contexto 128K tokens

Velocidad CPU 5 tok/s

Apache 2.0 Ver detalles →

Yi 1.5 34B 20 GB

Parámetros 34B

Proveedor 01.AI

Contexto 4K tokens

GPU mín. RX 7900 XT

Apache-2.0 Ver detalles →

Qwen2.5 14B 8.4 GB

Parámetros 14B

Proveedor Alibaba

Contexto 131K tokens

GPU mín. RTX 3080

Apache-2.0 Ver detalles →

Mistral Small 3.2 13.2 GB

Parámetros 24B

Proveedor Mistral AI

Contexto 128K tokens

Velocidad CPU 1 tok/s

Apache 2.0 Ver detalles →

Qwen3 14B 7.7 GB

Parámetros 14B

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 5 tok/s

Apache 2.0 Ver detalles →

Gemma 3 12B 7.2 GB

Parámetros 12B

Proveedor Google

Contexto 128K tokens

GPU mín. RTX 3050 8GB

Gemma Ver detalles →

Phi-3 Medium 8 GB

Parámetros 14B

Proveedor Microsoft

Contexto 128K tokens

GPU mín. RTX 3050 8GB

MIT Ver detalles →

DeepSeek R1 Distill 8B 4.8 GB

Proveedor DeepSeek

Contexto 128K tokens

Velocidad CPU 8 tok/s

MIT Ver detalles →

Mistral Nemo 12B 7 GB

Parámetros 12B

Proveedor Mistral AI

Contexto 131K tokens

Velocidad CPU 6 tok/s

Apache-2.0 Ver detalles →

Qwen3.5 9B 5 GB

Proveedor Alibaba

Contexto 128K tokens

Velocidad CPU 12 tok/s

Apache 2.0 Ver detalles →

Qwen3 8B 4.4 GB

Proveedor Alibaba

Contexto 128K tokens

Velocidad CPU 9 tok/s

Apache 2.0 Ver detalles →

Nous Hermes 2 Mixtral 8x7B 26 GB

Parámetros 47B

Proveedor Nous Research

Contexto 33K tokens

Velocidad CPU 2 tok/s

apache-2.0 Ver detalles →

Gemma 2 9B 5.5 GB

Proveedor Google

Contexto 8K tokens

GPU mín. GTX 1660 Super

Gemma Ver detalles →

Phi-3.5 MoE 21 GB

Parámetros 41.9B

Proveedor Microsoft

Contexto 131K tokens

GPU mín. M4 Pro

MIT Ver detalles →

Phi-4 Mini 2.1 GB

Parámetros 3.8B

Proveedor Microsoft

Contexto 128K tokens

Velocidad CPU 30 tok/s

MIT Ver detalles →

Llama 3.1 8B 5 GB

Contexto 131K tokens

Velocidad CPU 7 tok/s

llama-3.1-community Ver detalles →

Qwen2.5 7B 4.5 GB

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 8 tok/s

Apache-2.0 Ver detalles →

DeepSeek V2 Lite 9 GB

Parámetros 16B

Proveedor DeepSeek

Contexto 33K tokens

GPU mín. RTX 3080

DeepSeek Ver detalles →

Mistral 7B 4.5 GB

Proveedor Mistral AI

Contexto 33K tokens

Velocidad CPU 8 tok/s

Apache-2.0 Ver detalles →

Yi 1.5 9B 5.5 GB

Proveedor 01.AI

Contexto 4K tokens

GPU mín. GTX 1660 Super

Apache-2.0 Ver detalles →

Phi-3 Small 4.5 GB

Proveedor Microsoft

Contexto 128K tokens

Velocidad CPU 8 tok/s

MIT Ver detalles →

Qwen3.5 4B 2.6 GB

Parámetros 4.66B

Proveedor Alibaba

Contexto 262K tokens

Velocidad CPU 12 tok/s

Apache 2.0 Ver detalles →

Qwen3 4B 2.2 GB

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 15 tok/s

Apache 2.0 Ver detalles →

Gemma 3 4B 2.4 GB

Proveedor Google

Contexto 128K tokens

Velocidad CPU 16 tok/s

Gemma Ver detalles →

Phi-3.5 Mini 2.3 GB

Parámetros 3.8B

Proveedor Microsoft

Contexto 128K tokens

Velocidad CPU 13 tok/s

MIT Ver detalles →

DeepSeek R1 Distill 1.5B 1 GB

Parámetros 1.5B

Proveedor DeepSeek

Contexto 128K tokens

Velocidad CPU 35 tok/s

MIT Ver detalles →

Yi 1.5 6B 3.7 GB

Proveedor 01.AI

Contexto 4K tokens

Velocidad CPU 9 tok/s

Apache-2.0 Ver detalles →

Phi-3 Mini 2.5 GB

Parámetros 3.8B

Proveedor Microsoft

Contexto 128K tokens

Velocidad CPU 14 tok/s

MIT Ver detalles →

Qwen3.5 2B 1.2 GB

Parámetros 2.27B

Proveedor Alibaba

Contexto 262K tokens

Velocidad CPU 22 tok/s

Apache 2.0 Ver detalles →

Qwen3 1.7B 0.9 GB

Parámetros 1.7B

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 35 tok/s

Apache 2.0 Ver detalles →

Gemma 2 2B 1.5 GB

Proveedor Google

Contexto 8K tokens

Velocidad CPU 32 tok/s

Gemma Ver detalles →

Qwen2.5 3B 1.9 GB

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 20 tok/s

Apache-2.0 Ver detalles →

Llama 3.2 3B 1.8 GB

Contexto 131K tokens

Velocidad CPU 18 tok/s

llama-3.2-community Ver detalles →

Gemma 3 1B 0.7 GB

Proveedor Google

Contexto 128K tokens

Velocidad CPU 42 tok/s

Gemma Ver detalles →

Qwen2.5 1.5B 1 GB

Parámetros 1.5B

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 38 tok/s

Apache-2.0 Ver detalles →

Llama 3.2 1B 0.6 GB

Contexto 131K tokens

Velocidad CPU 52 tok/s

llama-3.2-community Ver detalles →

Qwen2.5 0.5B 0.35 GB

Parámetros 0.5B

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 95 tok/s

Apache-2.0 Ver detalles →

Generación de código (13)

Modelos especializados para escribir, revisar y explicar código

Qwen2.5-Coder 32B 19.2 GB

Parámetros 32B

Proveedor Alibaba

Contexto 131K tokens

GPU mín. RX 7900 XT

Apache-2.0 Ver detalles →

Qwen3-Coder-Next 80B-A3B 44 GB

Parámetros 80B

Proveedor Alibaba

Contexto 262K tokens

GPU mín. M4 Max 48GB

Apache 2.0 Ver detalles →

Qwen3-Coder 30B-A3B 16.5 GB

Parámetros 30B

Proveedor Alibaba

Contexto 262K tokens

GPU mín. M3 Pro

Apache 2.0 Ver detalles →

Devstral Small 2 24B 13.2 GB

Parámetros 24B

Proveedor Mistral AI

Contexto 256K tokens

Velocidad CPU 5 tok/s

Apache 2.0 Ver detalles →

CodeLlama 34B 19 GB

Parámetros 34B

Contexto 16K tokens

GPU mín. RX 7900 XT

llama-2-community Ver detalles →

DeepSeek Coder V2 9 GB

Parámetros 16B

Proveedor DeepSeek

Contexto 131K tokens

GPU mín. RTX 3080

DeepSeek Ver detalles →

Qwen2.5 Coder 14B 8 GB

Parámetros 14B

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 5 tok/s

Apache-2.0 Ver detalles →

StarCoder 2 15B 9 GB

Parámetros 15B

Proveedor BigCode

Contexto 16K tokens

GPU mín. RTX 3080

BigCode OpenRAIL-M v1 Ver detalles →

Qwen2.5-Coder 7B 4.2 GB

Proveedor Alibaba

Contexto 131K tokens

Velocidad CPU 9 tok/s

Apache-2.0 Ver detalles →

StarCoder 2 7B 4.5 GB

Proveedor BigCode

Contexto 16K tokens

Velocidad CPU 8 tok/s

BigCode OpenRAIL-M v1 Ver detalles →

CodeGemma 7B 4.5 GB

Proveedor Google

Contexto 8K tokens

GPU mín. GTX 1660 Super

Gemma Ver detalles →

CodeLlama 7B 4.5 GB

Contexto 16K tokens

Velocidad CPU 8 tok/s

llama-2-community Ver detalles →

StarCoder 2 3B 1.9 GB

Proveedor BigCode

Contexto 16K tokens

Velocidad CPU 18 tok/s

BigCode OpenRAIL-M v1 Ver detalles →

Visión y multimodal (11)

Modelos que procesan imágenes y texto juntos

Llama 4 Maverick 116.1 GB

Parámetros 211B

Contexto 1000K tokens

GPU mín. M4 Ultra

Llama 4 Ver detalles →

Gemma 4 27B 14.9 GB

Parámetros 27B

Proveedor Google

Contexto 256K tokens

Velocidad CPU 3 tok/s

Apache 2.0 Ver detalles →

Gemma 4 31B 17.1 GB

Parámetros 31B

Proveedor Google

Contexto 128K tokens

Velocidad CPU 1 tok/s

Apache 2.0 Ver detalles →

Llama 3.2 90B Vision 54 GB

Parámetros 90B

Contexto 131K tokens

GPU mín. M4 Ultra

llama-3.2-community Ver detalles →

Llama 4 Scout 60 GB

Parámetros 109B

Contexto 10000K tokens

GPU mín. M4 Ultra

Llama 4 Ver detalles →

Gemma 4 12B 6.6 GB

Parámetros 12B

Proveedor Google

Contexto 256K tokens

Velocidad CPU 8 tok/s

Apache 2.0 Ver detalles →

Mistral Small 3.1 13.2 GB

Parámetros 24B

Proveedor Mistral AI

Contexto 128K tokens

Velocidad CPU 1 tok/s

Apache 2.0 Ver detalles →

Gemma 4 E4B 2.2 GB

Proveedor Google

Contexto 128K tokens

Velocidad CPU 14 tok/s

Apache 2.0 Ver detalles →

Llama 3.2 11B Vision 6.6 GB

Parámetros 11B

Contexto 131K tokens

GPU mín. RTX 3050 8GB

llama-3.2-community Ver detalles →

LLaVA 1.5 7B 4.5 GB

Proveedor Haotian Liu et al.

Contexto 4K tokens

GPU mín. GTX 1660 Super

llava-v1.5-community Ver detalles →

Gemma 4 E2B 1.1 GB

Proveedor Google

Contexto 128K tokens

Velocidad CPU 25 tok/s

Apache 2.0 Ver detalles →

Generación de imágenes (7)

Modelos de difusión para generar y editar imágenes en local

Flux.1 Dev 12 GB

Parámetros 12B

Proveedor Black Forest Labs

GPU mín. RTX 3060

FLUX.1-dev Non-Commercial Ver detalles →

Stable Diffusion 3.5 Large 10 GB

Proveedor Stability AI

GPU mín. RTX 3080

Stability AI Community Ver detalles →

FLUX.2 Dev 17.6 GB

Parámetros 32B

Proveedor Black Forest Labs

GPU mín. M3 Pro

FLUX.2-dev Non-Commercial Ver detalles →

Stable Diffusion 3.5 Medium 5 GB

Proveedor Stability AI

GPU mín. GTX 1660 Super

Stability AI Community Ver detalles →

Stable Diffusion 3 Medium 3 GB

Proveedor Stability AI

GPU mín. GTX 1660 Super

Stability AI Community Ver detalles →

Flux.1 Schnell 12 GB

Parámetros 12B

Proveedor Black Forest Labs

GPU mín. RTX 3060

Apache-2.0 Ver detalles →

Stable Diffusion XL 6 GB

Parámetros 6.6B

Proveedor Stability AI

GPU mín. GTX 1660 Super

CreativeML Open RAIL++-M Ver detalles →

Reconocimiento de voz (5)

Modelos de transcripción y traducción

Whisper Large V3 1.5 GB

Parámetros 1.55B

Proveedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalles →

Whisper Medium 0.8 GB

Parámetros 0.769B

Proveedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalles →

Whisper Small 0.4 GB

Parámetros 0.244B

Proveedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalles →

Whisper Base 0.25 GB

Parámetros 0.074B

Proveedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalles →

Whisper Tiny 0.2 GB

Parámetros 0.039B

Proveedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalles →

agent (4)

Hermes 3 405B 230 GB

Parámetros 405B

Proveedor Nous Research

Contexto 131K tokens

llama-3.1-community Ver detalles →

Hermes 3 70B 40 GB

Parámetros 70B

Proveedor Nous Research

Contexto 131K tokens

Velocidad CPU 0.8 tok/s

llama-3.1-community Ver detalles →

Hermes 3 8B 5 GB

Proveedor Nous Research

Contexto 131K tokens

Velocidad CPU 7 tok/s

llama-3.1-community Ver detalles →

Hermes 2 Pro Llama-3 8B 5 GB

Proveedor Nous Research

Contexto 8K tokens

Velocidad CPU 7 tok/s

apache-2.0 Ver detalles →