Saltar para o conteúdo principal
Biblioteca de modelos v2.4

Modelos de IA para
inferência local

99 modelos com requisitos exatos de VRAM em FP16, Q8, Q4 e Q2. Escolha um modelo e descubra que GPU o consegue executar e com que qualidade.

99 modelos indexados
51 funcionam com 8 GB
59 chat
13 código
Recomendação

Está a começar?

Llama 3.1 8B Q4 é o melhor ponto de partida: funciona em qualquer GPU com 6 GB+ de VRAM. Com 12 GB+, pode avançar para Mistral 7B ou Llama 3.1 13B.

Ver Llama 3.1 8B
Seletor de rotas de modelo
/modelo/camada de decisao

Escolha uma rota de modelo que encaixe no seu hardware

Guia por intencao:Estas rotas ligam a sua intencao a uma meta minima de VRAM, mais modelo e GPU recomendados, antes de entrar no catalogo completo.

3
Cenarios de decisao
9.3GB
VRAM minima media
12GB
Rota mais alta

Chat e raciocínio (59)

LLMs de uso geral para conversa e raciocínio complexo

Llama 3.1 405B 230 GB
Parâmetros 405B
Fornecedor Meta
Contexto 131K tokens
llama-3.1-community Ver detalhes →
DeepSeek R1 403 GB
Parâmetros 671B
Fornecedor DeepSeek
Contexto 128K tokens
MIT Ver detalhes →
DeepSeek V3.2 369.1 GB
Parâmetros 671B
Fornecedor DeepSeek
Contexto 128K tokens
MIT Ver detalhes →
DeepSeek V3 411 GB
Parâmetros 685B
Fornecedor DeepSeek
Contexto 128K tokens
MIT Ver detalhes →
Llama 3.3 70B 42 GB
Parâmetros 70B
Fornecedor Meta
Contexto 128K tokens
GPU mín. M4 Max 48GB
llama-3-community Ver detalhes →
Qwen2.5 72B 41 GB
Parâmetros 72B
Fornecedor Alibaba
Contexto 131K tokens
GPU mín. M4 Max 48GB
Apache-2.0 Ver detalhes →
Llama 3.1 70B 40 GB
Parâmetros 70B
Fornecedor Meta
Contexto 131K tokens
GPU mín. M4 Max 48GB
llama-3.1-community Ver detalhes →
DeepSeek R1 Distill 32B 19.2 GB
Parâmetros 32B
Fornecedor DeepSeek
Contexto 128K tokens
GPU mín. RX 7900 XT
MIT Ver detalhes →
Qwen3 235B-A22B 129.3 GB
Parâmetros 235B
Fornecedor Alibaba
Contexto 131K tokens
GPU mín. M3 Ultra
Apache 2.0 Ver detalhes →
Qwen2.5 32B 19.2 GB
Parâmetros 32B
Fornecedor Alibaba
Contexto 131K tokens
GPU mín. RX 7900 XT
Apache-2.0 Ver detalhes →
Command R+ 59 GB
Parâmetros 104B
Fornecedor Cohere
Contexto 131K tokens
GPU mín. M4 Ultra
CC-BY-NC-4.0 Ver detalhes →
Qwen3.5 35B-A3B 19.3 GB
Parâmetros 35B
Fornecedor Alibaba
Contexto 128K tokens
Velocidade CPU 8 tok/s
Apache 2.0 Ver detalhes →
Gemma 2 27B 15 GB
Parâmetros 27B
Fornecedor Google
Contexto 8K tokens
GPU mín. M1 Pro
Gemma Ver detalhes →
Gemma 3 27B 16.2 GB
Parâmetros 27B
Fornecedor Google
Contexto 128K tokens
GPU mín. M3 Pro
Gemma Ver detalhes →
Mistral Small 4 65.5 GB
Parâmetros 119B
Fornecedor Mistral AI
Contexto 256K tokens
GPU mín. M4 Ultra
Apache 2.0 Ver detalhes →
Mixtral 8x7B 26 GB
Parâmetros 46.7B
Fornecedor Mistral AI
Contexto 33K tokens
GPU mín. RTX 5090
Apache-2.0 Ver detalhes →
Mistral Small 3 14.4 GB
Parâmetros 24B
Fornecedor Mistral AI
Contexto 33K tokens
GPU mín. M1 Pro
Apache-2.0 Ver detalhes →
Phi-4 8.4 GB
Parâmetros 14B
Fornecedor Microsoft
Contexto 16K tokens
GPU mín. RTX 3080
MIT Ver detalhes →
Qwen3 32B 17.6 GB
Parâmetros 32B
Fornecedor Alibaba
Contexto 128K tokens
Velocidade CPU 2 tok/s
Apache 2.0 Ver detalhes →
Qwen3 30B-A3B 16.5 GB
Parâmetros 30B
Fornecedor Alibaba
Contexto 131K tokens
GPU mín. M3 Pro
Apache 2.0 Ver detalhes →
DeepSeek R1 Distill 14B 8.4 GB
Parâmetros 14B
Fornecedor DeepSeek
Contexto 128K tokens
GPU mín. RTX 3080
MIT Ver detalhes →
Qwen3.5 27B 14.9 GB
Parâmetros 27B
Fornecedor Alibaba
Contexto 128K tokens
Velocidade CPU 3 tok/s
Apache 2.0 Ver detalhes →
Magistral Small 24B 13.2 GB
Parâmetros 24B
Fornecedor Mistral AI
Contexto 128K tokens
Velocidade CPU 5 tok/s
Apache 2.0 Ver detalhes →
Yi 1.5 34B 20 GB
Parâmetros 34B
Fornecedor 01.AI
Contexto 4K tokens
GPU mín. RX 7900 XT
Apache-2.0 Ver detalhes →
Qwen2.5 14B 8.4 GB
Parâmetros 14B
Fornecedor Alibaba
Contexto 131K tokens
GPU mín. RTX 3080
Apache-2.0 Ver detalhes →
Mistral Small 3.2 13.2 GB
Parâmetros 24B
Fornecedor Mistral AI
Contexto 128K tokens
Velocidade CPU 1 tok/s
Apache 2.0 Ver detalhes →
Qwen3 14B 7.7 GB
Parâmetros 14B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 5 tok/s
Apache 2.0 Ver detalhes →
Gemma 3 12B 7.2 GB
Parâmetros 12B
Fornecedor Google
Contexto 128K tokens
GPU mín. RTX 3050 8GB
Gemma Ver detalhes →
Phi-3 Medium 8 GB
Parâmetros 14B
Fornecedor Microsoft
Contexto 128K tokens
GPU mín. RTX 3050 8GB
MIT Ver detalhes →
DeepSeek R1 Distill 8B 4.8 GB
Parâmetros 8B
Fornecedor DeepSeek
Contexto 128K tokens
Velocidade CPU 8 tok/s
MIT Ver detalhes →
Mistral Nemo 12B 7 GB
Parâmetros 12B
Fornecedor Mistral AI
Contexto 131K tokens
Velocidade CPU 6 tok/s
Apache-2.0 Ver detalhes →
Qwen3.5 9B 5 GB
Parâmetros 9B
Fornecedor Alibaba
Contexto 128K tokens
Velocidade CPU 12 tok/s
Apache 2.0 Ver detalhes →
Qwen3 8B 4.4 GB
Parâmetros 8B
Fornecedor Alibaba
Contexto 128K tokens
Velocidade CPU 9 tok/s
Apache 2.0 Ver detalhes →
Nous Hermes 2 Mixtral 8x7B 26 GB
Parâmetros 47B
Fornecedor Nous Research
Contexto 33K tokens
Velocidade CPU 2 tok/s
apache-2.0 Ver detalhes →
Gemma 2 9B 5.5 GB
Parâmetros 9B
Fornecedor Google
Contexto 8K tokens
GPU mín. GTX 1660 Super
Gemma Ver detalhes →
Phi-3.5 MoE 21 GB
Parâmetros 41.9B
Fornecedor Microsoft
Contexto 131K tokens
GPU mín. M4 Pro
MIT Ver detalhes →
Phi-4 Mini 2.1 GB
Parâmetros 3.8B
Fornecedor Microsoft
Contexto 128K tokens
Velocidade CPU 30 tok/s
MIT Ver detalhes →
Llama 3.1 8B 5 GB
Parâmetros 8B
Fornecedor Meta
Contexto 131K tokens
Velocidade CPU 7 tok/s
llama-3.1-community Ver detalhes →
Qwen2.5 7B 4.5 GB
Parâmetros 7B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 8 tok/s
Apache-2.0 Ver detalhes →
DeepSeek V2 Lite 9 GB
Parâmetros 16B
Fornecedor DeepSeek
Contexto 33K tokens
GPU mín. RTX 3080
DeepSeek Ver detalhes →
Mistral 7B 4.5 GB
Parâmetros 7B
Fornecedor Mistral AI
Contexto 33K tokens
Velocidade CPU 8 tok/s
Apache-2.0 Ver detalhes →
Yi 1.5 9B 5.5 GB
Parâmetros 9B
Fornecedor 01.AI
Contexto 4K tokens
GPU mín. GTX 1660 Super
Apache-2.0 Ver detalhes →
Phi-3 Small 4.5 GB
Parâmetros 7B
Fornecedor Microsoft
Contexto 128K tokens
Velocidade CPU 8 tok/s
MIT Ver detalhes →
Qwen3.5 4B 2.6 GB
Parâmetros 4.66B
Fornecedor Alibaba
Contexto 262K tokens
Velocidade CPU 12 tok/s
Apache 2.0 Ver detalhes →
Qwen3 4B 2.2 GB
Parâmetros 4B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 15 tok/s
Apache 2.0 Ver detalhes →
Gemma 3 4B 2.4 GB
Parâmetros 4B
Fornecedor Google
Contexto 128K tokens
Velocidade CPU 16 tok/s
Gemma Ver detalhes →
Phi-3.5 Mini 2.3 GB
Parâmetros 3.8B
Fornecedor Microsoft
Contexto 128K tokens
Velocidade CPU 13 tok/s
MIT Ver detalhes →
DeepSeek R1 Distill 1.5B 1 GB
Parâmetros 1.5B
Fornecedor DeepSeek
Contexto 128K tokens
Velocidade CPU 35 tok/s
MIT Ver detalhes →
Yi 1.5 6B 3.7 GB
Parâmetros 6B
Fornecedor 01.AI
Contexto 4K tokens
Velocidade CPU 9 tok/s
Apache-2.0 Ver detalhes →
Phi-3 Mini 2.5 GB
Parâmetros 3.8B
Fornecedor Microsoft
Contexto 128K tokens
Velocidade CPU 14 tok/s
MIT Ver detalhes →
Qwen3.5 2B 1.2 GB
Parâmetros 2.27B
Fornecedor Alibaba
Contexto 262K tokens
Velocidade CPU 22 tok/s
Apache 2.0 Ver detalhes →
Qwen3 1.7B 0.9 GB
Parâmetros 1.7B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 35 tok/s
Apache 2.0 Ver detalhes →
Gemma 2 2B 1.5 GB
Parâmetros 2B
Fornecedor Google
Contexto 8K tokens
Velocidade CPU 32 tok/s
Gemma Ver detalhes →
Qwen2.5 3B 1.9 GB
Parâmetros 3B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 20 tok/s
Apache-2.0 Ver detalhes →
Llama 3.2 3B 1.8 GB
Parâmetros 3B
Fornecedor Meta
Contexto 131K tokens
Velocidade CPU 18 tok/s
llama-3.2-community Ver detalhes →
Gemma 3 1B 0.7 GB
Parâmetros 1B
Fornecedor Google
Contexto 128K tokens
Velocidade CPU 42 tok/s
Gemma Ver detalhes →
Qwen2.5 1.5B 1 GB
Parâmetros 1.5B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 38 tok/s
Apache-2.0 Ver detalhes →
Llama 3.2 1B 0.6 GB
Parâmetros 1B
Fornecedor Meta
Contexto 131K tokens
Velocidade CPU 52 tok/s
llama-3.2-community Ver detalhes →
Qwen2.5 0.5B 0.35 GB
Parâmetros 0.5B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 95 tok/s
Apache-2.0 Ver detalhes →

Geração de código (13)

Modelos especializados para escrever, rever e explicar código

Qwen2.5-Coder 32B 19.2 GB
Parâmetros 32B
Fornecedor Alibaba
Contexto 131K tokens
GPU mín. RX 7900 XT
Apache-2.0 Ver detalhes →
Qwen3-Coder-Next 80B-A3B 44 GB
Parâmetros 80B
Fornecedor Alibaba
Contexto 262K tokens
GPU mín. M4 Max 48GB
Apache 2.0 Ver detalhes →
Qwen3-Coder 30B-A3B 16.5 GB
Parâmetros 30B
Fornecedor Alibaba
Contexto 262K tokens
GPU mín. M3 Pro
Apache 2.0 Ver detalhes →
Devstral Small 2 24B 13.2 GB
Parâmetros 24B
Fornecedor Mistral AI
Contexto 256K tokens
Velocidade CPU 5 tok/s
Apache 2.0 Ver detalhes →
CodeLlama 34B 19 GB
Parâmetros 34B
Fornecedor Meta
Contexto 16K tokens
GPU mín. RX 7900 XT
llama-2-community Ver detalhes →
DeepSeek Coder V2 9 GB
Parâmetros 16B
Fornecedor DeepSeek
Contexto 131K tokens
GPU mín. RTX 3080
DeepSeek Ver detalhes →
Qwen2.5 Coder 14B 8 GB
Parâmetros 14B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 5 tok/s
Apache-2.0 Ver detalhes →
StarCoder 2 15B 9 GB
Parâmetros 15B
Fornecedor BigCode
Contexto 16K tokens
GPU mín. RTX 3080
BigCode OpenRAIL-M v1 Ver detalhes →
Qwen2.5-Coder 7B 4.2 GB
Parâmetros 7B
Fornecedor Alibaba
Contexto 131K tokens
Velocidade CPU 9 tok/s
Apache-2.0 Ver detalhes →
StarCoder 2 7B 4.5 GB
Parâmetros 7B
Fornecedor BigCode
Contexto 16K tokens
Velocidade CPU 8 tok/s
BigCode OpenRAIL-M v1 Ver detalhes →
CodeGemma 7B 4.5 GB
Parâmetros 7B
Fornecedor Google
Contexto 8K tokens
GPU mín. GTX 1660 Super
Gemma Ver detalhes →
CodeLlama 7B 4.5 GB
Parâmetros 7B
Fornecedor Meta
Contexto 16K tokens
Velocidade CPU 8 tok/s
llama-2-community Ver detalhes →
StarCoder 2 3B 1.9 GB
Parâmetros 3B
Fornecedor BigCode
Contexto 16K tokens
Velocidade CPU 18 tok/s
BigCode OpenRAIL-M v1 Ver detalhes →

Visão e multimodal (11)

Modelos que processam imagem e texto em conjunto