Biblioteca de modelos v2.4

Modelos de IA para
inferência local

99 modelos com requisitos exatos de VRAM em FP16, Q8, Q4 e Q2. Escolha um modelo e descubra que GPU o consegue executar e com que qualidade.

99 modelos indexados

51 funcionam com 8 GB

59 chat

13 código

Recomendação

Está a começar?

Llama 3.1 8B Q4 é o melhor ponto de partida: funciona em qualquer GPU com 6 GB+ de VRAM. Com 12 GB+, pode avançar para Mistral 7B ou Llama 3.1 13B.

Ver Llama 3.1 8B

Verifique se a sua GPU consegue executar qualquer modelo

Seletor de rotas de modelo

/modelo/camada de decisao

Escolha uma rota de modelo que encaixe no seu hardware

Guia por intencao:Estas rotas ligam a sua intencao a uma meta minima de VRAM, mais modelo e GPU recomendados, antes de entrar no catalogo completo.

3

Cenarios de decisao

9.3GB

VRAM minima media

12GB

Rota mais alta

check_circle

forum

Assistente pessoal de IA local

Utilizadores que querem privacidade e evitar subscricoes cloud

Modelo: Llama 3.1 8BGPU: RTX 4060

Selecionado

Sinal minimo de VRAM

Requisito do cenario

8 GB

4GB8GB12GB16GB 24GB+

Llama 3.1 8B

Modelo recomendado

RTX 4060

GPU recomendada

Ver compatibilidade Ver disponibilidade

Detalhe do modelo Detalhe da GPU

mic

Transcricao de audio privada

Jornalistas, investigadores e profissionais de saude

Modelo: Whisper Large V3GPU: RTX 3060

Sinal minimo de VRAM

Requisito do cenario

8 GB

4GB8GB12GB16GB 24GB+

Whisper Large V3

Modelo recomendado

RTX 3060

GPU recomendada

Ver compatibilidade Ver disponibilidade

Detalhe do modelo Detalhe da GPU

image

Geracao local de imagem

Criadores e artistas digitais

Modelo: Stable Diffusion XLGPU: RTX 3060

Sinal minimo de VRAM

Requisito do cenario

12 GB

4GB8GB12GB16GB 24GB+

Stable Diffusion XL

Modelo recomendado

RTX 3060

GPU recomendada

Ver compatibilidade Ver disponibilidade

Detalhe do modelo Detalhe da GPU

Chat e raciocínio (59)

LLMs de uso geral para conversa e raciocínio complexo

Llama 3.1 405B 230 GB

Parâmetros 405B

Fornecedor Meta

Contexto 131K tokens

llama-3.1-community Ver detalhes →

DeepSeek R1 403 GB

Parâmetros 671B

Fornecedor DeepSeek

Contexto 128K tokens

MIT Ver detalhes →

DeepSeek V3.2 369.1 GB

Parâmetros 671B

Fornecedor DeepSeek

Contexto 128K tokens

MIT Ver detalhes →

DeepSeek V3 411 GB

Parâmetros 685B

Fornecedor DeepSeek

Contexto 128K tokens

MIT Ver detalhes →

Llama 3.3 70B 42 GB

Parâmetros 70B

Fornecedor Meta

Contexto 128K tokens

GPU mín. M4 Max 48GB

llama-3-community Ver detalhes →

Qwen2.5 72B 41 GB

Parâmetros 72B

Fornecedor Alibaba

Contexto 131K tokens

GPU mín. M4 Max 48GB

Apache-2.0 Ver detalhes →

Llama 3.1 70B 40 GB

Parâmetros 70B

Fornecedor Meta

Contexto 131K tokens

GPU mín. M4 Max 48GB

llama-3.1-community Ver detalhes →

DeepSeek R1 Distill 32B 19.2 GB

Parâmetros 32B

Fornecedor DeepSeek

Contexto 128K tokens

GPU mín. RX 7900 XT

MIT Ver detalhes →

Qwen3 235B-A22B 129.3 GB

Parâmetros 235B

Fornecedor Alibaba

Contexto 131K tokens

GPU mín. M3 Ultra

Apache 2.0 Ver detalhes →

Qwen2.5 32B 19.2 GB

Parâmetros 32B

Fornecedor Alibaba

Contexto 131K tokens

GPU mín. RX 7900 XT

Apache-2.0 Ver detalhes →

Command R+ 59 GB

Parâmetros 104B

Fornecedor Cohere

Contexto 131K tokens

GPU mín. M4 Ultra

CC-BY-NC-4.0 Ver detalhes →

Qwen3.5 35B-A3B 19.3 GB

Parâmetros 35B

Fornecedor Alibaba

Contexto 128K tokens

Velocidade CPU 8 tok/s

Apache 2.0 Ver detalhes →

Gemma 2 27B 15 GB

Parâmetros 27B

Fornecedor Google

Contexto 8K tokens

GPU mín. M1 Pro

Gemma Ver detalhes →

Gemma 3 27B 16.2 GB

Parâmetros 27B

Fornecedor Google

Contexto 128K tokens

GPU mín. M3 Pro

Gemma Ver detalhes →

Mistral Small 4 65.5 GB

Parâmetros 119B

Fornecedor Mistral AI

Contexto 256K tokens

GPU mín. M4 Ultra

Apache 2.0 Ver detalhes →

Mixtral 8x7B 26 GB

Parâmetros 46.7B

Fornecedor Mistral AI

Contexto 33K tokens

GPU mín. RTX 5090

Apache-2.0 Ver detalhes →

Mistral Small 3 14.4 GB

Parâmetros 24B

Fornecedor Mistral AI

Contexto 33K tokens

GPU mín. M1 Pro

Apache-2.0 Ver detalhes →

Parâmetros 14B

Fornecedor Microsoft

Contexto 16K tokens

GPU mín. RTX 3080

MIT Ver detalhes →

Qwen3 32B 17.6 GB

Parâmetros 32B

Fornecedor Alibaba

Contexto 128K tokens

Velocidade CPU 2 tok/s

Apache 2.0 Ver detalhes →

Qwen3 30B-A3B 16.5 GB

Parâmetros 30B

Fornecedor Alibaba

Contexto 131K tokens

GPU mín. M3 Pro

Apache 2.0 Ver detalhes →

DeepSeek R1 Distill 14B 8.4 GB

Parâmetros 14B

Fornecedor DeepSeek

Contexto 128K tokens

GPU mín. RTX 3080

MIT Ver detalhes →

Qwen3.5 27B 14.9 GB

Parâmetros 27B

Fornecedor Alibaba

Contexto 128K tokens

Velocidade CPU 3 tok/s

Apache 2.0 Ver detalhes →

Magistral Small 24B 13.2 GB

Parâmetros 24B

Fornecedor Mistral AI

Contexto 128K tokens

Velocidade CPU 5 tok/s

Apache 2.0 Ver detalhes →

Yi 1.5 34B 20 GB

Parâmetros 34B

Fornecedor 01.AI

Contexto 4K tokens

GPU mín. RX 7900 XT

Apache-2.0 Ver detalhes →

Qwen2.5 14B 8.4 GB

Parâmetros 14B

Fornecedor Alibaba

Contexto 131K tokens

GPU mín. RTX 3080

Apache-2.0 Ver detalhes →

Mistral Small 3.2 13.2 GB

Parâmetros 24B

Fornecedor Mistral AI

Contexto 128K tokens

Velocidade CPU 1 tok/s

Apache 2.0 Ver detalhes →

Qwen3 14B 7.7 GB

Parâmetros 14B

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 5 tok/s

Apache 2.0 Ver detalhes →

Gemma 3 12B 7.2 GB

Parâmetros 12B

Fornecedor Google

Contexto 128K tokens

GPU mín. RTX 3050 8GB

Gemma Ver detalhes →

Phi-3 Medium 8 GB

Parâmetros 14B

Fornecedor Microsoft

Contexto 128K tokens

GPU mín. RTX 3050 8GB

MIT Ver detalhes →

DeepSeek R1 Distill 8B 4.8 GB

Fornecedor DeepSeek

Contexto 128K tokens

Velocidade CPU 8 tok/s

MIT Ver detalhes →

Mistral Nemo 12B 7 GB

Parâmetros 12B

Fornecedor Mistral AI

Contexto 131K tokens

Velocidade CPU 6 tok/s

Apache-2.0 Ver detalhes →

Qwen3.5 9B 5 GB

Fornecedor Alibaba

Contexto 128K tokens

Velocidade CPU 12 tok/s

Apache 2.0 Ver detalhes →

Qwen3 8B 4.4 GB

Fornecedor Alibaba

Contexto 128K tokens

Velocidade CPU 9 tok/s

Apache 2.0 Ver detalhes →

Nous Hermes 2 Mixtral 8x7B 26 GB

Parâmetros 47B

Fornecedor Nous Research

Contexto 33K tokens

Velocidade CPU 2 tok/s

apache-2.0 Ver detalhes →

Gemma 2 9B 5.5 GB

Fornecedor Google

Contexto 8K tokens

GPU mín. GTX 1660 Super

Gemma Ver detalhes →

Phi-3.5 MoE 21 GB

Parâmetros 41.9B

Fornecedor Microsoft

Contexto 131K tokens

GPU mín. M4 Pro

MIT Ver detalhes →

Phi-4 Mini 2.1 GB

Parâmetros 3.8B

Fornecedor Microsoft

Contexto 128K tokens

Velocidade CPU 30 tok/s

MIT Ver detalhes →

Llama 3.1 8B 5 GB

Fornecedor Meta

Contexto 131K tokens

Velocidade CPU 7 tok/s

llama-3.1-community Ver detalhes →

Qwen2.5 7B 4.5 GB

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 8 tok/s

Apache-2.0 Ver detalhes →

DeepSeek V2 Lite 9 GB

Parâmetros 16B

Fornecedor DeepSeek

Contexto 33K tokens

GPU mín. RTX 3080

DeepSeek Ver detalhes →

Mistral 7B 4.5 GB

Fornecedor Mistral AI

Contexto 33K tokens

Velocidade CPU 8 tok/s

Apache-2.0 Ver detalhes →

Yi 1.5 9B 5.5 GB

Fornecedor 01.AI

Contexto 4K tokens

GPU mín. GTX 1660 Super

Apache-2.0 Ver detalhes →

Phi-3 Small 4.5 GB

Fornecedor Microsoft

Contexto 128K tokens

Velocidade CPU 8 tok/s

MIT Ver detalhes →

Qwen3.5 4B 2.6 GB

Parâmetros 4.66B

Fornecedor Alibaba

Contexto 262K tokens

Velocidade CPU 12 tok/s

Apache 2.0 Ver detalhes →

Qwen3 4B 2.2 GB

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 15 tok/s

Apache 2.0 Ver detalhes →

Gemma 3 4B 2.4 GB

Fornecedor Google

Contexto 128K tokens

Velocidade CPU 16 tok/s

Gemma Ver detalhes →

Phi-3.5 Mini 2.3 GB

Parâmetros 3.8B

Fornecedor Microsoft

Contexto 128K tokens

Velocidade CPU 13 tok/s

MIT Ver detalhes →

DeepSeek R1 Distill 1.5B 1 GB

Parâmetros 1.5B

Fornecedor DeepSeek

Contexto 128K tokens

Velocidade CPU 35 tok/s

MIT Ver detalhes →

Yi 1.5 6B 3.7 GB

Fornecedor 01.AI

Contexto 4K tokens

Velocidade CPU 9 tok/s

Apache-2.0 Ver detalhes →

Phi-3 Mini 2.5 GB

Parâmetros 3.8B

Fornecedor Microsoft

Contexto 128K tokens

Velocidade CPU 14 tok/s

MIT Ver detalhes →

Qwen3.5 2B 1.2 GB

Parâmetros 2.27B

Fornecedor Alibaba

Contexto 262K tokens

Velocidade CPU 22 tok/s

Apache 2.0 Ver detalhes →

Qwen3 1.7B 0.9 GB

Parâmetros 1.7B

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 35 tok/s

Apache 2.0 Ver detalhes →

Gemma 2 2B 1.5 GB

Fornecedor Google

Contexto 8K tokens

Velocidade CPU 32 tok/s

Gemma Ver detalhes →

Qwen2.5 3B 1.9 GB

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 20 tok/s

Apache-2.0 Ver detalhes →

Llama 3.2 3B 1.8 GB

Fornecedor Meta

Contexto 131K tokens

Velocidade CPU 18 tok/s

llama-3.2-community Ver detalhes →

Gemma 3 1B 0.7 GB

Fornecedor Google

Contexto 128K tokens

Velocidade CPU 42 tok/s

Gemma Ver detalhes →

Qwen2.5 1.5B 1 GB

Parâmetros 1.5B

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 38 tok/s

Apache-2.0 Ver detalhes →

Llama 3.2 1B 0.6 GB

Fornecedor Meta

Contexto 131K tokens

Velocidade CPU 52 tok/s

llama-3.2-community Ver detalhes →

Qwen2.5 0.5B 0.35 GB

Parâmetros 0.5B

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 95 tok/s

Apache-2.0 Ver detalhes →

Geração de código (13)

Modelos especializados para escrever, rever e explicar código

Qwen2.5-Coder 32B 19.2 GB

Parâmetros 32B

Fornecedor Alibaba

Contexto 131K tokens

GPU mín. RX 7900 XT

Apache-2.0 Ver detalhes →

Qwen3-Coder-Next 80B-A3B 44 GB

Parâmetros 80B

Fornecedor Alibaba

Contexto 262K tokens

GPU mín. M4 Max 48GB

Apache 2.0 Ver detalhes →

Qwen3-Coder 30B-A3B 16.5 GB

Parâmetros 30B

Fornecedor Alibaba

Contexto 262K tokens

GPU mín. M3 Pro

Apache 2.0 Ver detalhes →

Devstral Small 2 24B 13.2 GB

Parâmetros 24B

Fornecedor Mistral AI

Contexto 256K tokens

Velocidade CPU 5 tok/s

Apache 2.0 Ver detalhes →

CodeLlama 34B 19 GB

Parâmetros 34B

Fornecedor Meta

Contexto 16K tokens

GPU mín. RX 7900 XT

llama-2-community Ver detalhes →

DeepSeek Coder V2 9 GB

Parâmetros 16B

Fornecedor DeepSeek

Contexto 131K tokens

GPU mín. RTX 3080

DeepSeek Ver detalhes →

Qwen2.5 Coder 14B 8 GB

Parâmetros 14B

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 5 tok/s

Apache-2.0 Ver detalhes →

StarCoder 2 15B 9 GB

Parâmetros 15B

Fornecedor BigCode

Contexto 16K tokens

GPU mín. RTX 3080

BigCode OpenRAIL-M v1 Ver detalhes →

Qwen2.5-Coder 7B 4.2 GB

Fornecedor Alibaba

Contexto 131K tokens

Velocidade CPU 9 tok/s

Apache-2.0 Ver detalhes →

StarCoder 2 7B 4.5 GB

Fornecedor BigCode

Contexto 16K tokens

Velocidade CPU 8 tok/s

BigCode OpenRAIL-M v1 Ver detalhes →

CodeGemma 7B 4.5 GB

Fornecedor Google

Contexto 8K tokens

GPU mín. GTX 1660 Super

Gemma Ver detalhes →

CodeLlama 7B 4.5 GB

Fornecedor Meta

Contexto 16K tokens

Velocidade CPU 8 tok/s

llama-2-community Ver detalhes →

StarCoder 2 3B 1.9 GB

Fornecedor BigCode

Contexto 16K tokens

Velocidade CPU 18 tok/s

BigCode OpenRAIL-M v1 Ver detalhes →

Visão e multimodal (11)

Modelos que processam imagem e texto em conjunto

Llama 4 Maverick 116.1 GB

Parâmetros 211B

Fornecedor Meta

Contexto 1000K tokens

GPU mín. M4 Ultra

Llama 4 Ver detalhes →

Gemma 4 27B 14.9 GB

Parâmetros 27B

Fornecedor Google

Contexto 256K tokens

Velocidade CPU 3 tok/s

Apache 2.0 Ver detalhes →

Gemma 4 31B 17.1 GB

Parâmetros 31B

Fornecedor Google

Contexto 128K tokens

Velocidade CPU 1 tok/s

Apache 2.0 Ver detalhes →

Llama 3.2 90B Vision 54 GB

Parâmetros 90B

Fornecedor Meta

Contexto 131K tokens

GPU mín. M4 Ultra

llama-3.2-community Ver detalhes →

Llama 4 Scout 60 GB

Parâmetros 109B

Fornecedor Meta

Contexto 10000K tokens

GPU mín. M4 Ultra

Llama 4 Ver detalhes →

Gemma 4 12B 6.6 GB

Parâmetros 12B

Fornecedor Google

Contexto 256K tokens

Velocidade CPU 8 tok/s

Apache 2.0 Ver detalhes →

Mistral Small 3.1 13.2 GB

Parâmetros 24B

Fornecedor Mistral AI

Contexto 128K tokens

Velocidade CPU 1 tok/s

Apache 2.0 Ver detalhes →

Gemma 4 E4B 2.2 GB

Fornecedor Google

Contexto 128K tokens

Velocidade CPU 14 tok/s

Apache 2.0 Ver detalhes →

Llama 3.2 11B Vision 6.6 GB

Parâmetros 11B

Fornecedor Meta

Contexto 131K tokens

GPU mín. RTX 3050 8GB

llama-3.2-community Ver detalhes →

LLaVA 1.5 7B 4.5 GB

Fornecedor Haotian Liu et al.

Contexto 4K tokens

GPU mín. GTX 1660 Super

llava-v1.5-community Ver detalhes →

Gemma 4 E2B 1.1 GB

Fornecedor Google

Contexto 128K tokens

Velocidade CPU 25 tok/s

Apache 2.0 Ver detalhes →

Geração de imagem (7)

Modelos de difusão para gerar e editar imagens localmente

Flux.1 Dev 12 GB

Parâmetros 12B

Fornecedor Black Forest Labs

GPU mín. RTX 3060

FLUX.1-dev Non-Commercial Ver detalhes →

Stable Diffusion 3.5 Large 10 GB

Fornecedor Stability AI

GPU mín. RTX 3080

Stability AI Community Ver detalhes →

FLUX.2 Dev 17.6 GB

Parâmetros 32B

Fornecedor Black Forest Labs

GPU mín. M3 Pro

FLUX.2-dev Non-Commercial Ver detalhes →

Stable Diffusion 3.5 Medium 5 GB

Fornecedor Stability AI

GPU mín. GTX 1660 Super

Stability AI Community Ver detalhes →

Stable Diffusion 3 Medium 3 GB

Fornecedor Stability AI

GPU mín. GTX 1660 Super

Stability AI Community Ver detalhes →

Flux.1 Schnell 12 GB

Parâmetros 12B

Fornecedor Black Forest Labs

GPU mín. RTX 3060

Apache-2.0 Ver detalhes →

Stable Diffusion XL 6 GB

Parâmetros 6.6B

Fornecedor Stability AI

GPU mín. GTX 1660 Super

CreativeML Open RAIL++-M Ver detalhes →

Reconhecimento de voz (5)

Modelos de transcrição e tradução

Whisper Large V3 1.5 GB

Parâmetros 1.55B

Fornecedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalhes →

Whisper Medium 0.8 GB

Parâmetros 0.769B

Fornecedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalhes →

Whisper Small 0.4 GB

Parâmetros 0.244B

Fornecedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalhes →

Whisper Base 0.25 GB

Parâmetros 0.074B

Fornecedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalhes →

Whisper Tiny 0.2 GB

Parâmetros 0.039B

Fornecedor OpenAI

GPU mín. GTX 1660 Super

MIT Ver detalhes →

agent (4)

Hermes 3 405B 230 GB

Parâmetros 405B

Fornecedor Nous Research

Contexto 131K tokens

llama-3.1-community Ver detalhes →

Hermes 3 70B 40 GB

Parâmetros 70B

Fornecedor Nous Research

Contexto 131K tokens

Velocidade CPU 0.8 tok/s

llama-3.1-community Ver detalhes →

Hermes 3 8B 5 GB

Fornecedor Nous Research

Contexto 131K tokens

Velocidade CPU 7 tok/s

llama-3.1-community Ver detalhes →

Hermes 2 Pro Llama-3 8B 5 GB

Fornecedor Nous Research

Contexto 8K tokens

Velocidade CPU 7 tok/s

apache-2.0 Ver detalhes →