Executar Qwen 3.6 Localmente

Implante o Qwen 3.6 no seu próprio hardware - do Mac M4 16GB a servidores de produção

Os modelos open-weight do Qwen 3.6 são projetados para implantação local em uma ampla variedade de hardware. O modelo denso 27B pode rodar em 16GB de VRAM usando IQ4_XS GGUF com compressão de cache KV suportando até 100K de contexto. O modelo 35B A3B MoE entrega 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3. Suporte completo para Ollama, vLLM, llama.cpp, SGLang e KTransformers. Capacidades de visão e multimodal funcionam localmente.

Começar a Conversar Ver guia de hardware

Implantação local

Tudo que você precisa para executar o Qwen 3.6 na sua própria máquina

Da seleção de hardware ao ajuste de quantização, este guia cobre todos os aspectos da implantação local dos modelos Qwen 3.6 para desenvolvimento, testes e uso em produção. Seis frameworks de inferência suportados, com configurações de hardware de laptops com 16GB a workstations com 96GB.

Requisitos de hardware - 35B A3B MoE

O modelo 35B A3B MoE com apenas 3B de parâmetros ativos é a opção mais amigável em termos de hardware. Quantização Q3_K_M: ~17GB de VRAM, confirmado funcionando no Mac M4 16GB. Q4_K_M: ~21-23GB de VRAM, cabe na RTX 4090 24GB. Q8_0: ~35GB. BF16 precisão total: ~70GB, cabe na RTX 6000 96GB. Espere 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits baseado em benchmarks da comunidade Unsloth.

Requisitos de hardware - 27B Denso

O modelo denso 27B entrega a máxima qualidade open-weight com todos os parâmetros ativos. IQ4_XS GGUF: pode rodar em 16GB de VRAM com compressão de cache KV, suportando até 100K de comprimento de contexto. Q4_K_M: ~16GB, precisa de GPU de 24GB+ para operação confortável com contexto. FP16 precisão total: ~55,6GB, requer 2x RTX 4090 ou A100 80GB. Melhor para implantações em workstations onde a qualidade é a prioridade máxima.

Configuração com um comando no Ollama

O caminho mais rápido para implantação local: 'ollama run qwen3.6:35b-a3b'. Download automático do modelo, seleção de quantização e detecção de GPU. Suporta aceleração NVIDIA CUDA e Apple Metal. A API compatível com OpenAI em localhost:11434 integra com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Visão e chamada de ferramentas funcionam prontos para uso - correções em relação ao Qwen 3.5.

Servindo em produção com vLLM

Servindo em nível de produção com batching contínuo, PagedAttention e endpoints de API compatíveis com OpenAI. Ideal para implantações multi-usuário e inferência de alto throughput em hardware de servidor. Suporta paralelismo de tensor para dividir o modelo 27B entre múltiplas GPUs. O PagedAttention permite gerenciamento eficiente de memória para requisições de contexto longo até o comprimento total de contexto do modelo.

llama.cpp e SGLang

O llama.cpp oferece inferência leve em C++ com suporte a CPU e GPU, ideal para implantações de borda e ambientes com recursos limitados. O SGLang oferece servindo de alto desempenho com RadixAttention para cache eficiente de prefixos. Ambos suportam modelos quantizados em GGUF e fornecem endpoints de API compatíveis com OpenAI. O KTransformers também é suportado para cenários avançados de implantação.

Visão e multimodal localmente

Tanto o modelo 27B quanto o 35B A3B suportam entradas de visão e multimodais quando implantados localmente. Analise capturas de tela de código, revise designs de UI, interprete diagramas de arquitetura e depure problemas visuais. Essa capacidade funciona no Ollama, vLLM e outros frameworks suportados. Uma melhoria significativa em relação ao Qwen 3.5 onde a visão local estava quebrada.

Privacidade e soberania de dados

Todos os dados ficam na sua máquina. Sem chamadas de API, sem dependências de nuvem, sem rastreamento de uso, sem dados saindo da sua rede. Perfeito para bases de código sensíveis, dados proprietários, aplicações de saúde e financeiras, e ambientes air-gapped onde a soberania de dados é legalmente exigida. A licença Apache 2.0 permite uso comercial sem restrições.

Análise de custo vs API

Custo por token zero após o investimento inicial em hardware. Uma única RTX 4090 (~$1.600) executando o modelo 35B A3B a 20-40 tok/s pode lidar com milhares de requisições por dia. Com os preços do DashScope de $0.40/$2.40 por milhão de tokens, a GPU se paga em semanas para uso intenso. Para equipes processando milhões de tokens diariamente, a implantação local oferece economia de 10-100x em relação ao acesso via API.

Referência rápida

Configurações de hardware e opções de framework

Especificações principais para implantação local do Qwen 3.6 em diferentes configurações de hardware e frameworks de inferência.

Configurações do 35B A3B MoE

Q3_K_M: ~17GB de VRAM - Mac M4 16GB confirmado funcionando
Q4_K_M: ~21-23GB de VRAM - RTX 4090 24GB recomendada
Q8_0: ~35GB de VRAM - RTX A6000 48GB ou GPU dupla
BF16: ~70GB de VRAM - RTX 6000 96GB precisão total
20-40 tok/s em hardware de consumo com 4-bit (benchmarks Unsloth)
3B de parâmetros ativos por token, inferência eficiente

Configurações do 27B Denso

IQ4_XS GGUF: 16GB de VRAM com compressão de cache KV (contexto de 100K)
Q4_K_M: ~16GB de VRAM - RTX 4090 24GB com espaço para contexto
FP16: ~55,6GB de VRAM - 2x RTX 4090 ou A100 80GB
Todos os 27B de parâmetros ativos para qualidade máxima
Melhor modelo open-weight para código: 77,2% SWE-bench

Frameworks suportados

Ollama: Configuração mais fácil, implantação com um comando, visão + chamada de ferramentas
vLLM: Servindo em produção, batching contínuo, paralelismo de tensor
llama.cpp: Inferência leve em C++, CPU + GPU, implantação de borda
SGLang: Servindo de alto desempenho com cache de prefixo RadixAttention
KTransformers: Implantação e otimização avançadas
HuggingFace Transformers: Python nativo, suporte completo a ajuste fino

Começar a Conversar Baixar modelos

Guias de configuração

Implantação local passo a passo para cada framework

Siga estes guias para ter o Qwen 3.6 rodando no seu hardware em minutos, com dicas de otimização específicas por plataforma.

Início rápido com Ollama

Instale o Ollama e execute o Qwen 3.6 em menos de 5 minutos

Implantação com vLLM

Configure servindo em nível de produção com API compatível com OpenAI

Guia do llama.cpp

Inferência leve com suporte a CPU e GPU

Configuração do SGLang

Servindo de alto desempenho com RadixAttention

box

Configuração com Docker

Implantação em contêiner para ambientes reproduzíveis

Guia para Mac M4

Execute o 35B A3B no Mac M4 16GB com quantização Q3

Otimização

Tire o máximo do seu hardware

Ajuste quantização, tamanho de lote, alocação de memória e comprimento de contexto para desempenho ideal no seu hardware específico.

Comparação de quantização

Tradeoffs de qualidade vs velocidade vs VRAM para cada nível GGUF

Configuração multi-GPU

Paralelismo de tensor para o modelo denso 27B entre GPUs

Guia para Apple Silicon

Configurações otimizadas para Macs M1/M2/M3/M4 com Metal

Compressão de cache KV

Encaixe o 27B em 16GB de VRAM com contexto de 100K usando IQ4_XS

Integração com ferramentas de código

Conecte o Qwen local ao Claude Code, Aider, Continue.dev

Ecossistema Qwen

Modelos open-weight feitos para implantação local - licenciados sob Apache 2.0

Os modelos open-weight do Qwen 3.6 são lançados sob a licença Apache 2.0 com suporte completo para seis frameworks de inferência. De laptops Mac M4 a servidores multi-GPU, implante com confiança e custo recorrente zero.

Explorar todos os modelos Coleção no HuggingFace

Qwen 3.6 35B A3B

MoE, 3B de parâmetros ativos, 20-40 tok/s em GPU de consumo

Baixar

Qwen 3.6 27B

Denso, 16GB de VRAM com IQ4_XS, qualidade máxima

Baixar

Biblioteca Ollama

Tags de modelo pré-construídas para configuração com um comando

Explorar

Modelos GGUF

Modelos quantizados para cada orçamento de VRAM

Baixar

Docs do vLLM

Servindo em produção com batching contínuo

Ler docs

Comunidade

Obtenha ajuda da comunidade Qwen

Participar

Comece agora

Pronto para executar o Qwen 3.6 no seu próprio hardware? Comece com um comando

Experimente o Qwen 3.6 no navegador primeiro e depois implante localmente com Ollama, vLLM, llama.cpp ou SGLang. O 35B A3B roda no Mac M4 16GB, o 27B cabe em 16GB de VRAM com IQ4_XS. Custo por token zero, privacidade total dos dados, licenciado sob Apache 2.0.

Começar a Conversar Baixar modelos