Executar Qwen 3.6 Localmente

Implante o Qwen 3.6 no seu próprio hardware - do Mac M4 16GB a servidores de produção

Os modelos open-weight do Qwen 3.6 são projetados para implantação local em uma ampla variedade de hardware. O modelo denso 27B pode rodar em 16GB de VRAM usando IQ4_XS GGUF com compressão de cache KV suportando até 100K de contexto. O modelo 35B A3B MoE entrega 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3. Suporte completo para Ollama, vLLM, llama.cpp, SGLang e KTransformers. Capacidades de visão e multimodal funcionam localmente.

Implantação local

Tudo que você precisa para executar o Qwen 3.6 na sua própria máquina

Da seleção de hardware ao ajuste de quantização, este guia cobre todos os aspectos da implantação local dos modelos Qwen 3.6 para desenvolvimento, testes e uso em produção. Seis frameworks de inferência suportados, com configurações de hardware de laptops com 16GB a workstations com 96GB.

Requisitos de hardware - 35B A3B MoE

O modelo 35B A3B MoE com apenas 3B de parâmetros ativos é a opção mais amigável em termos de hardware. Quantização Q3_K_M: ~17GB de VRAM, confirmado funcionando no Mac M4 16GB. Q4_K_M: ~21-23GB de VRAM, cabe na RTX 4090 24GB. Q8_0: ~35GB. BF16 precisão total: ~70GB, cabe na RTX 6000 96GB. Espere 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits baseado em benchmarks da comunidade Unsloth.

Requisitos de hardware - 27B Denso

O modelo denso 27B entrega a máxima qualidade open-weight com todos os parâmetros ativos. IQ4_XS GGUF: pode rodar em 16GB de VRAM com compressão de cache KV, suportando até 100K de comprimento de contexto. Q4_K_M: ~16GB, precisa de GPU de 24GB+ para operação confortável com contexto. FP16 precisão total: ~55,6GB, requer 2x RTX 4090 ou A100 80GB. Melhor para implantações em workstations onde a qualidade é a prioridade máxima.

Configuração com um comando no Ollama

O caminho mais rápido para implantação local: 'ollama run qwen3.6:35b-a3b'. Download automático do modelo, seleção de quantização e detecção de GPU. Suporta aceleração NVIDIA CUDA e Apple Metal. A API compatível com OpenAI em localhost:11434 integra com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Visão e chamada de ferramentas funcionam prontos para uso - correções em relação ao Qwen 3.5.

Servindo em produção com vLLM

Servindo em nível de produção com batching contínuo, PagedAttention e endpoints de API compatíveis com OpenAI. Ideal para implantações multi-usuário e inferência de alto throughput em hardware de servidor. Suporta paralelismo de tensor para dividir o modelo 27B entre múltiplas GPUs. O PagedAttention permite gerenciamento eficiente de memória para requisições de contexto longo até o comprimento total de contexto do modelo.

llama.cpp e SGLang

O llama.cpp oferece inferência leve em C++ com suporte a CPU e GPU, ideal para implantações de borda e ambientes com recursos limitados. O SGLang oferece servindo de alto desempenho com RadixAttention para cache eficiente de prefixos. Ambos suportam modelos quantizados em GGUF e fornecem endpoints de API compatíveis com OpenAI. O KTransformers também é suportado para cenários avançados de implantação.

Visão e multimodal localmente

Tanto o modelo 27B quanto o 35B A3B suportam entradas de visão e multimodais quando implantados localmente. Analise capturas de tela de código, revise designs de UI, interprete diagramas de arquitetura e depure problemas visuais. Essa capacidade funciona no Ollama, vLLM e outros frameworks suportados. Uma melhoria significativa em relação ao Qwen 3.5 onde a visão local estava quebrada.

Privacidade e soberania de dados

Todos os dados ficam na sua máquina. Sem chamadas de API, sem dependências de nuvem, sem rastreamento de uso, sem dados saindo da sua rede. Perfeito para bases de código sensíveis, dados proprietários, aplicações de saúde e financeiras, e ambientes air-gapped onde a soberania de dados é legalmente exigida. A licença Apache 2.0 permite uso comercial sem restrições.

Análise de custo vs API

Custo por token zero após o investimento inicial em hardware. Uma única RTX 4090 (~$1.600) executando o modelo 35B A3B a 20-40 tok/s pode lidar com milhares de requisições por dia. Com os preços do DashScope de $0.40/$2.40 por milhão de tokens, a GPU se paga em semanas para uso intenso. Para equipes processando milhões de tokens diariamente, a implantação local oferece economia de 10-100x em relação ao acesso via API.

Referência rápida

Configurações de hardware e opções de framework

Especificações principais para implantação local do Qwen 3.6 em diferentes configurações de hardware e frameworks de inferência.

Configurações do 35B A3B MoE

  • Q3_K_M: ~17GB de VRAM - Mac M4 16GB confirmado funcionando
  • Q4_K_M: ~21-23GB de VRAM - RTX 4090 24GB recomendada
  • Q8_0: ~35GB de VRAM - RTX A6000 48GB ou GPU dupla
  • BF16: ~70GB de VRAM - RTX 6000 96GB precisão total
  • 20-40 tok/s em hardware de consumo com 4-bit (benchmarks Unsloth)
  • 3B de parâmetros ativos por token, inferência eficiente

Configurações do 27B Denso

  • IQ4_XS GGUF: 16GB de VRAM com compressão de cache KV (contexto de 100K)
  • Q4_K_M: ~16GB de VRAM - RTX 4090 24GB com espaço para contexto
  • FP16: ~55,6GB de VRAM - 2x RTX 4090 ou A100 80GB
  • Todos os 27B de parâmetros ativos para qualidade máxima
  • Melhor modelo open-weight para código: 77,2% SWE-bench

Frameworks suportados

  • Ollama: Configuração mais fácil, implantação com um comando, visão + chamada de ferramentas
  • vLLM: Servindo em produção, batching contínuo, paralelismo de tensor
  • llama.cpp: Inferência leve em C++, CPU + GPU, implantação de borda
  • SGLang: Servindo de alto desempenho com cache de prefixo RadixAttention
  • KTransformers: Implantação e otimização avançadas
  • HuggingFace Transformers: Python nativo, suporte completo a ajuste fino

Ecossistema Qwen

Modelos open-weight feitos para implantação local - licenciados sob Apache 2.0

Os modelos open-weight do Qwen 3.6 são lançados sob a licença Apache 2.0 com suporte completo para seis frameworks de inferência. De laptops Mac M4 a servidores multi-GPU, implante com confiança e custo recorrente zero.

Qwen 3.6 35B A3B

MoE, 3B de parâmetros ativos, 20-40 tok/s em GPU de consumo

Baixar

Qwen 3.6 27B

Denso, 16GB de VRAM com IQ4_XS, qualidade máxima

Baixar

Biblioteca Ollama

Tags de modelo pré-construídas para configuração com um comando

Explorar

Modelos GGUF

Modelos quantizados para cada orçamento de VRAM

Baixar

Docs do vLLM

Servindo em produção com batching contínuo

Ler docs

Comunidade

Obtenha ajuda da comunidade Qwen

Participar

Comece agora

Pronto para executar o Qwen 3.6 no seu próprio hardware? Comece com um comando

Experimente o Qwen 3.6 no navegador primeiro e depois implante localmente com Ollama, vLLM, llama.cpp ou SGLang. O 35B A3B roda no Mac M4 16GB, o 27B cabe em 16GB de VRAM com IQ4_XS. Custo por token zero, privacidade total dos dados, licenciado sob Apache 2.0.