Executar Qwen 3.6 Localmente
Implementa o Qwen 3.6 no teu próprio hardware - do Mac M4 16GB a servidores de produção
Os modelos open-weight do Qwen 3.6 foram concebidos para implementação local numa ampla gama de hardware. O modelo denso 27B pode funcionar com 16GB de VRAM usando IQ4_XS GGUF com compressão de cache KV suportando até 100K de contexto. O modelo 35B A3B MoE entrega 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3. Suporte completo para Ollama, vLLM, llama.cpp, SGLang e KTransformers. Capacidades de visão e multimodais funcionam localmente.
Implementação local
Tudo o que precisas para executar o Qwen 3.6 na tua própria máquina
Desde a seleção de hardware até ao ajuste de quantização, este guia cobre todos os aspetos da implementação local de modelos Qwen 3.6 para desenvolvimento, testes e uso em produção. Seis frameworks de inferência suportados, com configurações de hardware desde portáteis de 16GB até estações de trabalho de 96GB.
Requisitos de hardware - 35B A3B MoE
O modelo 35B A3B MoE com apenas 3B de parâmetros ativos é a opção mais amigável em termos de hardware. Quantização Q3_K_M: ~17GB de VRAM, confirmado a funcionar no Mac M4 16GB. Q4_K_M: ~21-23GB de VRAM, cabe na RTX 4090 24GB. Q8_0: ~35GB. BF16 precisão total: ~70GB, cabe na RTX 6000 96GB. Espera 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits com base nos benchmarks da comunidade Unsloth.
Requisitos de hardware - 27B Denso
O modelo denso 27B entrega a máxima qualidade open-weight com todos os parâmetros ativos. IQ4_XS GGUF: pode funcionar com 16GB de VRAM com compressão de cache KV, suportando até 100K de comprimento de contexto. Q4_K_M: ~16GB, necessita de GPU de 24GB+ para operação confortável com contexto. FP16 precisão total: ~55,6GB, requer 2x RTX 4090 ou A100 80GB. Melhor para implementações em estações de trabalho onde a qualidade é a prioridade máxima.
Configuração com um comando no Ollama
O caminho mais rápido para implementação local: 'ollama run qwen3.6:35b-a3b'. Transferência automática do modelo, seleção de quantização e deteção de GPU. Suporta aceleração NVIDIA CUDA e Apple Metal. A API compatível com OpenAI em localhost:11434 integra-se com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Visão e chamada de ferramentas funcionam de imediato - correções em relação ao Qwen 3.5.
Serviço de produção vLLM
Serviço de nível de produção com batching contínuo, PagedAttention e endpoints de API compatíveis com OpenAI. Ideal para implementações multi-utilizador e inferência de alto débito em hardware de servidor. Suporta paralelismo de tensores para dividir o modelo 27B por múltiplas GPUs. O PagedAttention permite gestão eficiente de memória para pedidos de contexto longo até ao comprimento total de contexto do modelo.
llama.cpp e SGLang
O llama.cpp fornece inferência leve em C++ com suporte a CPU e GPU, ideal para implementações edge e ambientes com recursos limitados. O SGLang oferece serviço de alto desempenho com RadixAttention para caching eficiente de prefixos. Ambos suportam modelos quantizados GGUF e fornecem endpoints de API compatíveis com OpenAI. O KTransformers também é suportado para cenários de implementação avançados.
Visão e multimodal localmente
Tanto o modelo 27B como o 35B A3B suportam entradas de visão e multimodais quando implementados localmente. Analisa capturas de ecrã de código, revê designs de interface, interpreta diagramas de arquitetura e depura problemas visuais. Esta capacidade funciona no Ollama, vLLM e outros frameworks suportados. Uma melhoria significativa em relação ao Qwen 3.5 onde a visão local estava avariada.
Privacidade e soberania de dados
Todos os dados ficam na tua máquina. Sem chamadas API, sem dependências de cloud, sem rastreamento de utilização, sem dados a sair da tua rede. Perfeito para bases de código sensíveis, dados proprietários, aplicações de saúde e financeiras, e ambientes isolados onde a soberania de dados é legalmente exigida. A licença Apache 2.0 permite uso comercial sem restrições.
Análise de custos vs API
Sem custos por token após o investimento inicial em hardware. Uma única RTX 4090 (~$1.600) a executar o modelo 35B A3B a 20-40 tok/s pode processar milhares de pedidos por dia. Aos preços do DashScope de $0.40/$2.40 por milhão de tokens, a GPU paga-se em semanas para utilização intensiva. Para equipas que processam milhões de tokens diariamente, a implementação local oferece poupanças de 10-100x em relação ao acesso por API.
Referência rápida
Configurações de hardware e opções de frameworks
Especificações principais para implementação local do Qwen 3.6 em diferentes configurações de hardware e frameworks de inferência.
Configurações 35B A3B MoE
- Q3_K_M: ~17GB de VRAM - Mac M4 16GB confirmado a funcionar
- Q4_K_M: ~21-23GB de VRAM - RTX 4090 24GB recomendada
- Q8_0: ~35GB de VRAM - RTX A6000 48GB ou GPU dupla
- BF16: ~70GB de VRAM - RTX 6000 96GB precisão total
- 20-40 tok/s em hardware de consumo a 4 bits (benchmarks Unsloth)
- 3B de parâmetros ativos por token, inferência eficiente
Configurações 27B Denso
- IQ4_XS GGUF: 16GB de VRAM com compressão de cache KV (contexto 100K)
- Q4_K_M: ~16GB de VRAM - RTX 4090 24GB com espaço para contexto
- FP16: ~55,6GB de VRAM - 2x RTX 4090 ou A100 80GB
- Todos os 27B de parâmetros ativos para qualidade máxima
- Melhor modelo open-weight para programação: 77,2% SWE-bench
Frameworks suportados
- Ollama: Configuração mais fácil, implementação com um comando, visão + chamada de ferramentas
- vLLM: Serviço de produção, batching contínuo, paralelismo de tensores
- llama.cpp: Inferência leve em C++, CPU + GPU, implementação edge
- SGLang: Serviço de alto desempenho com caching de prefixos RadixAttention
- KTransformers: Implementação e otimização avançadas
- HuggingFace Transformers: Python nativo, suporte completo a ajuste fino
Guias de configuração
Implementação local passo a passo para cada framework
Segue estes guias para ter o Qwen 3.6 a funcionar no teu hardware em minutos, com dicas de otimização específicas para cada plataforma.
Instala o Ollama e executa o Qwen 3.6 em menos de 5 minutos
Configura serviço de nível de produção com API compatível com OpenAI
Inferência leve com suporte a CPU e GPU
Serviço de alto desempenho com RadixAttention
Implementação em contentor para ambientes reproduzíveis
Executa o 35B A3B no Mac M4 16GB com quantização Q3
Otimização
Tira o máximo partido do teu hardware
Ajusta a quantização, tamanho de lote, alocação de memória e comprimento de contexto para desempenho ótimo no teu hardware específico.
Compromissos entre qualidade, velocidade e VRAM para cada nível GGUF
Paralelismo de tensores para o modelo denso 27B em múltiplas GPUs
Definições otimizadas para Macs M1/M2/M3/M4 com Metal
Cabe o 27B em 16GB de VRAM com contexto 100K usando IQ4_XS
Liga o Qwen local ao Claude Code, Aider, Continue.dev
Ecossistema Qwen
Modelos open-weight concebidos para implementação local - licença Apache 2.0
Os modelos open-weight do Qwen 3.6 são lançados sob a licença Apache 2.0 com suporte completo para seis frameworks de inferência. De portáteis Mac M4 a servidores multi-GPU, implementa com confiança e sem custos recorrentes.
Começar
Pronto para executar o Qwen 3.6 no teu próprio hardware? Começa com um comando
Experimenta o Qwen 3.6 no navegador primeiro e depois implementa localmente com Ollama, vLLM, llama.cpp ou SGLang. O 35B A3B funciona no Mac M4 16GB, o 27B cabe em 16GB de VRAM com IQ4_XS. Sem custos por token, total privacidade de dados, licença Apache 2.0.