Executar Qwen 3.6 Localmente

Implementa o Qwen 3.6 no teu próprio hardware - do Mac M4 16GB a servidores de produção

Os modelos open-weight do Qwen 3.6 foram concebidos para implementação local numa ampla gama de hardware. O modelo denso 27B pode funcionar com 16GB de VRAM usando IQ4_XS GGUF com compressão de cache KV suportando até 100K de contexto. O modelo 35B A3B MoE entrega 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3. Suporte completo para Ollama, vLLM, llama.cpp, SGLang e KTransformers. Capacidades de visão e multimodais funcionam localmente.

Implementação local

Tudo o que precisas para executar o Qwen 3.6 na tua própria máquina

Desde a seleção de hardware até ao ajuste de quantização, este guia cobre todos os aspetos da implementação local de modelos Qwen 3.6 para desenvolvimento, testes e uso em produção. Seis frameworks de inferência suportados, com configurações de hardware desde portáteis de 16GB até estações de trabalho de 96GB.

Requisitos de hardware - 35B A3B MoE

O modelo 35B A3B MoE com apenas 3B de parâmetros ativos é a opção mais amigável em termos de hardware. Quantização Q3_K_M: ~17GB de VRAM, confirmado a funcionar no Mac M4 16GB. Q4_K_M: ~21-23GB de VRAM, cabe na RTX 4090 24GB. Q8_0: ~35GB. BF16 precisão total: ~70GB, cabe na RTX 6000 96GB. Espera 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits com base nos benchmarks da comunidade Unsloth.

Requisitos de hardware - 27B Denso

O modelo denso 27B entrega a máxima qualidade open-weight com todos os parâmetros ativos. IQ4_XS GGUF: pode funcionar com 16GB de VRAM com compressão de cache KV, suportando até 100K de comprimento de contexto. Q4_K_M: ~16GB, necessita de GPU de 24GB+ para operação confortável com contexto. FP16 precisão total: ~55,6GB, requer 2x RTX 4090 ou A100 80GB. Melhor para implementações em estações de trabalho onde a qualidade é a prioridade máxima.

Configuração com um comando no Ollama

O caminho mais rápido para implementação local: 'ollama run qwen3.6:35b-a3b'. Transferência automática do modelo, seleção de quantização e deteção de GPU. Suporta aceleração NVIDIA CUDA e Apple Metal. A API compatível com OpenAI em localhost:11434 integra-se com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Visão e chamada de ferramentas funcionam de imediato - correções em relação ao Qwen 3.5.

Serviço de produção vLLM

Serviço de nível de produção com batching contínuo, PagedAttention e endpoints de API compatíveis com OpenAI. Ideal para implementações multi-utilizador e inferência de alto débito em hardware de servidor. Suporta paralelismo de tensores para dividir o modelo 27B por múltiplas GPUs. O PagedAttention permite gestão eficiente de memória para pedidos de contexto longo até ao comprimento total de contexto do modelo.

llama.cpp e SGLang

O llama.cpp fornece inferência leve em C++ com suporte a CPU e GPU, ideal para implementações edge e ambientes com recursos limitados. O SGLang oferece serviço de alto desempenho com RadixAttention para caching eficiente de prefixos. Ambos suportam modelos quantizados GGUF e fornecem endpoints de API compatíveis com OpenAI. O KTransformers também é suportado para cenários de implementação avançados.

Visão e multimodal localmente

Tanto o modelo 27B como o 35B A3B suportam entradas de visão e multimodais quando implementados localmente. Analisa capturas de ecrã de código, revê designs de interface, interpreta diagramas de arquitetura e depura problemas visuais. Esta capacidade funciona no Ollama, vLLM e outros frameworks suportados. Uma melhoria significativa em relação ao Qwen 3.5 onde a visão local estava avariada.

Privacidade e soberania de dados

Todos os dados ficam na tua máquina. Sem chamadas API, sem dependências de cloud, sem rastreamento de utilização, sem dados a sair da tua rede. Perfeito para bases de código sensíveis, dados proprietários, aplicações de saúde e financeiras, e ambientes isolados onde a soberania de dados é legalmente exigida. A licença Apache 2.0 permite uso comercial sem restrições.

Análise de custos vs API

Sem custos por token após o investimento inicial em hardware. Uma única RTX 4090 (~$1.600) a executar o modelo 35B A3B a 20-40 tok/s pode processar milhares de pedidos por dia. Aos preços do DashScope de $0.40/$2.40 por milhão de tokens, a GPU paga-se em semanas para utilização intensiva. Para equipas que processam milhões de tokens diariamente, a implementação local oferece poupanças de 10-100x em relação ao acesso por API.

Referência rápida

Configurações de hardware e opções de frameworks

Especificações principais para implementação local do Qwen 3.6 em diferentes configurações de hardware e frameworks de inferência.

Configurações 35B A3B MoE

  • Q3_K_M: ~17GB de VRAM - Mac M4 16GB confirmado a funcionar
  • Q4_K_M: ~21-23GB de VRAM - RTX 4090 24GB recomendada
  • Q8_0: ~35GB de VRAM - RTX A6000 48GB ou GPU dupla
  • BF16: ~70GB de VRAM - RTX 6000 96GB precisão total
  • 20-40 tok/s em hardware de consumo a 4 bits (benchmarks Unsloth)
  • 3B de parâmetros ativos por token, inferência eficiente

Configurações 27B Denso

  • IQ4_XS GGUF: 16GB de VRAM com compressão de cache KV (contexto 100K)
  • Q4_K_M: ~16GB de VRAM - RTX 4090 24GB com espaço para contexto
  • FP16: ~55,6GB de VRAM - 2x RTX 4090 ou A100 80GB
  • Todos os 27B de parâmetros ativos para qualidade máxima
  • Melhor modelo open-weight para programação: 77,2% SWE-bench

Frameworks suportados

  • Ollama: Configuração mais fácil, implementação com um comando, visão + chamada de ferramentas
  • vLLM: Serviço de produção, batching contínuo, paralelismo de tensores
  • llama.cpp: Inferência leve em C++, CPU + GPU, implementação edge
  • SGLang: Serviço de alto desempenho com caching de prefixos RadixAttention
  • KTransformers: Implementação e otimização avançadas
  • HuggingFace Transformers: Python nativo, suporte completo a ajuste fino

Ecossistema Qwen

Modelos open-weight concebidos para implementação local - licença Apache 2.0

Os modelos open-weight do Qwen 3.6 são lançados sob a licença Apache 2.0 com suporte completo para seis frameworks de inferência. De portáteis Mac M4 a servidores multi-GPU, implementa com confiança e sem custos recorrentes.

Qwen 3.6 35B A3B

MoE, 3B parâmetros ativos, 20-40 tok/s em GPU de consumo

Transferir

Qwen 3.6 27B

Denso, 16GB de VRAM com IQ4_XS, qualidade máxima

Transferir

Biblioteca Ollama

Tags de modelo pré-construídas para configuração com um comando

Explorar

Modelos GGUF

Modelos quantizados para cada orçamento de VRAM

Transferir

Documentação vLLM

Serviço de produção com batching contínuo

Ler documentação

Comunidade

Obtém ajuda da comunidade Qwen

Aderir

Começar

Pronto para executar o Qwen 3.6 no teu próprio hardware? Começa com um comando

Experimenta o Qwen 3.6 no navegador primeiro e depois implementa localmente com Ollama, vLLM, llama.cpp ou SGLang. O 35B A3B funciona no Mac M4 16GB, o 27B cabe em 16GB de VRAM com IQ4_XS. Sem custos por token, total privacidade de dados, licença Apache 2.0.