Executar Qwen 3.6 Localmente

Implementa o Qwen 3.6 no teu próprio hardware - do Mac M4 16GB a servidores de produção

Os modelos open-weight do Qwen 3.6 foram concebidos para implementação local numa ampla gama de hardware. O modelo denso 27B pode funcionar com 16GB de VRAM usando IQ4_XS GGUF com compressão de cache KV suportando até 100K de contexto. O modelo 35B A3B MoE entrega 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3. Suporte completo para Ollama, vLLM, llama.cpp, SGLang e KTransformers. Capacidades de visão e multimodais funcionam localmente.

Começar a Conversar Ver guia de hardware

Implementação local

Tudo o que precisas para executar o Qwen 3.6 na tua própria máquina

Desde a seleção de hardware até ao ajuste de quantização, este guia cobre todos os aspetos da implementação local de modelos Qwen 3.6 para desenvolvimento, testes e uso em produção. Seis frameworks de inferência suportados, com configurações de hardware desde portáteis de 16GB até estações de trabalho de 96GB.

Requisitos de hardware - 35B A3B MoE

O modelo 35B A3B MoE com apenas 3B de parâmetros ativos é a opção mais amigável em termos de hardware. Quantização Q3_K_M: ~17GB de VRAM, confirmado a funcionar no Mac M4 16GB. Q4_K_M: ~21-23GB de VRAM, cabe na RTX 4090 24GB. Q8_0: ~35GB. BF16 precisão total: ~70GB, cabe na RTX 6000 96GB. Espera 20-40 tokens por segundo em hardware de consumo com quantização de 4 bits com base nos benchmarks da comunidade Unsloth.

Requisitos de hardware - 27B Denso

O modelo denso 27B entrega a máxima qualidade open-weight com todos os parâmetros ativos. IQ4_XS GGUF: pode funcionar com 16GB de VRAM com compressão de cache KV, suportando até 100K de comprimento de contexto. Q4_K_M: ~16GB, necessita de GPU de 24GB+ para operação confortável com contexto. FP16 precisão total: ~55,6GB, requer 2x RTX 4090 ou A100 80GB. Melhor para implementações em estações de trabalho onde a qualidade é a prioridade máxima.

Configuração com um comando no Ollama

O caminho mais rápido para implementação local: 'ollama run qwen3.6:35b-a3b'. Transferência automática do modelo, seleção de quantização e deteção de GPU. Suporta aceleração NVIDIA CUDA e Apple Metal. A API compatível com OpenAI em localhost:11434 integra-se com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Visão e chamada de ferramentas funcionam de imediato - correções em relação ao Qwen 3.5.

Serviço de produção vLLM

Serviço de nível de produção com batching contínuo, PagedAttention e endpoints de API compatíveis com OpenAI. Ideal para implementações multi-utilizador e inferência de alto débito em hardware de servidor. Suporta paralelismo de tensores para dividir o modelo 27B por múltiplas GPUs. O PagedAttention permite gestão eficiente de memória para pedidos de contexto longo até ao comprimento total de contexto do modelo.

llama.cpp e SGLang

O llama.cpp fornece inferência leve em C++ com suporte a CPU e GPU, ideal para implementações edge e ambientes com recursos limitados. O SGLang oferece serviço de alto desempenho com RadixAttention para caching eficiente de prefixos. Ambos suportam modelos quantizados GGUF e fornecem endpoints de API compatíveis com OpenAI. O KTransformers também é suportado para cenários de implementação avançados.

Visão e multimodal localmente

Tanto o modelo 27B como o 35B A3B suportam entradas de visão e multimodais quando implementados localmente. Analisa capturas de ecrã de código, revê designs de interface, interpreta diagramas de arquitetura e depura problemas visuais. Esta capacidade funciona no Ollama, vLLM e outros frameworks suportados. Uma melhoria significativa em relação ao Qwen 3.5 onde a visão local estava avariada.

Privacidade e soberania de dados

Todos os dados ficam na tua máquina. Sem chamadas API, sem dependências de cloud, sem rastreamento de utilização, sem dados a sair da tua rede. Perfeito para bases de código sensíveis, dados proprietários, aplicações de saúde e financeiras, e ambientes isolados onde a soberania de dados é legalmente exigida. A licença Apache 2.0 permite uso comercial sem restrições.

Análise de custos vs API

Sem custos por token após o investimento inicial em hardware. Uma única RTX 4090 (~$1.600) a executar o modelo 35B A3B a 20-40 tok/s pode processar milhares de pedidos por dia. Aos preços do DashScope de $0.40/$2.40 por milhão de tokens, a GPU paga-se em semanas para utilização intensiva. Para equipas que processam milhões de tokens diariamente, a implementação local oferece poupanças de 10-100x em relação ao acesso por API.

Referência rápida

Configurações de hardware e opções de frameworks

Especificações principais para implementação local do Qwen 3.6 em diferentes configurações de hardware e frameworks de inferência.

Configurações 35B A3B MoE

Q3_K_M: ~17GB de VRAM - Mac M4 16GB confirmado a funcionar
Q4_K_M: ~21-23GB de VRAM - RTX 4090 24GB recomendada
Q8_0: ~35GB de VRAM - RTX A6000 48GB ou GPU dupla
BF16: ~70GB de VRAM - RTX 6000 96GB precisão total
20-40 tok/s em hardware de consumo a 4 bits (benchmarks Unsloth)
3B de parâmetros ativos por token, inferência eficiente

Configurações 27B Denso

IQ4_XS GGUF: 16GB de VRAM com compressão de cache KV (contexto 100K)
Q4_K_M: ~16GB de VRAM - RTX 4090 24GB com espaço para contexto
FP16: ~55,6GB de VRAM - 2x RTX 4090 ou A100 80GB
Todos os 27B de parâmetros ativos para qualidade máxima
Melhor modelo open-weight para programação: 77,2% SWE-bench

Frameworks suportados

Ollama: Configuração mais fácil, implementação com um comando, visão + chamada de ferramentas
vLLM: Serviço de produção, batching contínuo, paralelismo de tensores
llama.cpp: Inferência leve em C++, CPU + GPU, implementação edge
SGLang: Serviço de alto desempenho com caching de prefixos RadixAttention
KTransformers: Implementação e otimização avançadas
HuggingFace Transformers: Python nativo, suporte completo a ajuste fino

Começar a Conversar Transferir modelos

Guias de configuração

Implementação local passo a passo para cada framework

Segue estes guias para ter o Qwen 3.6 a funcionar no teu hardware em minutos, com dicas de otimização específicas para cada plataforma.

Início rápido Ollama

Instala o Ollama e executa o Qwen 3.6 em menos de 5 minutos

Implementação vLLM

Configura serviço de nível de produção com API compatível com OpenAI

Guia llama.cpp

Inferência leve com suporte a CPU e GPU

Configuração SGLang

Serviço de alto desempenho com RadixAttention

box

Configuração Docker

Implementação em contentor para ambientes reproduzíveis

Guia Mac M4

Executa o 35B A3B no Mac M4 16GB com quantização Q3

Otimização

Tira o máximo partido do teu hardware

Ajusta a quantização, tamanho de lote, alocação de memória e comprimento de contexto para desempenho ótimo no teu hardware específico.

Comparação de quantização

Compromissos entre qualidade, velocidade e VRAM para cada nível GGUF

Configuração multi-GPU

Paralelismo de tensores para o modelo denso 27B em múltiplas GPUs

Guia Apple Silicon

Definições otimizadas para Macs M1/M2/M3/M4 com Metal

Compressão de cache KV

Cabe o 27B em 16GB de VRAM com contexto 100K usando IQ4_XS

Integração com ferramentas de programação

Liga o Qwen local ao Claude Code, Aider, Continue.dev

Ecossistema Qwen

Modelos open-weight concebidos para implementação local - licença Apache 2.0

Os modelos open-weight do Qwen 3.6 são lançados sob a licença Apache 2.0 com suporte completo para seis frameworks de inferência. De portáteis Mac M4 a servidores multi-GPU, implementa com confiança e sem custos recorrentes.

Explorar todos os modelos Coleção HuggingFace

Qwen 3.6 35B A3B

MoE, 3B parâmetros ativos, 20-40 tok/s em GPU de consumo

Transferir

Qwen 3.6 27B

Denso, 16GB de VRAM com IQ4_XS, qualidade máxima

Transferir

Biblioteca Ollama

Tags de modelo pré-construídas para configuração com um comando

Explorar

Modelos GGUF

Modelos quantizados para cada orçamento de VRAM

Transferir

Documentação vLLM

Serviço de produção com batching contínuo

Ler documentação

Comunidade

Obtém ajuda da comunidade Qwen

Aderir

Começar

Pronto para executar o Qwen 3.6 no teu próprio hardware? Começa com um comando

Experimenta o Qwen 3.6 no navegador primeiro e depois implementa localmente com Ollama, vLLM, llama.cpp ou SGLang. O 35B A3B funciona no Mac M4 16GB, o 27B cabe em 16GB de VRAM com IQ4_XS. Sem custos por token, total privacidade de dados, licença Apache 2.0.

Começar a Conversar Transferir modelos