Qwen 3.6 35B A3B

35 mil milhões de parâmetros, 3 mil milhões ativos - MoE frontier em hardware de consumo

O Qwen 3.6 35B A3B é um modelo Mixture-of-Experts que ativa apenas 3B parâmetros por token de 256 especialistas. Com 73.4% no SWE-bench Verified, 92.7% no AIME 2026 e licença Apache 2.0, traz codificação e raciocínio de classe frontier para GPUs de consumo.

Começar a Conversar Ver benchmarks

Variantes do modelo

MoE open-weight para implementação local e na cloud

O Qwen 3.6 35B A3B oferece forte desempenho com parâmetros ativos mínimos. Escolhe a variante instruction-tuned para chat e codificação, ou o modelo base para ajuste fino.

Arquitetura Mixture-of-Experts

35B parâmetros totais, 3B ativos por token, 256 especialistas

O Qwen 3.6 35B A3B usa um design Hybrid Gated DeltaNet + Gated Attention + MoE com 256 especialistas, roteando 8 especialistas mais 1 partilhado por token. O contexto nativo de 262K é extensível a 1M de tokens, e a licença Apache 2.0 permite uso comercial irrestrito.

Com apenas 3B parâmetros ativos por token, este modelo funciona eficientemente em GPUs de consumo enquanto oferece desempenho que rivaliza com modelos densos muito maiores.

Começar a Conversar Ver capacidades

Instruction-tuned

35B A3B Instruct

Otimizado para IA conversacional, codificação e tarefas agênticas em hardware de consumo

Ajustado para seguir instruções e diálogo multi-turno com eficiência MoE

Disponível agora - Apache 2.0

Começar a Conversar Descarregar pesos

Pré-treinado

35B A3B Base

Modelo MoE base para ajuste fino e aplicações especializadas

Pré-treinado com roteamento MoE de 256 especialistas em dados diversos

Disponível agora - Apache 2.0

Ver no HuggingFace Guia de ajuste fino

Capacidades

256 especialistas, 3B ativos - eficiência máxima com forte desempenho

O Qwen 3.6 35B A3B combina um vasto pool de especialistas com computação ativa mínima para oferecer capacidades impressionantes de codificação, raciocínio e agênticas em hardware de consumo.

Engenharia de software do mundo real

73.4% no SWE-bench Verified - a resolver issues reais do GitHub com apenas 3B parâmetros ativos por token. Competitivo com modelos que usam 10x mais computação na inferência.

Operações de terminal

51.5 no Terminal-Bench 2.0 para fluxos complexos de terminal multi-etapas. Lida com depuração, administração de sistemas e tarefas de pipeline de build com forte proficiência.

Matemática avançada

92.7% no AIME 2026 - raciocínio matemático quase frontier de um modelo que funciona em GPUs de consumo. O modo de pensamento passo a passo permite resolução transparente de problemas.

Contexto de 262K a 1M

Janela de contexto nativa de 262K extensível a 1M de tokens. Analisa bases de código inteiras, documentos longos e conversas complexas multi-turno sem truncamento.

Codificação competitiva

80.4 no LiveCodeBench v6 para resolução de problemas algorítmicos. Fortes capacidades de geração de código, depuração e refatoração em múltiplas linguagens de programação.

Liberdade open-weight

A licença Apache 2.0 permite uso comercial irrestrito, ajuste fino e redistribuição. Total transparência nos pesos do modelo para investigação e personalização.

Destaques principais

Desempenho MoE frontier em hardware de consumo

O Qwen 3.6 35B A3B alcança resultados fortes em benchmarks de codificação, raciocínio e agênticos enquanto ativa apenas 3B parâmetros por token.

Principais conquistas

SWE-bench Verified: 73.4% - engenharia de software do mundo real
Terminal-Bench 2.0: 51.5 - operações complexas de terminal
AIME 2026: 92.7% - matemática avançada
LiveCodeBench v6: 80.4 - codificação competitiva
Licença Apache 2.0 - totalmente open-weight

Especificações técnicas

35B parâmetros totais, 3B ativos por token
256 especialistas: 8 roteados + 1 partilhado ativo por token
Arquitetura Hybrid Gated DeltaNet + Gated Attention + MoE
Contexto nativo de 262K, extensível a 1M de tokens
Funciona localmente em GPUs de consumo

Iniciar Chat Gratuito Descarregar pesos

Desempenho

Forte desempenho MoE com custo de inferência de 3B ativos

O Qwen 3.6 35B A3B alcança 73.4% no SWE-bench Verified e 92.7% no AIME 2026 enquanto ativa apenas 3B parâmetros por token - trazendo capacidades de classe frontier para hardware de consumo.

O Qwen 3.6 35B A3B demonstra que arquiteturas MoE esparsas com 256 especialistas podem oferecer resultados impressionantes em engenharia de software, matemática e codificação competitiva a uma fração do custo computacional.

Começar a Conversar Ver model card

Gráfico de comparação de desempenho do Qwen 3.6 35B A3B em benchmarks de codificação e raciocínio

SWE-bench Verified: 73.4% com apenas 3B parâmetros ativos

Terminal-Bench 2.0: 51.5 para operações de terminal

AIME 2026: 92.7% em matemática avançada

LiveCodeBench v6: 80.4 codificação competitiva

Licença open-weight Apache 2.0

Comparação de benchmarks

Qwen 3.6 35B A3B vs a família Qwen 3.6 e concorrentes

O Qwen 3.6 35B A3B oferece forte desempenho em benchmarks de engenharia de software, operações de terminal e raciocínio com custo mínimo de inferência.

Benchmark	Qwen 3.6 35B A3B MoE Destaque	Qwen 3.6 27B Dense	Qwen 3.6 Plus Proprietário	Qwen 3 235B A22B MoE
SWE-bench Verified Engenharia de software do mundo real	73.4%	77.2%	78.8%	76.2%
Terminal-Bench 2.0 Operações de terminal	51.5	59.3	61.6	-
AIME 2026 Matemática No tools	92.7%	94.1%	-	-
LiveCodeBench v6 Codificação competitiva	80.4	83.9	-	-

Resultados de benchmarks do model card oficial do Qwen 3.6 e avaliações do HuggingFace.

MoE de 256 Especialistas

Capacidade de 35B, custo de inferência de 3B - funciona em GPUs de consumo

O design Mixture-of-Experts roteia cada token por 8 de 256 especialistas mais 1 especialista partilhado. Todos os 35B parâmetros são carregados para diversidade de roteamento, mas apenas 3B são ativados por passagem forward. Combinado com a arquitetura Hybrid Gated DeltaNet + Gated Attention, isto permite implementação em GPUs de consumo com forte desempenho.

3B parâmetros ativos por token de 35B de capacidade total
256 especialistas: 8 roteados + 1 partilhado ativo por token
Funciona localmente em GPUs de consumo com quantização

Começar a Conversar Ver detalhes da arquitetura

Capacidade de 35B, custo de inferência de 3B - funciona em GPUs de consumo

Open Weight

Apache 2.0 - totalmente aberto para uso comercial e ajuste fino

O Qwen 3.6 35B A3B é lançado sob a licença Apache 2.0, permitindo implementação comercial irrestrita, ajuste fino e redistribuição. Descarrega pesos do HuggingFace e implementa na tua própria infraestrutura com controlo total.

Licença Apache 2.0 - sem restrições de uso
Acesso total aos pesos para ajuste fino e personalização
Ecossistema impulsionado pela comunidade com amplo suporte a frameworks

Primeiros passos

Experimenta o Qwen 3.6 35B A3B agora

Começa a conversar instantaneamente, ou descarrega modelos open-weight para implementação auto-alojada.

Conversar com Qwen 3.6 35B A3B

Experimenta o modelo MoE de 256 especialistas instantaneamente - sem configuração necessária

Documentação da API

Integra via endpoints de API compatíveis com OpenAI

Model card

Especificações técnicas completas e resultados de benchmarks

HuggingFace

Repositório oficial do modelo com pesos Apache 2.0

Implementação local

Executa no teu próprio hardware

Implementa localmente em GPUs de consumo com pesos quantizados. Licença Apache 2.0 para uso irrestrito.

Pesos GGUF

Pesos quantizados para llama.cpp e Ollama

Ollama

Implementação local com um comando em hardware de consumo

vLLM

Serving MoE de alto throughput para produção

Ecossistema Qwen

Parte da família de modelos Qwen 3.6

O Qwen 3.6 35B A3B é a variante MoE open-weight da mais recente família de modelos da Alibaba, concebida para máxima acessibilidade em hardware de consumo.

Explorar modelos Qwen Página oficial

Documentação

Guias completos para integração e implementação

Ler docs

HuggingFace

Descarrega pesos Apache 2.0 e explora o hub de modelos

Descarregar

Model Card

Especificações técnicas e resultados de avaliação

Ver detalhes

Repositório GitHub

Código-fonte, exemplos e contribuições da comunidade

Ver código

Acesso à API

Endpoints de API compatíveis com OpenAI para implementação na cloud

Começar

Comunidade

Junta-te à comunidade de programadores Qwen

Participar

Primeiros passos

Pronto para construir com o Qwen 3.6 35B A3B?

Começa a conversar instantaneamente e gratuitamente, ou descarrega modelos open-weight sob Apache 2.0 para implementação auto-alojada em hardware de consumo.

Iniciar Chat Gratuito Descarregar pesos