Qwen Code

Programação agêntica que resolve issues reais do GitHub, domina fluxos de terminal e supera o Claude no SkillsBench

A família Qwen 3.6 entrega desempenho de elite em programação em todas as dimensões. O modelo Plus obtém 78,8% no SWE-bench Verified e 61,6 no Terminal-Bench 2.0. O modelo denso 27B alcança 77,2% no SWE-bench, 48,2 no SkillsBench (superando o Claude 4.5 Opus com 45,3) e 1487 no QwenWebBench para geração de código frontend. O 35B A3B MoE traz 73,4% no SWE-bench numa pegada de GPU de consumo. Todos os modelos funcionam com Claude Code, OpenClaw, Aider e Continue.dev via API compatível com OpenAI. O preserve_thinking mantém o estado de raciocínio entre iterações de ciclos de agentes para desenvolvimento iterativo.

Capacidades de programação

Programação full-stack do terminal à produção - com preservação de raciocínio

Os modelos Qwen 3.6 destacam-se em todas as fases do ciclo de vida de desenvolvimento de software. Desde a compreensão de grandes bases de código e geração de código até à depuração, testes e implementação através de fluxos de trabalho de terminal. O parâmetro preserve_thinking mantém o contexto de raciocínio ao longo de ciclos de desenvolvimento iterativo.

Programação agêntica (SWE-bench)

Resolve autonomamente issues reais do GitHub de ponta a ponta. 78,8% no SWE-bench Verified (Plus) e 77,2% (27B) demonstram a capacidade de navegar repositórios, identificar causas raiz, implementar correções e submeter patches funcionais sem intervenção humana. O 35B A3B alcança 73,4% numa pegada de GPU de consumo. Estas pontuações colocam o Qwen 3.6 entre os melhores modelos para engenharia de software autónoma.

Geração de código frontend (QwenWebBench)

O modelo 27B obtém 1487 no QwenWebBench e o 35B A3B obtém 1397, demonstrando fortes capacidades de geração de código frontend. Gera componentes completos em React, Vue e Next.js com tipagem TypeScript adequada, atributos de acessibilidade, layouts responsivos e integração com sistemas de design. Lida com CSS-in-JS, Tailwind CSS e padrões de bibliotecas de componentes. O parâmetro preserve_thinking ajuda a manter o contexto de design ao longo da criação de estruturas frontend multi-ficheiro.

Operações de terminal (Terminal-Bench)

61,6 no Terminal-Bench 2.0 (Plus) e 59,3 (27B) - domínio de terminal ao nível de especialista. Lida com fluxos de trabalho complexos de shell multi-passo, tarefas de administração de sistemas, sessões de depuração, gestão de pipelines CI/CD, orquestração Docker e automação de infraestrutura. O 35B A3B obtém 51,5, ainda forte para um modelo de GPU de consumo.

SkillsBench - supera o Claude 4.5 Opus

O modelo 27B obtém 48,2 no SkillsBench, superando o Claude 4.5 Opus com 45,3. O SkillsBench avalia competências práticas de programação incluindo revisão de código, refatorização, design de API, estratégia de testes e tomada de decisões arquiteturais. Este benchmark mede o tipo de julgamento de engenharia matizado que importa no desenvolvimento real, não apenas geração de código.

Raciocínio ao nível de repositório (NL2Repo)

O modelo 27B obtém 36,2 no NL2Repo, demonstrando a capacidade de traduzir descrições em linguagem natural em estruturas de repositório completas. Compreende dependências entre ficheiros, limites de módulos, padrões arquiteturais e convenções de projeto em repositórios inteiros. A janela de contexto de 1M (Plus) permite processar bases de código completas numa única passagem para compreensão abrangente.

Geração de código (LiveCodeBench)

83,9 no LiveCodeBench (27B) e 80,4 (35B A3B) para geração de código de nível competitivo. Produz código limpo e idiomático em Python, TypeScript, Rust, Go, Java, C++ e mais de 20 linguagens com tratamento adequado de erros, documentação e cobertura de testes. Lida com problemas algorítmicos, implementações de estruturas de dados e desafios de design de sistemas.

Integração com ferramentas de programação

Funciona com Claude Code, OpenClaw, Aider, Continue.dev e Qwen Code via API compatível com OpenAI. Define o URL base para o teu endpoint DashScope, OpenRouter ou Ollama local e começa a programar imediatamente. O parâmetro preserve_thinking é especialmente valioso nos ciclos de agentes do Claude Code e OpenClaw onde manter o estado de raciocínio entre iterações reduz o re-raciocínio redundante e melhora a precisão das correções.

Depuração, testes e Claw-Eval

O modelo 27B obtém 72,4 na média do Claw-Eval e o 35B A3B obtém 68,7, medindo a capacidade de programação agêntica de ponta a ponta. Rastreia bugs através de pilhas de chamadas complexas, identifica causas raiz a partir de registos de erros e gera suítes de testes abrangentes. Suporta testes unitários, testes de integração, frameworks de testes end-to-end e testes baseados em propriedades em todas as principais linguagens e frameworks.

Benchmarks de programação

Resultados de topo em todas as avaliações de programação

Os modelos Qwen 3.6 classificam-se consistentemente entre os melhores em engenharia de software, geração de código, operações de terminal e benchmarks de competências práticas de programação.

Benchmarks de engenharia de software

  • SWE-bench Verified: 78,8% (Plus) / 77,2% (27B) / 73,4% (35B A3B)
  • Terminal-Bench 2.0: 61,6 (Plus) / 59,3 (27B) / 51,5 (35B A3B)
  • SkillsBench: 48,2 (27B) - supera o Claude 4.5 Opus (45,3)
  • Claw-Eval Avg: 72,4 (27B) / 68,7 (35B A3B)
  • LiveCodeBench: 83,9 (27B) / 80,4 (35B A3B)
  • QwenWebBench: 1487 (27B) / 1397 (35B A3B) - geração frontend
  • NL2Repo: 36,2 (27B) - linguagem natural para repositório
  • SWE-bench Pro: 56,6 (Plus)

Ferramentas e opções de modelos

  • Funciona com: Claude Code, OpenClaw, Aider, Continue.dev, Qwen Code
  • 27B Denso: Melhor programação open-weight, 77,2% SWE-bench
  • 35B A3B MoE: 73,4% SWE-bench em GPU de consumo (~21GB de VRAM)
  • Plus: 78,8% SWE-bench, contexto 1M, preserve_thinking
  • Frontend: React, Vue, Next.js com suporte TypeScript
  • preserve_thinking: mantém raciocínio entre iterações de agentes

Ecossistema Qwen

Modelos de programação para cada escala - de GPU de consumo a desempenho de fronteira

Do 35B A3B que funciona numa única GPU de consumo ao Plus com contexto de 1M e preserve_thinking, a família Qwen 3.6 cobre todos os cenários de implementação para programação. Todos os modelos funcionam com Claude Code, OpenClaw, Aider e Continue.dev.

Qwen 3.6 27B

Denso, 77,2% SWE-bench, 48,2 SkillsBench

Saber mais

Qwen 3.6 35B A3B

MoE, 73,4% SWE-bench, GPU de consumo

Saber mais

Qwen 3.6 Plus

78,8% SWE-bench, contexto 1M, preserve_thinking

Saber mais

Configuração Ollama

Executa o Qwen Code localmente com um comando

Começar

Referência da API

Endpoints compatíveis com OpenAI para tarefas de programação

Ver API

Comunidade

Junta-te à comunidade de programadores Qwen

Aderir

Começar a programar

Pronto para programar com o Qwen 3.6? 78,8% SWE-bench, funciona com as tuas ferramentas favoritas

Começa a conversar gratuitamente ou integra via API compatível com OpenAI. Funciona com Claude Code, OpenClaw, Aider e Continue.dev. Escolhe entre modelos open-weight que podes executar localmente ou o Plus para desempenho máximo com preserve_thinking.