Qwen Code

Programação agêntica que resolve issues reais do GitHub, domina fluxos de terminal e supera o Claude no SkillsBench

A família Qwen 3.6 entrega desempenho de elite em programação em todas as dimensões. O modelo Plus pontua 78,8% no SWE-bench Verified e 61,6 no Terminal-Bench 2.0. O modelo denso 27B alcança 77,2% no SWE-bench, 48,2 no SkillsBench (superando o Claude 4.5 Opus com 45,3) e 1487 no QwenWebBench para geração de código frontend. O 35B A3B MoE traz 73,4% no SWE-bench em um footprint de GPU de consumo. Todos os modelos funcionam com Claude Code, OpenClaw, Aider e Continue.dev via API compatível com OpenAI. O preserve_thinking mantém o estado de raciocínio entre iterações de loops de agentes para desenvolvimento iterativo.

Capacidades de programação

Programação full-stack do terminal à produção - com preservação de raciocínio

Os modelos Qwen 3.6 se destacam em cada etapa do ciclo de vida de desenvolvimento de software. Desde entender grandes bases de código e gerar código até depurar, testar e implantar através de fluxos de terminal. O parâmetro preserve_thinking mantém o contexto de raciocínio entre ciclos de desenvolvimento iterativo.

Programação agêntica (SWE-bench)

Resolve autonomamente issues reais do GitHub de ponta a ponta. 78,8% no SWE-bench Verified (Plus) e 77,2% (27B) demonstram a capacidade de navegar repositórios, identificar causas raiz, implementar correções e enviar patches funcionais sem intervenção humana. O 35B A3B alcança 73,4% em um footprint de GPU de consumo. Essas pontuações colocam o Qwen 3.6 entre os melhores modelos para engenharia de software autônoma.

Geração de código frontend (QwenWebBench)

O modelo 27B pontua 1487 no QwenWebBench e o 35B A3B pontua 1397, demonstrando fortes capacidades de geração de código frontend. Gera componentes completos em React, Vue e Next.js com tipagem TypeScript adequada, atributos de acessibilidade, layouts responsivos e integração com design systems. Lida com CSS-in-JS, Tailwind CSS e padrões de bibliotecas de componentes. O parâmetro preserve_thinking ajuda a manter o contexto de design durante scaffolding frontend multi-arquivo.

Operações de terminal (Terminal-Bench)

61,6 no Terminal-Bench 2.0 (Plus) e 59,3 (27B) - domínio de terminal em nível especialista. Lida com fluxos de trabalho complexos multi-etapas no shell, tarefas de administração de sistemas, sessões de depuração, gerenciamento de pipelines CI/CD, orquestração Docker e automação de infraestrutura. O 35B A3B pontua 51,5, ainda forte para um modelo de GPU de consumo.

SkillsBench - supera o Claude 4.5 Opus

O modelo 27B pontua 48,2 no SkillsBench, superando o Claude 4.5 Opus com 45,3. O SkillsBench avalia habilidades práticas de programação incluindo revisão de código, refatoração, design de API, estratégia de testes e tomada de decisões arquiteturais. Este benchmark mede o tipo de julgamento de engenharia refinado que importa no desenvolvimento do mundo real, não apenas geração de código.

Raciocínio em nível de repositório (NL2Repo)

O modelo 27B pontua 36,2 no NL2Repo, demonstrando a capacidade de traduzir descrições em linguagem natural em estruturas completas de repositório. Entende dependências entre arquivos, limites de módulos, padrões arquiteturais e convenções de projeto em repositórios inteiros. A janela de contexto de 1M (Plus) permite processar bases de código completas em uma única passagem para compreensão abrangente.

Geração de código (LiveCodeBench)

83,9 no LiveCodeBench (27B) e 80,4 (35B A3B) para geração de código em nível competitivo. Produz código limpo e idiomático em Python, TypeScript, Rust, Go, Java, C++ e mais de 20 linguagens com tratamento adequado de erros, documentação e cobertura de testes. Lida com problemas algorítmicos, implementações de estruturas de dados e desafios de design de sistemas.

Integração com ferramentas de programação

Funciona com Claude Code, OpenClaw, Aider, Continue.dev e Qwen Code via API compatível com OpenAI. Defina a URL base para seu endpoint DashScope, OpenRouter ou Ollama local e comece a programar imediatamente. O parâmetro preserve_thinking é especialmente valioso em loops de agentes do Claude Code e OpenClaw onde manter o estado de raciocínio entre iterações reduz re-raciocínio redundante e melhora a precisão das correções.

Depuração, testes e Claw-Eval

O modelo 27B pontua 72,4 na média do Claw-Eval e o 35B A3B pontua 68,7, medindo capacidade de programação agêntica de ponta a ponta. Rastreia bugs através de pilhas de chamadas complexas, identifica causas raiz a partir de logs de erro e gera suítes de testes abrangentes. Suporta testes unitários, testes de integração, frameworks de testes end-to-end e testes baseados em propriedades em todas as principais linguagens e frameworks.

Benchmarks de programação

Resultados de ponta em todas as avaliações de programação

Os modelos Qwen 3.6 consistentemente se classificam entre os melhores em benchmarks de engenharia de software, geração de código, operações de terminal e habilidades práticas de programação.

Benchmarks de engenharia de software

  • SWE-bench Verified: 78,8% (Plus) / 77,2% (27B) / 73,4% (35B A3B)
  • Terminal-Bench 2.0: 61,6 (Plus) / 59,3 (27B) / 51,5 (35B A3B)
  • SkillsBench: 48,2 (27B) - supera o Claude 4.5 Opus (45,3)
  • Claw-Eval Avg: 72,4 (27B) / 68,7 (35B A3B)
  • LiveCodeBench: 83,9 (27B) / 80,4 (35B A3B)
  • QwenWebBench: 1487 (27B) / 1397 (35B A3B) - geração frontend
  • NL2Repo: 36,2 (27B) - linguagem natural para repositório
  • SWE-bench Pro: 56,6 (Plus)

Ferramentas e opções de modelo

  • Funciona com: Claude Code, OpenClaw, Aider, Continue.dev, Qwen Code
  • 27B Denso: Melhor programação open-weight, 77,2% SWE-bench
  • 35B A3B MoE: 73,4% SWE-bench em GPU de consumo (~21GB de VRAM)
  • Plus: 78,8% SWE-bench, contexto de 1M, preserve_thinking
  • Frontend: React, Vue, Next.js com suporte a TypeScript
  • preserve_thinking: mantém raciocínio entre iterações de agentes

Ecossistema Qwen

Modelos de programação para cada escala - de GPU de consumo a desempenho de fronteira

Do 35B A3B que roda em uma única GPU de consumo ao Plus com contexto de 1M e preserve_thinking, a família Qwen 3.6 cobre cada cenário de implantação para programação. Todos os modelos funcionam com Claude Code, OpenClaw, Aider e Continue.dev.

Qwen 3.6 27B

Denso, 77,2% SWE-bench, 48,2 SkillsBench

Saiba mais

Qwen 3.6 35B A3B

MoE, 73,4% SWE-bench, GPU de consumo

Saiba mais

Qwen 3.6 Plus

78,8% SWE-bench, contexto de 1M, preserve_thinking

Saiba mais

Configuração Ollama

Execute o Qwen Code localmente com um comando

Começar

Referência da API

Endpoints compatíveis com OpenAI para tarefas de programação

Ver API

Comunidade

Participe da comunidade de desenvolvedores Qwen

Participar

Comece a programar

Pronto para programar com o Qwen 3.6? 78,8% SWE-bench, funciona com suas ferramentas favoritas

Comece a conversar gratuitamente ou integre via API compatível com OpenAI. Funciona com Claude Code, OpenClaw, Aider e Continue.dev. Escolha entre modelos open-weight que você pode executar localmente ou o Plus para desempenho máximo com preserve_thinking.