Qwen 3.6 vs Kimi K2.6
Duas potências agênticas - Kimi K2.6 lidera no Terminal-Bench, Qwen 3.6 lidera no SWE-bench e oferece flexibilidade open-weight
O Kimi K2.6 da Moonshot AI obteve 66,7% no Terminal-Bench 2.0 e sustentou mais de 4.000 chamadas de ferramentas ao longo de 13 horas, demonstrando resistência excecional em agentes de longa duração. O Qwen 3.6 Plus obtém 61,6 no Terminal-Bench mas lidera com 78,8% no SWE-bench Verified e o parâmetro preserve_thinking para manter o estado de raciocínio. O modelo open-weight 27B alcança 77,2% no SWE-bench e 48,2 no SkillsBench (superando o Claude 4.5 Opus). O Qwen oferece modelos open-weight, implementação local e preços de API a $0.40/$2.40 por milhão de tokens.
Benchmarks
Qwen 3.6 vs Kimi K2.6 - comparação abrangente de benchmarks agênticos
Ambos os modelos representam o estado da arte em programação agêntica. O Kimi K2.6 lidera no Terminal-Bench e resistência, enquanto o Qwen 3.6 lidera no SWE-bench, SkillsBench e oferece cobertura de benchmarks mais ampla com opções de implementação open-weight.
O panorama da IA agêntica está a evoluir rapidamente, com tanto o Qwen 3.6 como o Kimi K2.6 a empurrar fronteiras em direções diferentes. A pontuação do Kimi K2.6 no Terminal-Bench (66,7%) e os testes de resistência (mais de 4.000 chamadas de ferramentas ao longo de 13 horas) demonstram capacidades excecionais de agentes de longa duração. O Qwen 3.6 fornece um ecossistema mais completo com 78,8% SWE-bench, modelos open-weight, preserve_thinking, preços competitivos e integração com ferramentas de programação populares.


Terminal-Bench 2.0: Kimi K2.6 66,7% vs Qwen 3.6 Plus 61,6
Kimi K2.6: mais de 4.000 chamadas de ferramentas sustentadas ao longo de 13 horas
Qwen 3.6 Plus: 78,8% SWE-bench Verified
Qwen 3.6 27B: 77,2% SWE-bench, 48,2 SkillsBench (supera o Claude 4.5 Opus)
Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval
Tabela de benchmarks
Qwen 3.6 vs Kimi K2.6 - resultados detalhados em todas as avaliações
Dados de benchmarks disponíveis para ambas as famílias de modelos em programação agêntica, engenharia de software, competências práticas e avaliações de resistência.
| Benchmark | Qwen 3.6 Plus Proprietário | Qwen 3.6 27B Denso open-weight | Qwen 3.6 35B A3B MoE open-weight | Kimi K2.6 Proprietário Líder Terminal-Bench |
|---|---|---|---|---|
Terminal-Bench 2.0 Operações de terminal | 61.6 | 59.3 | 51.5 | 66.7 |
SWE-bench Verified Engenharia de software real | 78.8% | 77.2% | 73.4% | - |
SkillsBench Competências práticas de programação | - | 48.2 | - | - |
LiveCodeBench Geração de código competitiva | - | 83.9 | 80.4 | - |
QwenWebBench Geração de código frontend | - | 1487 | 1397 | - |
Claw-Eval Avg Programação agêntica de ponta a ponta | - | 72.4 | 68.7 | - |
Máx. chamadas de ferramentas (sessão única) Resistência do agente | - | - | - | 4.000+ |
Duração máxima de sessão Operação sustentada | - | - | - | 13 horas |
preserve_thinking Persistência do estado de raciocínio | Sim | Não | Não | Não |
Modelos open-weight Implementação local disponível | Não | Sim (Apache 2.0) | Sim (Apache 2.0) | Não |
Dados do Qwen 3.6 do lançamento oficial (março de 2026). Dados do Kimi K2.6 do lançamento da Moonshot AI (20 de abril de 2026). Referência SkillsBench: Claude 4.5 Opus obtém 45,3.
Ecossistema Qwen
Desempenho agêntico com flexibilidade open-weight e preços competitivos
O Qwen 3.6 combina benchmarks agênticos fortes (78,8% SWE-bench) com modelos open-weight, preserve_thinking, preços a $0.40/M de tokens e integração com Claude Code, OpenClaw, Aider e Continue.dev.
Experimentar Qwen 3.6
Experimenta as capacidades agênticas do Qwen 3.6 hoje - chat gratuito, open-weight, preços competitivos
Conversa gratuitamente, implementa localmente com modelos open-weight sob Apache 2.0 ou integra via API compatível com OpenAI a $0.40/$2.40 por milhão de tokens. preserve_thinking para fluxos de trabalho agênticos, funciona com Claude Code, OpenClaw, Aider e Continue.dev.