Qwen 3.6 vs Kimi K2.6

Duas potências agênticas - Kimi K2.6 lidera no Terminal-Bench, Qwen 3.6 lidera no SWE-bench e oferece flexibilidade open-weight

O Kimi K2.6 da Moonshot AI obteve 66,7% no Terminal-Bench 2.0 e sustentou mais de 4.000 chamadas de ferramentas ao longo de 13 horas, demonstrando resistência excecional em agentes de longa duração. O Qwen 3.6 Plus obtém 61,6 no Terminal-Bench mas lidera com 78,8% no SWE-bench Verified e o parâmetro preserve_thinking para manter o estado de raciocínio. O modelo open-weight 27B alcança 77,2% no SWE-bench e 48,2 no SkillsBench (superando o Claude 4.5 Opus). O Qwen oferece modelos open-weight, implementação local e preços de API a $0.40/$2.40 por milhão de tokens.

Benchmarks

Qwen 3.6 vs Kimi K2.6 - comparação abrangente de benchmarks agênticos

Ambos os modelos representam o estado da arte em programação agêntica. O Kimi K2.6 lidera no Terminal-Bench e resistência, enquanto o Qwen 3.6 lidera no SWE-bench, SkillsBench e oferece cobertura de benchmarks mais ampla com opções de implementação open-weight.

O panorama da IA agêntica está a evoluir rapidamente, com tanto o Qwen 3.6 como o Kimi K2.6 a empurrar fronteiras em direções diferentes. A pontuação do Kimi K2.6 no Terminal-Bench (66,7%) e os testes de resistência (mais de 4.000 chamadas de ferramentas ao longo de 13 horas) demonstram capacidades excecionais de agentes de longa duração. O Qwen 3.6 fornece um ecossistema mais completo com 78,8% SWE-bench, modelos open-weight, preserve_thinking, preços competitivos e integração com ferramentas de programação populares.

Gráfico de comparação de benchmarks mostrando o desempenho do Qwen 3.6 vs Kimi K2.6 no Terminal-Bench, SWE-bench, SkillsBench e benchmarks agênticos

Terminal-Bench 2.0: Kimi K2.6 66,7% vs Qwen 3.6 Plus 61,6

Kimi K2.6: mais de 4.000 chamadas de ferramentas sustentadas ao longo de 13 horas

Qwen 3.6 Plus: 78,8% SWE-bench Verified

Qwen 3.6 27B: 77,2% SWE-bench, 48,2 SkillsBench (supera o Claude 4.5 Opus)

Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval

Tabela de benchmarks

Qwen 3.6 vs Kimi K2.6 - resultados detalhados em todas as avaliações

Dados de benchmarks disponíveis para ambas as famílias de modelos em programação agêntica, engenharia de software, competências práticas e avaliações de resistência.

Benchmark
Qwen 3.6 Plus
Proprietário
Qwen 3.6 27B
Denso open-weight
Qwen 3.6 35B A3B
MoE open-weight
Kimi K2.6
Proprietário
Líder Terminal-Bench
Terminal-Bench 2.0
Operações de terminal
61.659.351.566.7
SWE-bench Verified
Engenharia de software real
78.8%77.2%73.4%-
SkillsBench
Competências práticas de programação
-48.2--
LiveCodeBench
Geração de código competitiva
-83.980.4-
QwenWebBench
Geração de código frontend
-14871397-
Claw-Eval Avg
Programação agêntica de ponta a ponta
-72.468.7-
Máx. chamadas de ferramentas (sessão única)
Resistência do agente
---4.000+
Duração máxima de sessão
Operação sustentada
---13 horas
preserve_thinking
Persistência do estado de raciocínio
SimNãoNãoNão
Modelos open-weight
Implementação local disponível
NãoSim (Apache 2.0)Sim (Apache 2.0)Não

Dados do Qwen 3.6 do lançamento oficial (março de 2026). Dados do Kimi K2.6 do lançamento da Moonshot AI (20 de abril de 2026). Referência SkillsBench: Claude 4.5 Opus obtém 45,3.

Ecossistema Qwen

Desempenho agêntico com flexibilidade open-weight e preços competitivos

O Qwen 3.6 combina benchmarks agênticos fortes (78,8% SWE-bench) com modelos open-weight, preserve_thinking, preços a $0.40/M de tokens e integração com Claude Code, OpenClaw, Aider e Continue.dev.

Qwen 3.6 Plus

78,8% SWE-bench, preserve_thinking, $0.40/M

Experimentar Plus

Qwen 3.6 27B

77,2% SWE-bench, 48,2 SkillsBench, open-weight

Experimentar 27B

Qwen 3.6 35B A3B

73,4% SWE-bench, amigável para Mac M4 16GB

Experimentar 35B

Acesso API

Compatível com OpenAI, nível gratuito disponível

Ver API

Executar localmente

Ollama, vLLM, llama.cpp, SGLang

Começar

Comunidade

Junta-te à comunidade de programadores Qwen

Aderir

Experimentar Qwen 3.6

Experimenta as capacidades agênticas do Qwen 3.6 hoje - chat gratuito, open-weight, preços competitivos

Conversa gratuitamente, implementa localmente com modelos open-weight sob Apache 2.0 ou integra via API compatível com OpenAI a $0.40/$2.40 por milhão de tokens. preserve_thinking para fluxos de trabalho agênticos, funciona com Claude Code, OpenClaw, Aider e Continue.dev.