Qwen 3.6 vs Kimi K2.6

Duas potências agênticas - Kimi K2.6 lidera no Terminal-Bench, Qwen 3.6 lidera no SWE-bench e oferece flexibilidade open-weight

O Kimi K2.6 da Moonshot AI pontuou 66,7% no Terminal-Bench 2.0 e sustentou mais de 4.000 chamadas de ferramentas ao longo de 13 horas, demonstrando resistência excepcional em agentes de longa duração. O Qwen 3.6 Plus pontua 61,6 no Terminal-Bench mas lidera com 78,8% no SWE-bench Verified e o parâmetro preserve_thinking para manter o estado de raciocínio. O modelo open-weight 27B alcança 77,2% no SWE-bench e 48,2 no SkillsBench (superando o Claude 4.5 Opus). O Qwen oferece modelos open-weight, implantação local e preços de API a $0.40/$2.40 por milhão de tokens.

Benchmarks

Qwen 3.6 vs Kimi K2.6 - comparação abrangente de benchmarks agênticos

Ambos os modelos representam o estado da arte em programação agêntica. O Kimi K2.6 lidera no Terminal-Bench e resistência, enquanto o Qwen 3.6 lidera no SWE-bench, SkillsBench e oferece cobertura mais ampla de benchmarks com opções de implantação open-weight.

O cenário de IA agêntica está evoluindo rapidamente, com tanto o Qwen 3.6 quanto o Kimi K2.6 empurrando limites em direções diferentes. A pontuação do Kimi K2.6 no Terminal-Bench (66,7%) e testes de resistência (mais de 4.000 chamadas de ferramentas em 13 horas) demonstram capacidades excepcionais de agentes de longa duração. O Qwen 3.6 oferece um ecossistema mais completo com 78,8% SWE-bench, modelos open-weight, preserve_thinking, preços competitivos e integração com ferramentas populares de programação.

Gráfico de comparação de benchmarks mostrando o desempenho do Qwen 3.6 vs Kimi K2.6 em Terminal-Bench, SWE-bench, SkillsBench e benchmarks agênticos

Terminal-Bench 2.0: Kimi K2.6 66,7% vs Qwen 3.6 Plus 61,6

Kimi K2.6: mais de 4.000 chamadas de ferramentas sustentadas por 13 horas

Qwen 3.6 Plus: 78,8% SWE-bench Verified

Qwen 3.6 27B: 77,2% SWE-bench, 48,2 SkillsBench (supera o Claude 4.5 Opus)

Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval

Tabela de benchmarks

Qwen 3.6 vs Kimi K2.6 - resultados detalhados em todas as avaliações

Dados de benchmark disponíveis para ambas as famílias de modelos em programação agêntica, engenharia de software, habilidades práticas e avaliações de resistência.

Benchmark
Qwen 3.6 Plus
Proprietário
Qwen 3.6 27B
Open-weight denso
Qwen 3.6 35B A3B
Open-weight MoE
Kimi K2.6
Proprietário
Líder no Terminal-Bench
Terminal-Bench 2.0
Operações de terminal
61.659.351.566.7
SWE-bench Verified
Engenharia de software do mundo real
78.8%77.2%73.4%-
SkillsBench
Habilidades práticas de programação
-48.2--
LiveCodeBench
Geração de código competitivo
-83.980.4-
QwenWebBench
Geração de código frontend
-14871397-
Claw-Eval Avg
Programação agêntica de ponta a ponta
-72.468.7-
Máx. chamadas de ferramentas (sessão única)
Resistência do agente
---4.000+
Duração máxima da sessão
Operação sustentada
---13 horas
preserve_thinking
Persistência do estado de raciocínio
SimNãoNãoNão
Modelos open-weight
Implantação local disponível
NãoSim (Apache 2.0)Sim (Apache 2.0)Não

Dados do Qwen 3.6 do lançamento oficial (março de 2026). Dados do Kimi K2.6 do lançamento da Moonshot AI (20 de abril de 2026). Referência SkillsBench: Claude 4.5 Opus pontua 45,3.

Ecossistema Qwen

Desempenho agêntico com flexibilidade open-weight e preços competitivos

O Qwen 3.6 combina benchmarks agênticos fortes (78,8% SWE-bench) com modelos open-weight, preserve_thinking, preços de $0.40/M de tokens e integração com Claude Code, OpenClaw, Aider e Continue.dev.

Qwen 3.6 Plus

78,8% SWE-bench, preserve_thinking, $0.40/M

Experimentar Plus

Qwen 3.6 27B

77,2% SWE-bench, 48,2 SkillsBench, open-weight

Experimentar 27B

Qwen 3.6 35B A3B

73,4% SWE-bench, amigável para Mac M4 16GB

Experimentar 35B

Acesso à API

Compatível com OpenAI, nível gratuito disponível

Ver API

Executar localmente

Ollama, vLLM, llama.cpp, SGLang

Começar

Comunidade

Participe da comunidade de desenvolvedores Qwen

Participar

Experimentar Qwen 3.6

Experimente as capacidades agênticas do Qwen 3.6 hoje - chat gratuito, open-weight, preços competitivos

Converse gratuitamente, implante localmente com modelos open-weight sob Apache 2.0 ou integre via API compatível com OpenAI a $0.40/$2.40 por milhão de tokens. preserve_thinking para fluxos agênticos, funciona com Claude Code, OpenClaw, Aider e Continue.dev.