Qwen 3.6 vs Kimi K2.6
Dos potencias agénticas: Kimi K2.6 lidera en Terminal-Bench, Qwen 3.6 lidera en SWE-bench y ofrece flexibilidad de pesos abiertos
Kimi K2.6 de Moonshot AI alcanzó un 66,7% en Terminal-Bench 2.0 y mantuvo más de 4.000 llamadas a herramientas durante 13 horas, demostrando una resistencia excepcional en agentes de larga duración. Qwen 3.6 Plus puntúa 61,6 en Terminal-Bench pero lidera con un 78,8% en SWE-bench Verified y el parámetro preserve_thinking para mantener el estado de razonamiento. El modelo de pesos abiertos 27B alcanza un 77,2% en SWE-bench y 48,2 en SkillsBench (superando a Claude 4.5 Opus). Qwen ofrece modelos de pesos abiertos, despliegue local y precios de API de $0,40/$2,40 por millón de tokens.
Benchmarks
Qwen 3.6 vs Kimi K2.6 - comparativa completa de benchmarks agénticos
Ambos modelos representan el estado del arte en programación agéntica. Kimi K2.6 lidera en Terminal-Bench y resistencia, mientras que Qwen 3.6 lidera en SWE-bench, SkillsBench y ofrece mayor cobertura de benchmarks con opciones de despliegue de pesos abiertos.
El panorama de la IA agéntica evoluciona rápidamente, con Qwen 3.6 y Kimi K2.6 empujando los límites en direcciones diferentes. La puntuación de Terminal-Bench de Kimi K2.6 (66,7%) y sus pruebas de resistencia (más de 4.000 llamadas a herramientas durante 13 horas) demuestran capacidades excepcionales de agentes de larga duración. Qwen 3.6 proporciona un ecosistema más completo con 78,8% en SWE-bench, modelos de pesos abiertos, preserve_thinking, precios competitivos e integración con herramientas de programación populares.


Terminal-Bench 2.0: Kimi K2.6 66,7% vs Qwen 3.6 Plus 61,6
Kimi K2.6: más de 4.000 llamadas a herramientas sostenidas durante 13 horas
Qwen 3.6 Plus: 78,8% SWE-bench Verified
Qwen 3.6 27B: 77,2% SWE-bench, 48,2 SkillsBench (supera a Claude 4.5 Opus)
Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval
Tabla de benchmarks
Qwen 3.6 vs Kimi K2.6 - resultados detallados en todas las evaluaciones
Datos de benchmarks disponibles para ambas familias de modelos en programación agéntica, ingeniería de software, habilidades prácticas y evaluaciones de resistencia.
| Benchmark | Qwen 3.6 Plus Propietario | Qwen 3.6 27B Denso pesos abiertos | Qwen 3.6 35B A3B MoE pesos abiertos | Kimi K2.6 Propietario Líder en Terminal-Bench |
|---|---|---|---|---|
Terminal-Bench 2.0 Operaciones de terminal | 61.6 | 59.3 | 51.5 | 66.7 |
SWE-bench Verified Ingeniería de software real | 78.8% | 77.2% | 73.4% | - |
SkillsBench Habilidades prácticas de programación | - | 48.2 | - | - |
LiveCodeBench Generación de código competitivo | - | 83.9 | 80.4 | - |
QwenWebBench Generación de código frontend | - | 1487 | 1397 | - |
Claw-Eval Avg Programación agéntica de extremo a extremo | - | 72.4 | 68.7 | - |
Max tool calls (single session) Resistencia del agente | - | - | - | 4,000+ |
Max session duration Operación sostenida | - | - | - | 13 hours |
preserve_thinking Persistencia del estado de razonamiento | Yes | No | No | No |
Open-weight models Despliegue local disponible | No | Yes (Apache 2.0) | Yes (Apache 2.0) | No |
Datos de Qwen 3.6 de la publicación oficial (marzo 2026). Datos de Kimi K2.6 de la publicación de Moonshot AI (20 de abril de 2026). Referencia de SkillsBench: Claude 4.5 Opus puntúa 45,3.
Ecosistema Qwen
Rendimiento agéntico con flexibilidad de pesos abiertos y precios competitivos
Qwen 3.6 combina sólidos benchmarks agénticos (78,8% SWE-bench) con modelos de pesos abiertos, preserve_thinking, precios de $0,40/M de tokens e integración con Claude Code, OpenClaw, Aider y Continue.dev.
Probar Qwen 3.6
Experimenta las capacidades agénticas de Qwen 3.6 hoy: chat gratuito, pesos abiertos, precios competitivos
Chatea gratis, despliega en local con modelos de pesos abiertos con Apache 2.0 o integra a través de la API compatible con OpenAI a $0,40/$2,40 por millón de tokens. preserve_thinking para flujos de trabajo agénticos, compatible con Claude Code, OpenClaw, Aider y Continue.dev.