Qwen 3.6 vs Kimi K2.6
Dos potencias agénticas - Kimi K2.6 lidera Terminal-Bench, Qwen 3.6 lidera SWE-bench y ofrece flexibilidad de pesos abiertos
Kimi K2.6 de Moonshot AI obtuvo 66.7% en Terminal-Bench 2.0 y sostuvo más de 4,000 llamadas a herramientas durante 13 horas, demostrando una resistencia excepcional en agentes de larga duración. Qwen 3.6 Plus obtiene 61.6 en Terminal-Bench pero lidera con 78.8% en SWE-bench Verified y el parámetro preserve_thinking para mantener el estado de razonamiento. El modelo de pesos abiertos 27B alcanza 77.2% SWE-bench y 48.2 SkillsBench (superando a Claude 4.5 Opus). Qwen ofrece modelos de pesos abiertos, despliegue local y precios de API a $0.40/$2.40 por millón de tokens.
Benchmarks
Qwen 3.6 vs Kimi K2.6 - comparación completa de benchmarks agénticos
Ambos modelos representan el estado del arte en programación agéntica. Kimi K2.6 lidera en Terminal-Bench y resistencia, mientras que Qwen 3.6 lidera en SWE-bench, SkillsBench y ofrece cobertura más amplia de benchmarks con opciones de despliegue de pesos abiertos.
El panorama de la IA agéntica está evolucionando rápidamente, con tanto Qwen 3.6 como Kimi K2.6 empujando límites en diferentes direcciones. El puntaje de Terminal-Bench de Kimi K2.6 (66.7%) y las pruebas de resistencia (más de 4,000 llamadas a herramientas en 13 horas) demuestran capacidades excepcionales de agentes de larga duración. Qwen 3.6 proporciona un ecosistema más completo con 78.8% SWE-bench, modelos de pesos abiertos, preserve_thinking, precios competitivos e integración con herramientas populares de programación.


Terminal-Bench 2.0: Kimi K2.6 66.7% vs Qwen 3.6 Plus 61.6
Kimi K2.6: más de 4,000 llamadas a herramientas sostenidas durante 13 horas
Qwen 3.6 Plus: 78.8% SWE-bench Verified
Qwen 3.6 27B: 77.2% SWE-bench, 48.2 SkillsBench (supera a Claude 4.5 Opus)
Qwen 3.6 27B: 83.9 LiveCodeBench, 1487 QwenWebBench, 72.4 Claw-Eval
Tabla de benchmarks
Qwen 3.6 vs Kimi K2.6 - resultados detallados en todas las evaluaciones
Datos de benchmarks disponibles para ambas familias de modelos en programación agéntica, ingeniería de software, habilidades prácticas y evaluaciones de resistencia.
| Benchmark | Qwen 3.6 Plus Propietario | Qwen 3.6 27B Denso pesos abiertos | Qwen 3.6 35B A3B MoE pesos abiertos | Kimi K2.6 Propietario Líder Terminal-Bench |
|---|---|---|---|---|
Terminal-Bench 2.0 Operaciones de terminal | 61.6 | 59.3 | 51.5 | 66.7 |
SWE-bench Verified Ingeniería de software del mundo real | 78.8% | 77.2% | 73.4% | - |
SkillsBench Habilidades prácticas de programación | - | 48.2 | - | - |
LiveCodeBench Generación de código competitivo | - | 83.9 | 80.4 | - |
QwenWebBench Generación de código frontend | - | 1487 | 1397 | - |
Claw-Eval Avg Programación agéntica de principio a fin | - | 72.4 | 68.7 | - |
Máx. llamadas a herramientas (sesión única) Resistencia del agente | - | - | - | 4,000+ |
Duración máxima de sesión Operación sostenida | - | - | - | 13 horas |
preserve_thinking Persistencia del estado de razonamiento | Sí | No | No | No |
Modelos de pesos abiertos Despliegue local disponible | No | Sí (Apache 2.0) | Sí (Apache 2.0) | No |
Datos de Qwen 3.6 del lanzamiento oficial (marzo 2026). Datos de Kimi K2.6 del lanzamiento de Moonshot AI (20 de abril de 2026). Referencia SkillsBench: Claude 4.5 Opus obtiene 45.3.
Ecosistema Qwen
Rendimiento agéntico con flexibilidad de pesos abiertos y precios competitivos
Qwen 3.6 combina fuertes benchmarks agénticos (78.8% SWE-bench) con modelos de pesos abiertos, preserve_thinking, precios de $0.40/M de tokens e integración con Claude Code, OpenClaw, Aider y Continue.dev.
Probar Qwen 3.6
Experimenta las capacidades agénticas de Qwen 3.6 hoy - chat gratuito, pesos abiertos, precios competitivos
Chatea gratis, despliega localmente con modelos de pesos abiertos bajo Apache 2.0 o integra vía la API compatible con OpenAI a $0.40/$2.40 por millón de tokens. preserve_thinking para flujos agénticos, funciona con Claude Code, OpenClaw, Aider y Continue.dev.