Qwen 3.6 vs Kimi K2.6

Dos potencias agénticas: Kimi K2.6 lidera en Terminal-Bench, Qwen 3.6 lidera en SWE-bench y ofrece flexibilidad de pesos abiertos

Kimi K2.6 de Moonshot AI alcanzó un 66,7% en Terminal-Bench 2.0 y mantuvo más de 4.000 llamadas a herramientas durante 13 horas, demostrando una resistencia excepcional en agentes de larga duración. Qwen 3.6 Plus puntúa 61,6 en Terminal-Bench pero lidera con un 78,8% en SWE-bench Verified y el parámetro preserve_thinking para mantener el estado de razonamiento. El modelo de pesos abiertos 27B alcanza un 77,2% en SWE-bench y 48,2 en SkillsBench (superando a Claude 4.5 Opus). Qwen ofrece modelos de pesos abiertos, despliegue local y precios de API de $0,40/$2,40 por millón de tokens.

Benchmarks

Qwen 3.6 vs Kimi K2.6 - comparativa completa de benchmarks agénticos

Ambos modelos representan el estado del arte en programación agéntica. Kimi K2.6 lidera en Terminal-Bench y resistencia, mientras que Qwen 3.6 lidera en SWE-bench, SkillsBench y ofrece mayor cobertura de benchmarks con opciones de despliegue de pesos abiertos.

El panorama de la IA agéntica evoluciona rápidamente, con Qwen 3.6 y Kimi K2.6 empujando los límites en direcciones diferentes. La puntuación de Terminal-Bench de Kimi K2.6 (66,7%) y sus pruebas de resistencia (más de 4.000 llamadas a herramientas durante 13 horas) demuestran capacidades excepcionales de agentes de larga duración. Qwen 3.6 proporciona un ecosistema más completo con 78,8% en SWE-bench, modelos de pesos abiertos, preserve_thinking, precios competitivos e integración con herramientas de programación populares.

Gráfico comparativo de benchmarks mostrando el rendimiento de Qwen 3.6 vs Kimi K2.6 en Terminal-Bench, SWE-bench, SkillsBench y benchmarks agénticos

Terminal-Bench 2.0: Kimi K2.6 66,7% vs Qwen 3.6 Plus 61,6

Kimi K2.6: más de 4.000 llamadas a herramientas sostenidas durante 13 horas

Qwen 3.6 Plus: 78,8% SWE-bench Verified

Qwen 3.6 27B: 77,2% SWE-bench, 48,2 SkillsBench (supera a Claude 4.5 Opus)

Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval

Tabla de benchmarks

Qwen 3.6 vs Kimi K2.6 - resultados detallados en todas las evaluaciones

Datos de benchmarks disponibles para ambas familias de modelos en programación agéntica, ingeniería de software, habilidades prácticas y evaluaciones de resistencia.

Benchmark
Qwen 3.6 Plus
Propietario
Qwen 3.6 27B
Denso pesos abiertos
Qwen 3.6 35B A3B
MoE pesos abiertos
Kimi K2.6
Propietario
Líder en Terminal-Bench
Terminal-Bench 2.0
Operaciones de terminal
61.659.351.566.7
SWE-bench Verified
Ingeniería de software real
78.8%77.2%73.4%-
SkillsBench
Habilidades prácticas de programación
-48.2--
LiveCodeBench
Generación de código competitivo
-83.980.4-
QwenWebBench
Generación de código frontend
-14871397-
Claw-Eval Avg
Programación agéntica de extremo a extremo
-72.468.7-
Max tool calls (single session)
Resistencia del agente
---4,000+
Max session duration
Operación sostenida
---13 hours
preserve_thinking
Persistencia del estado de razonamiento
YesNoNoNo
Open-weight models
Despliegue local disponible
NoYes (Apache 2.0)Yes (Apache 2.0)No

Datos de Qwen 3.6 de la publicación oficial (marzo 2026). Datos de Kimi K2.6 de la publicación de Moonshot AI (20 de abril de 2026). Referencia de SkillsBench: Claude 4.5 Opus puntúa 45,3.

Ecosistema Qwen

Rendimiento agéntico con flexibilidad de pesos abiertos y precios competitivos

Qwen 3.6 combina sólidos benchmarks agénticos (78,8% SWE-bench) con modelos de pesos abiertos, preserve_thinking, precios de $0,40/M de tokens e integración con Claude Code, OpenClaw, Aider y Continue.dev.

Qwen 3.6 Plus

78,8% SWE-bench, preserve_thinking, $0,40/M

Probar Plus

Qwen 3.6 27B

77,2% SWE-bench, 48,2 SkillsBench, pesos abiertos

Probar 27B

Qwen 3.6 35B A3B

73,4% SWE-bench, compatible con Mac M4 16 GB

Probar 35B

Acceso a la API

Compatible con OpenAI, nivel gratuito disponible

Ver API

Ejecutar en local

Ollama, vLLM, llama.cpp, SGLang

Empezar

Comunidad

Únete a la comunidad de desarrolladores Qwen

Unirse

Probar Qwen 3.6

Experimenta las capacidades agénticas de Qwen 3.6 hoy: chat gratuito, pesos abiertos, precios competitivos

Chatea gratis, despliega en local con modelos de pesos abiertos con Apache 2.0 o integra a través de la API compatible con OpenAI a $0,40/$2,40 por millón de tokens. preserve_thinking para flujos de trabajo agénticos, compatible con Claude Code, OpenClaw, Aider y Continue.dev.