Qwen 3.6 vs Kimi K2.6
Deux poids lourds de l'agentique — Kimi K2.6 domine Terminal-Bench, Qwen 3.6 domine SWE-bench et offre la flexibilité open-weight
Kimi K2.6 de Moonshot AI a obtenu 66.7% sur Terminal-Bench 2.0 et maintenu plus de 4 000 appels d'outils sur 13 heures, démontrant une endurance exceptionnelle pour les agents longue durée. Qwen 3.6 Plus obtient 61.6 sur Terminal-Bench mais mène avec 78.8% SWE-bench Verified et le paramètre preserve_thinking pour maintenir l'état de raisonnement. Le modèle open-weight 27B atteint 77.2% SWE-bench et 48.2 SkillsBench (dépassant Claude 4.5 Opus). Qwen propose des modèles open-weight, le déploiement local et une tarification API à $0.40/$2.40 par million de tokens.
Benchmarks
Qwen 3.6 vs Kimi K2.6 — comparatif complet des benchmarks agentiques
Les deux modèles représentent l'état de l'art en codage agentique. Kimi K2.6 mène sur Terminal-Bench et l'endurance, tandis que Qwen 3.6 mène sur SWE-bench, SkillsBench et offre une couverture de benchmarks plus large avec des options de déploiement open-weight.
Le paysage de l'IA agentique évolue rapidement, avec Qwen 3.6 et Kimi K2.6 repoussant les limites dans des directions différentes. Le score Terminal-Bench de Kimi K2.6 (66.7%) et ses tests d'endurance (plus de 4 000 appels d'outils sur 13 heures) démontrent des capacités exceptionnelles pour les agents longue durée. Qwen 3.6 offre un écosystème plus complet avec 78.8% SWE-bench, des modèles open-weight, preserve_thinking, une tarification compétitive et l'intégration avec les outils de programmation populaires.


Terminal-Bench 2.0 : Kimi K2.6 66.7% vs Qwen 3.6 Plus 61.6
Kimi K2.6 : plus de 4 000 appels d'outils maintenus sur 13 heures
Qwen 3.6 Plus : 78.8% SWE-bench Verified
Qwen 3.6 27B : 77.2% SWE-bench, 48.2 SkillsBench (dépasse Claude 4.5 Opus)
Qwen 3.6 27B : 83.9 LiveCodeBench, 1487 QwenWebBench, 72.4 Claw-Eval
Tableau des benchmarks
Qwen 3.6 vs Kimi K2.6 — résultats détaillés sur toutes les évaluations
Données de benchmark disponibles pour les deux familles de modèles en codage agentique, ingénierie logicielle, compétences pratiques et évaluations d'endurance.
| Benchmark | Qwen 3.6 Plus Propriétaire | Qwen 3.6 27B Dense open-weight | Qwen 3.6 35B A3B MoE open-weight | Kimi K2.6 Propriétaire Leader Terminal-Bench |
|---|---|---|---|---|
Terminal-Bench 2.0 Opérations terminal | 61.6 | 59.3 | 51.5 | 66.7 |
SWE-bench Verified Ingénierie logicielle réelle | 78.8% | 77.2% | 73.4% | - |
SkillsBench Compétences pratiques en programmation | - | 48.2 | - | - |
LiveCodeBench Génération de code compétitive | - | 83.9 | 80.4 | - |
QwenWebBench Génération de code frontend | - | 1487 | 1397 | - |
Claw-Eval Avg Codage agentique de bout en bout | - | 72.4 | 68.7 | - |
Max tool calls (single session) Endurance de l'agent | - | - | - | 4 000+ |
Max session duration Fonctionnement soutenu | - | - | - | 13 heures |
preserve_thinking Persistance de l'état de raisonnement | Oui | Non | Non | Non |
Open-weight models Déploiement local disponible | Non | Oui (Apache 2.0) | Oui (Apache 2.0) | Non |
Données Qwen 3.6 de la publication officielle (mars 2026). Données Kimi K2.6 de la publication Moonshot AI (20 avril 2026). Référence SkillsBench : Claude 4.5 Opus obtient 45.3.
Écosystème Qwen
Performances agentiques avec flexibilité open-weight et tarification compétitive
Qwen 3.6 combine de solides benchmarks agentiques (78.8% SWE-bench) avec des modèles open-weight, preserve_thinking, une tarification à $0.40/M tokens et l'intégration avec Claude Code, OpenClaw, Aider et Continue.dev.
Essayer Qwen 3.6
Découvrez les capacités agentiques de Qwen 3.6 dès aujourd'hui — chat gratuit, open-weight, tarification compétitive
Discutez gratuitement, déployez localement avec les modèles open-weight sous Apache 2.0, ou intégrez via l'API compatible OpenAI à $0.40/$2.40 par million de tokens. preserve_thinking pour les workflows agentiques, compatible avec Claude Code, OpenClaw, Aider et Continue.dev.