Qwen 3.6 vs Kimi K2.6
Zwei agentische Kraftpakete - Kimi K2.6 führt bei Terminal-Bench, Qwen 3.6 bei SWE-bench mit Open-Weight-Flexibilität
Kimi K2.6 von Moonshot AI erreichte 66,7 % bei Terminal-Bench 2.0 und hielt 4.000+ Tool-Aufrufe über 13 Stunden durch - eine beeindruckende Ausdauerleistung für Langzeit-Agenten. Qwen 3.6 Plus erzielt 61,6 bei Terminal-Bench, führt aber mit 78,8 % SWE-bench Verified und dem preserve_thinking-Parameter zur Erhaltung des Denkzustands. Das Open-Weight-Modell 27B erreicht 77,2 % SWE-bench und 48,2 SkillsBench (besser als Claude 4.5 Opus). Qwen bietet Open-Weight-Modelle, lokales Deployment und API-Preise ab $0,40/$2,40 pro Million Tokens.
Benchmarks
Qwen 3.6 vs Kimi K2.6 - umfassender agentischer Benchmark-Vergleich
Beide Modelle repräsentieren den Stand der Technik im agentischen Programmieren. Kimi K2.6 führt bei Terminal-Bench und Ausdauer, während Qwen 3.6 bei SWE-bench, SkillsBench führt und breitere Benchmark-Abdeckung mit Open-Weight-Deployment-Optionen bietet.
Die agentische KI-Landschaft entwickelt sich rasant, wobei sowohl Qwen 3.6 als auch Kimi K2.6 Grenzen in verschiedene Richtungen verschieben. Kimi K2.6s Terminal-Bench-Ergebnis (66,7 %) und Ausdauertests (4.000+ Tool-Aufrufe über 13 Stunden) demonstrieren außergewöhnliche Langzeit-Agenten-Fähigkeiten. Qwen 3.6 bietet ein vollständigeres Ökosystem mit 78,8 % SWE-bench, Open-Weight-Modellen, preserve_thinking, wettbewerbsfähigen Preisen und Integration mit beliebten Coding-Tools.


Terminal-Bench 2.0: Kimi K2.6 66,7 % vs Qwen 3.6 Plus 61,6
Kimi K2.6: 4.000+ Tool-Aufrufe über 13 Stunden durchgehalten
Qwen 3.6 Plus: 78,8 % SWE-bench Verified
Qwen 3.6 27B: 77,2 % SWE-bench, 48,2 SkillsBench (übertrifft Claude 4.5 Opus)
Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval
Benchmark-Tabelle
Qwen 3.6 vs Kimi K2.6 - detaillierte Ergebnisse aller Evaluierungen
Verfügbare Benchmark-Daten für beide Modellfamilien bei agentischem Programmieren, Software-Engineering, praktischen Fähigkeiten und Ausdauer-Evaluierungen.
| Benchmark | Qwen 3.6 Plus Proprietär | Qwen 3.6 27B Dense Open-Weight | Qwen 3.6 35B A3B MoE Open-Weight | Kimi K2.6 Proprietär Terminal-Bench-Spitzenreiter |
|---|---|---|---|---|
Terminal-Bench 2.0 Terminal-Operationen | 61.6 | 59.3 | 51.5 | 66.7 |
SWE-bench Verified Reale Software-Engineering-Aufgaben | 78.8% | 77.2% | 73.4% | - |
SkillsBench Praktische Programmierfähigkeiten | - | 48.2 | - | - |
LiveCodeBench Wettbewerbsorientierte Code-Generierung | - | 83.9 | 80.4 | - |
QwenWebBench Frontend-Code-Generierung | - | 1487 | 1397 | - |
Claw-Eval Avg End-to-End agentisches Programmieren | - | 72.4 | 68.7 | - |
Max tool calls (single session) Agenten-Ausdauer | - | - | - | 4,000+ |
Max session duration Anhaltender Betrieb | - | - | - | 13 hours |
preserve_thinking Reasoning-Zustandspersistenz | Yes | No | No | No |
Open-weight models Lokales Deployment verfügbar | No | Yes (Apache 2.0) | Yes (Apache 2.0) | No |
Qwen-3.6-Daten aus offizieller Veröffentlichung (März 2026). Kimi-K2.6-Daten von Moonshot AI (20. April 2026). SkillsBench-Referenz: Claude 4.5 Opus erreicht 45,3.
Qwen-Ökosystem
Agentische Leistung mit Open-Weight-Flexibilität und wettbewerbsfähigen Preisen
Qwen 3.6 kombiniert starke agentische Benchmarks (78,8 % SWE-bench) mit Open-Weight-Modellen, preserve_thinking, $0,40/M Token-Preisen und Integration mit Claude Code, OpenClaw, Aider und Continue.dev.
Qwen 3.6 testen
Erleben Sie Qwen 3.6s agentische Fähigkeiten noch heute - kostenloser Chat, Open-Weight, faire Preise
Kostenlos chatten, lokal mit Open-Weight-Modellen unter Apache 2.0 deployen oder über die OpenAI-kompatible API zu $0,40/$2,40 pro Million Tokens integrieren. preserve_thinking für agentische Workflows, funktioniert mit Claude Code, OpenClaw, Aider und Continue.dev.