Qwen 3.6 vs Kimi K2.6

Zwei agentische Kraftpakete - Kimi K2.6 führt bei Terminal-Bench, Qwen 3.6 bei SWE-bench mit Open-Weight-Flexibilität

Kimi K2.6 von Moonshot AI erreichte 66,7 % bei Terminal-Bench 2.0 und hielt 4.000+ Tool-Aufrufe über 13 Stunden durch - eine beeindruckende Ausdauerleistung für Langzeit-Agenten. Qwen 3.6 Plus erzielt 61,6 bei Terminal-Bench, führt aber mit 78,8 % SWE-bench Verified und dem preserve_thinking-Parameter zur Erhaltung des Denkzustands. Das Open-Weight-Modell 27B erreicht 77,2 % SWE-bench und 48,2 SkillsBench (besser als Claude 4.5 Opus). Qwen bietet Open-Weight-Modelle, lokales Deployment und API-Preise ab $0,40/$2,40 pro Million Tokens.

Benchmarks

Qwen 3.6 vs Kimi K2.6 - umfassender agentischer Benchmark-Vergleich

Beide Modelle repräsentieren den Stand der Technik im agentischen Programmieren. Kimi K2.6 führt bei Terminal-Bench und Ausdauer, während Qwen 3.6 bei SWE-bench, SkillsBench führt und breitere Benchmark-Abdeckung mit Open-Weight-Deployment-Optionen bietet.

Die agentische KI-Landschaft entwickelt sich rasant, wobei sowohl Qwen 3.6 als auch Kimi K2.6 Grenzen in verschiedene Richtungen verschieben. Kimi K2.6s Terminal-Bench-Ergebnis (66,7 %) und Ausdauertests (4.000+ Tool-Aufrufe über 13 Stunden) demonstrieren außergewöhnliche Langzeit-Agenten-Fähigkeiten. Qwen 3.6 bietet ein vollständigeres Ökosystem mit 78,8 % SWE-bench, Open-Weight-Modellen, preserve_thinking, wettbewerbsfähigen Preisen und Integration mit beliebten Coding-Tools.

Benchmark-Vergleichsdiagramm mit Qwen 3.6 vs Kimi K2.6 Leistung bei Terminal-Bench, SWE-bench, SkillsBench und agentischen Benchmarks

Terminal-Bench 2.0: Kimi K2.6 66,7 % vs Qwen 3.6 Plus 61,6

Kimi K2.6: 4.000+ Tool-Aufrufe über 13 Stunden durchgehalten

Qwen 3.6 Plus: 78,8 % SWE-bench Verified

Qwen 3.6 27B: 77,2 % SWE-bench, 48,2 SkillsBench (übertrifft Claude 4.5 Opus)

Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval

Benchmark-Tabelle

Qwen 3.6 vs Kimi K2.6 - detaillierte Ergebnisse aller Evaluierungen

Verfügbare Benchmark-Daten für beide Modellfamilien bei agentischem Programmieren, Software-Engineering, praktischen Fähigkeiten und Ausdauer-Evaluierungen.

Benchmark
Qwen 3.6 Plus
Proprietär
Qwen 3.6 27B
Dense Open-Weight
Qwen 3.6 35B A3B
MoE Open-Weight
Kimi K2.6
Proprietär
Terminal-Bench-Spitzenreiter
Terminal-Bench 2.0
Terminal-Operationen
61.659.351.566.7
SWE-bench Verified
Reale Software-Engineering-Aufgaben
78.8%77.2%73.4%-
SkillsBench
Praktische Programmierfähigkeiten
-48.2--
LiveCodeBench
Wettbewerbsorientierte Code-Generierung
-83.980.4-
QwenWebBench
Frontend-Code-Generierung
-14871397-
Claw-Eval Avg
End-to-End agentisches Programmieren
-72.468.7-
Max tool calls (single session)
Agenten-Ausdauer
---4,000+
Max session duration
Anhaltender Betrieb
---13 hours
preserve_thinking
Reasoning-Zustandspersistenz
YesNoNoNo
Open-weight models
Lokales Deployment verfügbar
NoYes (Apache 2.0)Yes (Apache 2.0)No

Qwen-3.6-Daten aus offizieller Veröffentlichung (März 2026). Kimi-K2.6-Daten von Moonshot AI (20. April 2026). SkillsBench-Referenz: Claude 4.5 Opus erreicht 45,3.

Qwen-Ökosystem

Agentische Leistung mit Open-Weight-Flexibilität und wettbewerbsfähigen Preisen

Qwen 3.6 kombiniert starke agentische Benchmarks (78,8 % SWE-bench) mit Open-Weight-Modellen, preserve_thinking, $0,40/M Token-Preisen und Integration mit Claude Code, OpenClaw, Aider und Continue.dev.

Qwen 3.6 Plus

78,8 % SWE-bench, preserve_thinking, $0,40/M

Plus testen

Qwen 3.6 27B

77,2 % SWE-bench, 48,2 SkillsBench, Open-Weight

27B testen

Qwen 3.6 35B A3B

73,4 % SWE-bench, Mac M4 16 GB geeignet

35B testen

API-Zugang

OpenAI-kompatibel, kostenlose Stufe verfügbar

API ansehen

Lokal betreiben

Ollama, vLLM, llama.cpp, SGLang

Loslegen

Community

Treten Sie der Qwen-Entwickler-Community bei

Beitreten

Qwen 3.6 testen

Erleben Sie Qwen 3.6s agentische Fähigkeiten noch heute - kostenloser Chat, Open-Weight, faire Preise

Kostenlos chatten, lokal mit Open-Weight-Modellen unter Apache 2.0 deployen oder über die OpenAI-kompatible API zu $0,40/$2,40 pro Million Tokens integrieren. preserve_thinking für agentische Workflows, funktioniert mit Claude Code, OpenClaw, Aider und Continue.dev.