Qwen 3.6 vs Kimi K2.6

Zwei agentische Kraftpakete - Kimi K2.6 führt bei Terminal-Bench, Qwen 3.6 bei SWE-bench mit Open-Weight-Flexibilität

Kimi K2.6 von Moonshot AI erreichte 66,7 % bei Terminal-Bench 2.0 und hielt 4.000+ Tool-Aufrufe über 13 Stunden durch - eine beeindruckende Ausdauerleistung für Langzeit-Agenten. Qwen 3.6 Plus erzielt 61,6 bei Terminal-Bench, führt aber mit 78,8 % SWE-bench Verified und dem preserve_thinking-Parameter zur Erhaltung des Denkzustands. Das Open-Weight-Modell 27B erreicht 77,2 % SWE-bench und 48,2 SkillsBench (besser als Claude 4.5 Opus). Qwen bietet Open-Weight-Modelle, lokales Deployment und API-Preise ab $0,40/$2,40 pro Million Tokens.

Qwen 3.6 testen Benchmarks ansehen

Benchmarks

Qwen 3.6 vs Kimi K2.6 - umfassender agentischer Benchmark-Vergleich

Beide Modelle repräsentieren den Stand der Technik im agentischen Programmieren. Kimi K2.6 führt bei Terminal-Bench und Ausdauer, während Qwen 3.6 bei SWE-bench, SkillsBench führt und breitere Benchmark-Abdeckung mit Open-Weight-Deployment-Optionen bietet.

Die agentische KI-Landschaft entwickelt sich rasant, wobei sowohl Qwen 3.6 als auch Kimi K2.6 Grenzen in verschiedene Richtungen verschieben. Kimi K2.6s Terminal-Bench-Ergebnis (66,7 %) und Ausdauertests (4.000+ Tool-Aufrufe über 13 Stunden) demonstrieren außergewöhnliche Langzeit-Agenten-Fähigkeiten. Qwen 3.6 bietet ein vollständigeres Ökosystem mit 78,8 % SWE-bench, Open-Weight-Modellen, preserve_thinking, wettbewerbsfähigen Preisen und Integration mit beliebten Coding-Tools.

Qwen 3.6 testen API-Dokumentation

Benchmark-Vergleichsdiagramm mit Qwen 3.6 vs Kimi K2.6 Leistung bei Terminal-Bench, SWE-bench, SkillsBench und agentischen Benchmarks

Terminal-Bench 2.0: Kimi K2.6 66,7 % vs Qwen 3.6 Plus 61,6

Kimi K2.6: 4.000+ Tool-Aufrufe über 13 Stunden durchgehalten

Qwen 3.6 Plus: 78,8 % SWE-bench Verified

Qwen 3.6 27B: 77,2 % SWE-bench, 48,2 SkillsBench (übertrifft Claude 4.5 Opus)

Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval

Benchmark-Tabelle

Qwen 3.6 vs Kimi K2.6 - detaillierte Ergebnisse aller Evaluierungen

Verfügbare Benchmark-Daten für beide Modellfamilien bei agentischem Programmieren, Software-Engineering, praktischen Fähigkeiten und Ausdauer-Evaluierungen.

Benchmark	Qwen 3.6 Plus Proprietär	Qwen 3.6 27B Dense Open-Weight	Qwen 3.6 35B A3B MoE Open-Weight	Kimi K2.6 Proprietär Terminal-Bench-Spitzenreiter
Terminal-Bench 2.0 Terminal-Operationen	61.6	59.3	51.5	66.7
SWE-bench Verified Reale Software-Engineering-Aufgaben	78.8%	77.2%	73.4%	-
SkillsBench Praktische Programmierfähigkeiten	-	48.2	-	-
LiveCodeBench Wettbewerbsorientierte Code-Generierung	-	83.9	80.4	-
QwenWebBench Frontend-Code-Generierung	-	1487	1397	-
Claw-Eval Avg End-to-End agentisches Programmieren	-	72.4	68.7	-
Max tool calls (single session) Agenten-Ausdauer	-	-	-	4,000+
Max session duration Anhaltender Betrieb	-	-	-	13 hours
preserve_thinking Reasoning-Zustandspersistenz	Yes	No	No	No
Open-weight models Lokales Deployment verfügbar	No	Yes (Apache 2.0)	Yes (Apache 2.0)	No

Qwen-3.6-Daten aus offizieller Veröffentlichung (März 2026). Kimi-K2.6-Daten von Moonshot AI (20. April 2026). SkillsBench-Referenz: Claude 4.5 Opus erreicht 45,3.

Qwen-Ökosystem

Agentische Leistung mit Open-Weight-Flexibilität und wettbewerbsfähigen Preisen

Qwen 3.6 kombiniert starke agentische Benchmarks (78,8 % SWE-bench) mit Open-Weight-Modellen, preserve_thinking, $0,40/M Token-Preisen und Integration mit Claude Code, OpenClaw, Aider und Continue.dev.

Qwen-Modelle entdecken Offizielle Dokumentation

Qwen 3.6 Plus

78,8 % SWE-bench, preserve_thinking, $0,40/M

Plus testen

Qwen 3.6 27B

77,2 % SWE-bench, 48,2 SkillsBench, Open-Weight

27B testen

Qwen 3.6 35B A3B

73,4 % SWE-bench, Mac M4 16 GB geeignet

35B testen

API-Zugang

OpenAI-kompatibel, kostenlose Stufe verfügbar

API ansehen

Lokal betreiben

Ollama, vLLM, llama.cpp, SGLang

Loslegen

Community

Treten Sie der Qwen-Entwickler-Community bei

Beitreten

Qwen 3.6 testen

Erleben Sie Qwen 3.6s agentische Fähigkeiten noch heute - kostenloser Chat, Open-Weight, faire Preise

Kostenlos chatten, lokal mit Open-Weight-Modellen unter Apache 2.0 deployen oder über die OpenAI-kompatible API zu $0,40/$2,40 pro Million Tokens integrieren. preserve_thinking für agentische Workflows, funktioniert mit Claude Code, OpenClaw, Aider und Continue.dev.

Chat starten Modelle herunterladen