Qwen 3.6 vs Kimi K2.6
2つのエージェント強者 — Kimi K2.6がTerminal-Benchをリード、Qwen 3.6がSWE-benchをリードしオープンウェイトの柔軟性を提供
Moonshot AIのKimi K2.6はTerminal-Bench 2.0で66.7%を記録し、13時間にわたり4,000回以上のツール呼び出しを維持 — 卓越した長時間エージェント持久力を実証しました。Qwen 3.6 PlusはTerminal-Benchで61.6ですが、SWE-bench Verified 78.8%でリードし、推論状態を維持するpreserve_thinkingパラメータを備えています。27Bオープンウェイトモデルは77.2% SWE-benchと48.2 SkillsBench(Claude 4.5 Opusを上回る)を達成。Qwenはオープンウェイトモデル、ローカルデプロイ、$0.40/$2.40/百万トークンのAPI料金を提供しています。
ベンチマーク
Qwen 3.6 vs Kimi K2.6 — 包括的なエージェントベンチマーク比較
両モデルともエージェントコーディングの最先端を代表しています。Kimi K2.6はTerminal-Benchと持久力でリードし、Qwen 3.6はSWE-bench、SkillsBenchでリードし、オープンウェイトデプロイオプションを含むより広範なベンチマークカバレッジを提供します。
エージェントAIの分野は急速に進化しており、Qwen 3.6とKimi K2.6はそれぞれ異なる方向で限界を押し広げています。Kimi K2.6のTerminal-Benchスコア(66.7%)と持久力テスト(13時間で4,000回以上のツール呼び出し)は卓越した長時間エージェント能力を実証しています。Qwen 3.6はSWE-bench 78.8%、オープンウェイトモデル、preserve_thinking、競争力のある料金、人気のコーディングツールとの統合を含むより完全なエコシステムを提供します。


Terminal-Bench 2.0:Kimi K2.6 66.7% vs Qwen 3.6 Plus 61.6
Kimi K2.6:13時間にわたり4,000回以上のツール呼び出しを維持
Qwen 3.6 Plus:SWE-bench Verified 78.8%
Qwen 3.6 27B:SWE-bench 77.2%、SkillsBench 48.2(Claude 4.5 Opusを上回る)
Qwen 3.6 27B:LiveCodeBench 83.9、QwenWebBench 1487、Claw-Eval 72.4
ベンチマーク表
Qwen 3.6 vs Kimi K2.6 — 全評価の詳細結果
エージェントコーディング、ソフトウェアエンジニアリング、実践的スキル、持久力評価にわたる両モデルファミリーの利用可能なベンチマークデータ。
| Benchmark | Qwen 3.6 Plus プロプライエタリ | Qwen 3.6 27B Denseオープンウェイト | Qwen 3.6 35B A3B MoEオープンウェイト | Kimi K2.6 プロプライエタリ Terminal-Benchリーダー |
|---|---|---|---|---|
Terminal-Bench 2.0 ターミナル操作 | 61.6 | 59.3 | 51.5 | 66.7 |
SWE-bench Verified 実際のソフトウェアエンジニアリング | 78.8% | 77.2% | 73.4% | - |
SkillsBench 実践的コーディングスキル | - | 48.2 | - | - |
LiveCodeBench 競技プログラミング | - | 83.9 | 80.4 | - |
QwenWebBench フロントエンドコード生成 | - | 1487 | 1397 | - |
Claw-Eval Avg エンドツーエンドのエージェントコーディング | - | 72.4 | 68.7 | - |
Max tool calls (single session) エージェント持久力 | - | - | - | 4,000+ |
Max session duration 持続的な動作 | - | - | - | 13時間 |
preserve_thinking 推論状態の永続化 | 対応 | 非対応 | 非対応 | 非対応 |
Open-weight models ローカルデプロイ可能 | 非対応 | 対応(Apache 2.0) | 対応(Apache 2.0) | 非対応 |
Qwen 3.6データは公式リリース(2026年3月)より。Kimi K2.6データはMoonshot AIリリース(2026年4月20日)より。SkillsBench参考値:Claude 4.5 Opusは45.3。
Qwenエコシステム
オープンウェイトの柔軟性と競争力のある料金でエージェント性能を実現
Qwen 3.6は強力なエージェントベンチマーク(SWE-bench 78.8%)とオープンウェイトモデル、preserve_thinking、$0.40/Mトークンの料金、Claude Code、OpenClaw、Aider、Continue.devとの統合を組み合わせています。
Qwen 3.6を試す
Qwen 3.6のエージェント能力を今すぐ体験 — 無料チャット、オープンウェイト、競争力のある料金
無料でチャット、Apache 2.0のオープンウェイトモデルでローカルデプロイ、またはOpenAI互換APIで$0.40/$2.40/百万トークンで統合。エージェントワークフロー向けpreserve_thinking、Claude Code、OpenClaw、Aider、Continue.devと連携します。