Qwen 3.6 vs Gemma 4
コーディング・ターミナル・数学・フロントエンドの各ベンチマークでQwen 3.6がGemma 4をリード
Qwen 3.6とGoogle Gemma 4モデルファミリーの直接比較。Qwen 3.6 35B A3BはGemma 4 26B A4Bに対し、SWE-bench Verified(73.4% vs 52.0%)、Terminal-Bench 2.0(51.5 vs 42.9)、AIME 2025(92.7% vs 88.3%)で上回っています。27B Denseモデルはさらに差を広げ、SWE-bench 77.2%、Terminal-Bench 59.3、LiveCodeBench 83.9、SkillsBench 48.2(Claude 4.5 Opusの45.3を上回る)を達成。両ファミリーともオープンウェイトのMoE・Denseモデルをオープンライセンスで提供しています。
ベンチマーク
Qwen 3.6 vs Gemma 4 — 8つの評価による詳細ベンチマーク比較
ソフトウェアエンジニアリング、コーディング、ターミナル操作、数学的推論、フロントエンド生成、実践的コーディングスキルにわたる両モデルファミリーの包括的なベンチマーク結果。
Qwen 3.6は利用可能な全ベンチマークにおいてGemma 4に対し、大幅かつ一貫した性能優位を示しています。特にSWE-bench Verifiedでの差が顕著で、MoE比較で20ポイント以上、27B Denseモデルでは25ポイント以上のリードがあります。SkillsBenchの結果(27Bで48.2、Claude 4.5 Opusの45.3を上回る)は、コード生成能力だけでなく実践的なエンジニアリング判断力におけるQwenの強みを際立たせています。


SWE-bench Verified:Qwen 3.6 27B 77.2% vs Gemma 4 26B A4B 52.0%(+25.2pp)
Terminal-Bench 2.0:Qwen 3.6 27B 59.3 vs Gemma 4 26B A4B 42.9(+38%)
AIME 2025:Qwen 3.6 35B A3B 92.7% vs Gemma 4 26B A4B 88.3%
SkillsBench:Qwen 3.6 27B 48.2がClaude 4.5 Opus(45.3)を上回る
QwenWebBench:Qwen 3.6 27B 1487 — フロントエンドコード生成のリーダー
ベンチマーク表
Qwen 3.6 vs Gemma 4 — 全評価の完全な結果
ソフトウェアエンジニアリング、コーディング、数学、実践的スキル評価におけるQwen 3.6とGemma 4モデルバリアントのサイドバイサイド比較。
| Benchmark | Qwen 3.6 27B Dense 最高性能 | Qwen 3.6 35B A3B MoE 3Bアクティブ | Gemma 4 26B A4B MoE 4Bアクティブ | Gemma 4 31B Dense |
|---|---|---|---|---|
SWE-bench Verified 実際のソフトウェアエンジニアリング | 77.2% | 73.4% | 52.0% | - |
Terminal-Bench 2.0 ターミナル操作とシステム管理 | 59.3 | 51.5 | 42.9 | - |
AIME 2025 数学コンテスト | 94.1% | 92.7% | 88.3% | - |
LiveCodeBench 競技プログラミング | 83.9 | 80.4 | - | - |
SkillsBench 実践的コーディングスキル | 48.2 | - | - | - |
QwenWebBench フロントエンドコード生成 | 1487 | 1397 | - | - |
NL2Repo 自然言語からリポジトリ生成 | 36.2 | - | - | - |
Claw-Eval Avg エンドツーエンドのエージェントコーディング | 72.4 | 68.7 | - | - |
Active parameters トークンあたりの計算パラメータ数 | 27B(全て) | 3B(35B中) | 4B(26B中) | 31B(全て) |
ベンチマーク結果は公式モデルリリースより。Qwen 3.6データはAlibaba(2026年3月)、Gemma 4データはGoogleより。SkillsBenchおよびQwenWebBenchの結果はQwen公式ベンチマークより。
Qwenエコシステム
最も重要なベンチマークでリードするモデルファミリーを選ぼう
Qwen 3.6はGemma 4に対し、ソフトウェアエンジニアリング(SWE-bench +25pp)、ターミナル操作(Terminal-Bench +38%)、数学的推論で大幅に優れた性能を発揮。より少ないアクティブパラメータでより高速な推論を実現しています。
Qwen 3.6を試す
性能の違いをご自身で体験 — SWE-benchで25ポイント以上のリード
Qwen 3.6を無料でチャットして、SWE-benchで25ポイント以上、Terminal-Benchで38%のリード、SkillsBenchでClaude 4.5 Opusを上回る理由をご確認ください。オープンウェイト、ローカルデプロイ可能、API経由でもアクセスできます。