Qwen 3.6 vs Gemma 4

コーディング・ターミナル・数学・フロントエンドの各ベンチマークでQwen 3.6がGemma 4をリード

Qwen 3.6とGoogle Gemma 4モデルファミリーの直接比較。Qwen 3.6 35B A3BはGemma 4 26B A4Bに対し、SWE-bench Verified（73.4% vs 52.0%）、Terminal-Bench 2.0（51.5 vs 42.9）、AIME 2025（92.7% vs 88.3%）で上回っています。27B Denseモデルはさらに差を広げ、SWE-bench 77.2%、Terminal-Bench 59.3、LiveCodeBench 83.9、SkillsBench 48.2（Claude 4.5 Opusの45.3を上回る）を達成。両ファミリーともオープンウェイトのMoE・Denseモデルをオープンライセンスで提供しています。

Qwen 3.6を試すベンチマークを見る

ベンチマーク

Qwen 3.6 vs Gemma 4 — 8つの評価による詳細ベンチマーク比較

ソフトウェアエンジニアリング、コーディング、ターミナル操作、数学的推論、フロントエンド生成、実践的コーディングスキルにわたる両モデルファミリーの包括的なベンチマーク結果。

Qwen 3.6は利用可能な全ベンチマークにおいてGemma 4に対し、大幅かつ一貫した性能優位を示しています。特にSWE-bench Verifiedでの差が顕著で、MoE比較で20ポイント以上、27B Denseモデルでは25ポイント以上のリードがあります。SkillsBenchの結果（27Bで48.2、Claude 4.5 Opusの45.3を上回る）は、コード生成能力だけでなく実践的なエンジニアリング判断力におけるQwenの強みを際立たせています。

Qwen 3.6を試すモデルをダウンロード

SWE-bench、Terminal-Bench、AIME、LiveCodeBench、SkillsBench、QwenWebBenchにおけるQwen 3.6 vs Gemma 4の性能を示すベンチマーク比較チャート

SWE-bench Verified：Qwen 3.6 27B 77.2% vs Gemma 4 26B A4B 52.0%（+25.2pp）

Terminal-Bench 2.0：Qwen 3.6 27B 59.3 vs Gemma 4 26B A4B 42.9（+38%）

AIME 2025：Qwen 3.6 35B A3B 92.7% vs Gemma 4 26B A4B 88.3%

SkillsBench：Qwen 3.6 27B 48.2がClaude 4.5 Opus（45.3）を上回る

QwenWebBench：Qwen 3.6 27B 1487 — フロントエンドコード生成のリーダー

ベンチマーク表

Qwen 3.6 vs Gemma 4 — 全評価の完全な結果

ソフトウェアエンジニアリング、コーディング、数学、実践的スキル評価におけるQwen 3.6とGemma 4モデルバリアントのサイドバイサイド比較。

Benchmark	Qwen 3.6 27B Dense 最高性能	Qwen 3.6 35B A3B MoE 3Bアクティブ	Gemma 4 26B A4B MoE 4Bアクティブ	Gemma 4 31B Dense
SWE-bench Verified 実際のソフトウェアエンジニアリング	77.2%	73.4%	52.0%	-
Terminal-Bench 2.0 ターミナル操作とシステム管理	59.3	51.5	42.9	-
AIME 2025 数学コンテスト	94.1%	92.7%	88.3%	-
LiveCodeBench 競技プログラミング	83.9	80.4	-	-
SkillsBench 実践的コーディングスキル	48.2	-	-	-
QwenWebBench フロントエンドコード生成	1487	1397	-	-
NL2Repo 自然言語からリポジトリ生成	36.2	-	-	-
Claw-Eval Avg エンドツーエンドのエージェントコーディング	72.4	68.7	-	-
Active parameters トークンあたりの計算パラメータ数	27B（全て）	3B（35B中）	4B（26B中）	31B（全て）