Qwen 3.6 vs Gemma 4

コーディング・ターミナル・数学・フロントエンドの各ベンチマークでQwen 3.6がGemma 4をリード

Qwen 3.6とGoogle Gemma 4モデルファミリーの直接比較。Qwen 3.6 35B A3BはGemma 4 26B A4Bに対し、SWE-bench Verified(73.4% vs 52.0%)、Terminal-Bench 2.0(51.5 vs 42.9)、AIME 2025(92.7% vs 88.3%)で上回っています。27B Denseモデルはさらに差を広げ、SWE-bench 77.2%、Terminal-Bench 59.3、LiveCodeBench 83.9、SkillsBench 48.2(Claude 4.5 Opusの45.3を上回る)を達成。両ファミリーともオープンウェイトのMoE・Denseモデルをオープンライセンスで提供しています。

ベンチマーク

Qwen 3.6 vs Gemma 4 — 8つの評価による詳細ベンチマーク比較

ソフトウェアエンジニアリング、コーディング、ターミナル操作、数学的推論、フロントエンド生成、実践的コーディングスキルにわたる両モデルファミリーの包括的なベンチマーク結果。

Qwen 3.6は利用可能な全ベンチマークにおいてGemma 4に対し、大幅かつ一貫した性能優位を示しています。特にSWE-bench Verifiedでの差が顕著で、MoE比較で20ポイント以上、27B Denseモデルでは25ポイント以上のリードがあります。SkillsBenchの結果(27Bで48.2、Claude 4.5 Opusの45.3を上回る)は、コード生成能力だけでなく実践的なエンジニアリング判断力におけるQwenの強みを際立たせています。

SWE-bench、Terminal-Bench、AIME、LiveCodeBench、SkillsBench、QwenWebBenchにおけるQwen 3.6 vs Gemma 4の性能を示すベンチマーク比較チャート

SWE-bench Verified:Qwen 3.6 27B 77.2% vs Gemma 4 26B A4B 52.0%(+25.2pp)

Terminal-Bench 2.0:Qwen 3.6 27B 59.3 vs Gemma 4 26B A4B 42.9(+38%)

AIME 2025:Qwen 3.6 35B A3B 92.7% vs Gemma 4 26B A4B 88.3%

SkillsBench:Qwen 3.6 27B 48.2がClaude 4.5 Opus(45.3)を上回る

QwenWebBench:Qwen 3.6 27B 1487 — フロントエンドコード生成のリーダー

ベンチマーク表

Qwen 3.6 vs Gemma 4 — 全評価の完全な結果

ソフトウェアエンジニアリング、コーディング、数学、実践的スキル評価におけるQwen 3.6とGemma 4モデルバリアントのサイドバイサイド比較。

Benchmark
Qwen 3.6 27B
Dense
最高性能
Qwen 3.6 35B A3B
MoE 3Bアクティブ
Gemma 4 26B A4B
MoE 4Bアクティブ
Gemma 4 31B
Dense
SWE-bench Verified
実際のソフトウェアエンジニアリング
77.2%73.4%52.0%-
Terminal-Bench 2.0
ターミナル操作とシステム管理
59.351.542.9-
AIME 2025
数学コンテスト
94.1%92.7%88.3%-
LiveCodeBench
競技プログラミング
83.980.4--
SkillsBench
実践的コーディングスキル
48.2---
QwenWebBench
フロントエンドコード生成
14871397--
NL2Repo
自然言語からリポジトリ生成
36.2---
Claw-Eval Avg
エンドツーエンドのエージェントコーディング
72.468.7--
Active parameters
トークンあたりの計算パラメータ数
27B(全て)3B(35B中)4B(26B中)31B(全て)

ベンチマーク結果は公式モデルリリースより。Qwen 3.6データはAlibaba(2026年3月)、Gemma 4データはGoogleより。SkillsBenchおよびQwenWebBenchの結果はQwen公式ベンチマークより。

Qwenエコシステム

最も重要なベンチマークでリードするモデルファミリーを選ぼう

Qwen 3.6はGemma 4に対し、ソフトウェアエンジニアリング(SWE-bench +25pp)、ターミナル操作(Terminal-Bench +38%)、数学的推論で大幅に優れた性能を発揮。より少ないアクティブパラメータでより高速な推論を実現しています。

Qwen 3.6 27B

最高のオープンウェイトコーディングモデル、SWE-bench 77.2%

27Bを試す

Qwen 3.6 35B A3B

コンシューマーGPU対応MoE、SWE-bench 73.4%

35Bを試す

ローカル実行

Ollama、vLLM、llama.cppでデプロイ

始める

APIアクセス

OpenAI互換API、入力$0.40/Mトークン

APIを見る

モデル比較

Qwen 3.6の全モデルを比較

比較する

コミュニティ

Qwen開発者コミュニティに参加

参加する

Qwen 3.6を試す

性能の違いをご自身で体験 — SWE-benchで25ポイント以上のリード

Qwen 3.6を無料でチャットして、SWE-benchで25ポイント以上、Terminal-Benchで38%のリード、SkillsBenchでClaude 4.5 Opusを上回る理由をご確認ください。オープンウェイト、ローカルデプロイ可能、API経由でもアクセスできます。