Qwen 3.6 vs Gemma 4

Qwen 3.6 supera a Gemma 4 en benchmarks de programación, terminal, matemáticas y frontend

Comparación directa de las familias de modelos Qwen 3.6 y Google Gemma 4. Qwen 3.6 35B A3B supera a Gemma 4 26B A4B en SWE-bench Verified (73.4% vs 52.0%), Terminal-Bench 2.0 (51.5 vs 42.9) y AIME 2025 (92.7% vs 88.3%). El modelo denso 27B amplía aún más la ventaja con 77.2% SWE-bench, 59.3 Terminal-Bench, 83.9 LiveCodeBench y 48.2 SkillsBench (superando a Claude 4.5 Opus con 45.3). Ambas familias ofrecen variantes MoE y densas de pesos abiertos con licencias permisivas.

Benchmarks

Qwen 3.6 vs Gemma 4 - comparación detallada de benchmarks en 8 evaluaciones

Resultados completos de benchmarks comparando ambas familias de modelos en ingeniería de software, programación, operaciones de terminal, razonamiento matemático, generación frontend y habilidades prácticas de programación.

Qwen 3.6 demuestra una ventaja de rendimiento significativa y consistente sobre Gemma 4 en todos los benchmarks disponibles. La brecha es particularmente pronunciada en SWE-bench Verified, donde Qwen 3.6 lidera por más de 20 puntos porcentuales en la comparación MoE y más de 25 puntos con el modelo denso 27B. El resultado de SkillsBench (48.2 para 27B, superando a Claude 4.5 Opus con 45.3) destaca la fortaleza de Qwen en juicio práctico de ingeniería más allá de la generación de código pura.

Gráfico de comparación de benchmarks mostrando el rendimiento de Qwen 3.6 vs Gemma 4 en SWE-bench, Terminal-Bench, AIME, LiveCodeBench, SkillsBench y QwenWebBench

SWE-bench Verified: Qwen 3.6 27B 77.2% vs Gemma 4 26B A4B 52.0% (+25.2pp)

Terminal-Bench 2.0: Qwen 3.6 27B 59.3 vs Gemma 4 26B A4B 42.9 (+38%)

AIME 2025: Qwen 3.6 35B A3B 92.7% vs Gemma 4 26B A4B 88.3%

SkillsBench: Qwen 3.6 27B 48.2 supera a Claude 4.5 Opus (45.3)

QwenWebBench: Qwen 3.6 27B 1487 - líder en generación de código frontend

Tabla de benchmarks

Qwen 3.6 vs Gemma 4 - resultados completos en todas las evaluaciones

Comparación lado a lado de benchmarks de variantes de modelos Qwen 3.6 y Gemma 4 en evaluaciones de ingeniería de software, programación, matemáticas y habilidades prácticas.

Benchmark
Qwen 3.6 27B
Denso
Mejor rendimiento
Qwen 3.6 35B A3B
MoE 3B activos
Gemma 4 26B A4B
MoE 4B activos
Gemma 4 31B
Denso
SWE-bench Verified
Ingeniería de software del mundo real
77.2%73.4%52.0%-
Terminal-Bench 2.0
Operaciones de terminal y administración de sistemas
59.351.542.9-
AIME 2025
Matemáticas de competencia
94.1%92.7%88.3%-
LiveCodeBench
Generación de código competitivo
83.980.4--
SkillsBench
Habilidades prácticas de programación
48.2---
QwenWebBench
Generación de código frontend
14871397--
NL2Repo
Lenguaje natural a repositorio
36.2---
Claw-Eval Avg
Programación agéntica de principio a fin
72.468.7--
Parámetros activos
Parámetros calculados por token
27B (todos)3B (de 35B)4B (de 26B)31B (todos)

Resultados de benchmarks de lanzamientos oficiales de modelos. Datos de Qwen 3.6 de Alibaba (marzo 2026), datos de Gemma 4 de Google. Resultados de SkillsBench y QwenWebBench de benchmarks oficiales de Qwen.

Ecosistema Qwen

Elige la familia de modelos que lidera en los benchmarks que más importan

Qwen 3.6 entrega un rendimiento significativamente superior a Gemma 4 en ingeniería de software (+25pp SWE-bench), operaciones de terminal (+38% Terminal-Bench) y razonamiento matemático. Todo con menos parámetros activos e inferencia más rápida.

Qwen 3.6 27B

Mejor modelo de pesos abiertos para programación, 77.2% SWE-bench

Probar 27B

Qwen 3.6 35B A3B

MoE para GPU de consumo, 73.4% SWE-bench

Probar 35B

Ejecutar localmente

Despliega con Ollama, vLLM o llama.cpp

Comenzar

Acceso por API

API compatible con OpenAI, $0.40/M tokens de entrada

Ver API

Comparación de modelos

Compara todos los modelos Qwen 3.6

Comparar

Comunidad

Únete a la comunidad de desarrolladores Qwen

Unirse

Probar Qwen 3.6

Experimenta la diferencia de rendimiento por ti mismo - 25+ puntos adelante en SWE-bench

Chatea con Qwen 3.6 gratis y descubre por qué supera a Gemma 4 por más de 25 puntos porcentuales en SWE-bench, 38% en Terminal-Bench y supera a Claude 4.5 Opus en SkillsBench. Pesos abiertos, desplegable localmente y accesible por API.