Qwen 3.6 vs Gemma 4

코딩, 터미널, 수학, 프론트엔드 벤치마크 전반에서 Qwen 3.6이 Gemma 4를 앞섭니다

Qwen 3.6과 Google Gemma 4 모델 패밀리의 직접 비교입니다. Qwen 3.6 35B A3B는 SWE-bench Verified(73.4% vs 52.0%), Terminal-Bench 2.0(51.5 vs 42.9), AIME 2025(92.7% vs 88.3%)에서 Gemma 4 26B A4B를 앞섭니다. 27B Dense 모델은 77.2% SWE-bench, 59.3 Terminal-Bench, 83.9 LiveCodeBench, 48.2 SkillsBench(Claude 4.5 Opus 45.3 상회)로 격차를 더 벌립니다. 두 패밀리 모두 허용적 라이선스 하에 오픈 웨이트 MoE 및 Dense 변형을 제공합니다.

Qwen 3.6 체험하기 벤치마크 보기

벤치마크

Qwen 3.6 vs Gemma 4 - 8개 평가 항목 상세 벤치마크 비교

소프트웨어 엔지니어링, 코딩, 터미널 작업, 수학적 추론, 프론트엔드 생성, 실무 코딩 역량 전반에 걸친 두 모델 패밀리의 종합 벤치마크 결과입니다.

Qwen 3.6은 모든 벤치마크에서 Gemma 4 대비 상당하고 일관된 성능 우위를 보여줍니다. 특히 SWE-bench Verified에서 MoE 비교 시 20퍼센트포인트 이상, 27B Dense 모델로는 25포인트 이상 앞서는 격차가 두드러집니다. SkillsBench 결과(27B 48.2, Claude 4.5 Opus 45.3 상회)는 단순 코드 생성을 넘어 실무 엔지니어링 판단력에서 Qwen의 강점을 보여줍니다.

Qwen 3.6 체험하기 모델 다운로드

SWE-bench, Terminal-Bench, AIME, LiveCodeBench, SkillsBench, QwenWebBench 전반에 걸친 Qwen 3.6 vs Gemma 4 성능 비교 차트

SWE-bench Verified: Qwen 3.6 27B 77.2% vs Gemma 4 26B A4B 52.0% (+25.2pp)

Terminal-Bench 2.0: Qwen 3.6 27B 59.3 vs Gemma 4 26B A4B 42.9 (+38%)

AIME 2025: Qwen 3.6 35B A3B 92.7% vs Gemma 4 26B A4B 88.3%

SkillsBench: Qwen 3.6 27B 48.2로 Claude 4.5 Opus(45.3) 상회

QwenWebBench: Qwen 3.6 27B 1487 - 프론트엔드 코드 생성 선두

벤치마크 표

Qwen 3.6 vs Gemma 4 - 전체 평가 항목 결과

소프트웨어 엔지니어링, 코딩, 수학, 실무 역량 평가 전반에 걸친 Qwen 3.6과 Gemma 4 모델 변형의 나란히 비교입니다.

Benchmark	Qwen 3.6 27B Dense 최고 성능	Qwen 3.6 35B A3B MoE 3B 활성	Gemma 4 26B A4B MoE 4B 활성	Gemma 4 31B Dense
SWE-bench Verified 실제 소프트웨어 엔지니어링	77.2%	73.4%	52.0%	-
Terminal-Bench 2.0 터미널 작업 및 시스템 관리	59.3	51.5	42.9	-
AIME 2025 경시대회 수학	94.1%	92.7%	88.3%	-
LiveCodeBench 경쟁적 코드 생성	83.9	80.4	-	-
SkillsBench 실무 코딩 역량	48.2	-	-	-
QwenWebBench 프론트엔드 코드 생성	1487	1397	-	-
NL2Repo 자연어에서 저장소 생성	36.2	-	-	-
Claw-Eval Avg 엔드투엔드 에이전트 코딩	72.4	68.7	-	-
Active parameters 토큰당 연산 파라미터	27B (전체)	3B (35B 중)	4B (26B 중)	31B (전체)