Qwen 3.6 35B A3B

350억 파라미터, 30억 활성 - 일반 하드웨어에서 프론티어 MoE

Qwen 3.6 35B A3B는 256개 전문가 중 토큰당 3B 파라미터만 활성화하는 Mixture-of-Experts 모델입니다. SWE-bench Verified 73.4%, AIME 2026 92.7%, Apache 2.0 라이선스로 프론티어급 코딩과 추론을 일반 GPU에서 실현합니다.

채팅 시작하기 벤치마크 보기

모델 변형

로컬 및 클라우드 배포를 위한 오픈 웨이트 MoE

Qwen 3.6 35B A3B는 최소한의 활성 파라미터로 강력한 성능을 제공합니다. 채팅과 코딩에는 Instruct 버전을, 파인튜닝에는 Base 모델을 선택하세요.

Mixture-of-Experts 아키텍처

총 35B 파라미터, 토큰당 3B 활성, 256개 전문가

Qwen 3.6 35B A3B는 Hybrid Gated DeltaNet + Gated Attention + MoE 설계를 사용하며, 256개 전문가 중 토큰당 8개 라우팅 + 1개 공유 전문가가 활성화됩니다. 262K 네이티브 컨텍스트는 1M 토큰까지 확장 가능하며, Apache 2.0 라이선스로 제한 없는 상업적 사용이 가능합니다.

토큰당 3B 활성 파라미터만으로 일반 GPU에서 효율적으로 구동되면서도 훨씬 큰 Dense 모델에 필적하는 성능을 제공합니다.

채팅 시작하기 기능 살펴보기

인스트럭션 튜닝

35B A3B Instruct

일반 하드웨어에서의 대화형 AI, 코딩, 에이전트 작업에 최적화

MoE 효율성으로 지시 수행 및 멀티턴 대화에 맞춰 파인튜닝

지금 이용 가능 - Apache 2.0

채팅 시작하기 가중치 다운로드

사전 학습

35B A3B Base

파인튜닝 및 특수 애플리케이션을 위한 기반 MoE 모델

256개 전문가 MoE 라우팅으로 다양한 데이터에 사전 학습

지금 이용 가능 - Apache 2.0

HuggingFace에서 보기 파인튜닝 가이드

주요 기능

256개 전문가, 3B 활성 - 최대 효율성과 강력한 성능의 만남

Qwen 3.6 35B A3B는 대규모 전문가 풀과 최소한의 활성 연산을 결합하여 일반 하드웨어에서 인상적인 코딩, 추론, 에이전트 기능을 제공합니다.

실제 소프트웨어 엔지니어링

SWE-bench Verified 73.4% - 토큰당 3B 활성 파라미터만으로 실제 GitHub 이슈를 해결합니다. 추론 시 10배 이상의 연산을 사용하는 모델과 경쟁합니다.

터미널 작업

Terminal-Bench 2.0에서 51.5를 달성. 복잡한 다단계 터미널 워크플로, 디버깅, 시스템 관리, 빌드 파이프라인 작업을 능숙하게 처리합니다.

고급 수학

AIME 2026 92.7% - 일반 GPU에서 구동되는 모델로 프론티어에 근접한 수학 추론을 제공합니다. 단계별 사고 모드로 투명한 문제 해결이 가능합니다.

262K ~ 1M 컨텍스트

262K 네이티브 컨텍스트 윈도우, 최대 1M 토큰까지 확장 가능. 전체 코드베이스, 긴 문서, 복잡한 멀티턴 대화를 잘림 없이 분석합니다.

경쟁 프로그래밍

LiveCodeBench v6에서 80.4를 달성. 다양한 프로그래밍 언어에서 강력한 코드 생성, 디버깅, 리팩토링 능력을 보여줍니다.

오픈 웨이트의 자유

Apache 2.0 라이선스로 제한 없는 상업적 사용, 파인튜닝, 재배포가 가능합니다. 연구와 커스터마이징을 위한 모델 가중치 완전 공개.

핵심 하이라이트

일반 하드웨어에서의 프론티어 MoE 성능

Qwen 3.6 35B A3B는 토큰당 3B 파라미터만 활성화하면서 코딩, 추론, 에이전트 벤치마크에서 강력한 결과를 달성합니다.

주요 성과

SWE-bench Verified: 73.4% - 실제 소프트웨어 엔지니어링
Terminal-Bench 2.0: 51.5 - 복잡한 터미널 작업
AIME 2026: 92.7% - 고급 수학
LiveCodeBench v6: 80.4 - 경쟁 프로그래밍
Apache 2.0 라이선스 - 완전 오픈 웨이트

기술 사양

총 35B 파라미터, 토큰당 3B 활성
256개 전문가: 토큰당 8개 라우팅 + 1개 공유 활성
Hybrid Gated DeltaNet + Gated Attention + MoE 아키텍처
262K 네이티브 컨텍스트, 최대 1M 토큰 확장 가능
일반 GPU에서 로컬 구동

무료 채팅 시작 가중치 다운로드

성능

3B 활성 추론 비용으로 강력한 MoE 성능

Qwen 3.6 35B A3B는 토큰당 3B 파라미터만 활성화하면서 SWE-bench Verified 73.4%, AIME 2026 92.7%를 달성하여 프론티어급 기능을 일반 하드웨어에 제공합니다.

Qwen 3.6 35B A3B는 256개 전문가를 갖춘 희소 MoE 아키텍처가 연산 비용의 일부만으로 소프트웨어 엔지니어링, 수학, 경쟁 프로그래밍에서 인상적인 결과를 달성할 수 있음을 보여줍니다.

채팅 시작하기 모델 카드 보기

SWE-bench Verified: 73.4%, 3B 활성 파라미터만으로

Terminal-Bench 2.0: 51.5 터미널 작업

AIME 2026: 92.7% 고급 수학

LiveCodeBench v6: 80.4 경쟁 프로그래밍

Apache 2.0 오픈 웨이트 라이선스

벤치마크 비교

Qwen 3.6 35B A3B vs Qwen 3.6 패밀리 및 경쟁 모델

Qwen 3.6 35B A3B는 최소한의 추론 비용으로 소프트웨어 엔지니어링, 터미널 작업, 추론 벤치마크에서 강력한 성능을 제공합니다.

Benchmark	Qwen 3.6 35B A3B MoE 주목	Qwen 3.6 27B Dense	Qwen 3.6 Plus 프로프라이어터리	Qwen 3 235B A22B MoE
SWE-bench Verified 실제 소프트웨어 엔지니어링	73.4%	77.2%	78.8%	76.2%
Terminal-Bench 2.0 터미널 작업	51.5	59.3	61.6	-
AIME 2026 수학 No tools	92.7%	94.1%	-	-
LiveCodeBench v6 경쟁 프로그래밍	80.4	83.9	-	-

공식 Qwen 3.6 모델 카드 및 HuggingFace 평가 기반 벤치마크 결과.

256-Expert MoE

35B 용량, 3B 추론 비용 - 일반 GPU에서 구동

Mixture-of-Experts 설계는 각 토큰을 256개 전문가 중 8개와 1개 공유 전문가를 통해 라우팅합니다. 라우팅 다양성을 위해 35B 전체 파라미터가 로드되지만, 순방향 패스당 3B만 활성화됩니다. Hybrid Gated DeltaNet + Gated Attention 아키텍처와 결합하여 강력한 성능으로 일반 GPU 배포가 가능합니다.