Qwen 3.6 35B A3B

35 Milliarden Parameter, 3 Milliarden aktiv – Frontier-MoE auf Consumer-Hardware

Qwen 3.6 35B A3B ist ein Mixture-of-Experts-Modell, das pro Token nur 3B Parameter aus 256 Experten aktiviert. Mit 73,4 % auf SWE-bench Verified, 92,7 % auf AIME 2026 und Apache 2.0-Lizenz bringt es Spitzen-Coding und -Reasoning auf Consumer-GPUs.

Jetzt chatten Benchmarks ansehen

Modellvarianten

Open-Weight MoE für lokales und Cloud-Deployment

Qwen 3.6 35B A3B liefert starke Leistung mit minimalen aktiven Parametern. Wähle die instruktionsoptimierte Variante für Chat und Coding oder das Basismodell zum Feintuning.

Mixture-of-Experts-Architektur

35B Gesamtparameter, 3B aktiv pro Token, 256 Experten

Qwen 3.6 35B A3B nutzt ein Hybrid Gated DeltaNet + Gated Attention + MoE-Design mit 256 Experten, wobei 8 Experten plus 1 geteilter Experte pro Token geroutet werden. Der 262K native Kontext ist auf 1M Token erweiterbar, und die Apache 2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung.

Mit nur 3B aktiven Parametern pro Token läuft dieses Modell effizient auf Consumer-GPUs und liefert dabei Leistung, die mit deutlich größeren dichten Modellen konkurriert.

Jetzt chatten Fähigkeiten ansehen

Instruktionsoptimiert

35B A3B Instruct

Optimiert für konversationelle KI, Coding und agentische Aufgaben auf Consumer-Hardware

Feinabgestimmt für Instruktionsbefolgung und Mehrrunden-Dialog mit MoE-Effizienz

Jetzt verfügbar – Apache 2.0

Jetzt chatten Gewichte herunterladen

Vortrainiert

35B A3B Base

MoE-Basismodell für Feintuning und spezialisierte Anwendungen

Vortrainiert mit 256-Experten-MoE-Routing auf vielfältigen Daten

Jetzt verfügbar – Apache 2.0

Auf HuggingFace ansehen Feintuning-Anleitung

Fähigkeiten

256 Experten, 3B aktiv – maximale Effizienz trifft starke Leistung

Qwen 3.6 35B A3B kombiniert einen riesigen Experten-Pool mit minimalem aktivem Rechenaufwand und liefert beeindruckende Coding-, Reasoning- und agentische Fähigkeiten auf Consumer-Hardware.

Reale Softwareentwicklung

73,4 % auf SWE-bench Verified – Lösung realer GitHub-Issues mit nur 3B aktiven Parametern pro Token. Konkurrenzfähig mit Modellen, die 10x mehr Rechenleistung bei der Inferenz nutzen.

Terminal-Operationen

51,5 auf Terminal-Bench 2.0 für komplexe mehrstufige Terminal-Workflows. Bewältigt Debugging, Systemadministration und Build-Pipeline-Aufgaben mit hoher Kompetenz.

Fortgeschrittene Mathematik

92,7 % auf AIME 2026 – nahezu Frontier-Mathematik-Reasoning von einem Modell, das auf Consumer-GPUs läuft. Der Schritt-für-Schritt-Denkmodus ermöglicht transparente Problemlösung.

262K bis 1M Kontext

262K natives Kontextfenster, erweiterbar auf 1M Token. Analysiere ganze Codebasen, lange Dokumente und komplexe Mehrrunden-Konversationen ohne Kürzung.

Wettbewerbsprogrammierung

80,4 auf LiveCodeBench v6 für algorithmische Problemlösung. Starke Codegenerierung, Debugging und Refactoring-Fähigkeiten über mehrere Programmiersprachen hinweg.

Open-Weight-Freiheit

Die Apache 2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung, Feintuning und Weiterverteilung. Volle Transparenz der Modellgewichte für Forschung und Anpassung.

Wichtige Highlights

Frontier-MoE-Leistung auf Consumer-Hardware

Qwen 3.6 35B A3B erzielt starke Ergebnisse bei Coding-, Reasoning- und agentischen Benchmarks und aktiviert dabei nur 3B Parameter pro Token.

Top-Ergebnisse

SWE-bench Verified: 73,4 % – reale Softwareentwicklung
Terminal-Bench 2.0: 51,5 – komplexe Terminal-Operationen
AIME 2026: 92,7 % – fortgeschrittene Mathematik
LiveCodeBench v6: 80,4 – Wettbewerbsprogrammierung
Apache 2.0-Lizenz – vollständig Open-Weight

Technische Daten

35B Gesamtparameter, 3B aktiv pro Token
256 Experten: 8 geroutet + 1 geteilt aktiv pro Token
Hybrid Gated DeltaNet + Gated Attention + MoE-Architektur
262K nativer Kontext, erweiterbar auf 1M Token
Läuft lokal auf Consumer-GPUs

Kostenlos chatten Gewichte herunterladen

Leistung

Starke MoE-Leistung bei 3B aktiven Inferenzkosten

Qwen 3.6 35B A3B erreicht 73,4 % auf SWE-bench Verified und 92,7 % auf AIME 2026 bei nur 3B aktiven Parametern pro Token – Frontier-Fähigkeiten auf Consumer-Hardware.

Qwen 3.6 35B A3B zeigt, dass sparse MoE-Architekturen mit 256 Experten beeindruckende Ergebnisse bei Softwareentwicklung, Mathematik und Wettbewerbsprogrammierung liefern können – bei einem Bruchteil der Rechenkosten.

Jetzt chatten Modellkarte ansehen

Leistungsvergleichsdiagramm von Qwen 3.6 35B A3B über Coding- und Reasoning-Benchmarks

SWE-bench Verified: 73,4 % mit nur 3B aktiven Parametern

Terminal-Bench 2.0: 51,5 für Terminal-Operationen

AIME 2026: 92,7 % bei fortgeschrittener Mathematik

LiveCodeBench v6: 80,4 Wettbewerbsprogrammierung

Apache 2.0 Open-Weight-Lizenz

Benchmark-Vergleich

Qwen 3.6 35B A3B vs. die Qwen 3.6-Familie und Wettbewerber

Qwen 3.6 35B A3B liefert starke Leistung bei Softwareentwicklung, Terminal-Operationen und Reasoning-Benchmarks bei minimalen Inferenzkosten.

Benchmark	Qwen 3.6 35B A3B MoE Vorgestellt	Qwen 3.6 27B Dicht	Qwen 3.6 Plus Proprietär	Qwen 3 235B A22B MoE
SWE-bench Verified Reale Softwareentwicklung	73.4%	77.2%	78.8%	76.2%
Terminal-Bench 2.0 Terminal-Operationen	51.5	59.3	61.6	-
AIME 2026 Mathematik Ohne Tools	92.7%	94.1%	-	-
LiveCodeBench v6 Wettbewerbsprogrammierung	80.4	83.9	-	-

Benchmark-Ergebnisse aus der offiziellen Qwen 3.6 Modellkarte und HuggingFace-Evaluierungen.

256-Experten-MoE

35B Kapazität, 3B Inferenzkosten – läuft auf Consumer-GPUs

Das Mixture-of-Experts-Design routet jedes Token durch 8 von 256 Experten plus 1 geteilten Experten. Alle 35B Parameter werden für Routing-Diversität geladen, aber nur 3B aktivieren sich pro Forward Pass. Kombiniert mit der Hybrid Gated DeltaNet + Gated Attention-Architektur ermöglicht dies Consumer-GPU-Deployment mit starker Leistung.

3B aktive Parameter pro Token aus 35B Gesamtkapazität
256 Experten: 8 geroutet + 1 geteilt aktiv pro Token
Läuft lokal auf Consumer-GPUs mit Quantisierung

Jetzt chatten Architekturdetails ansehen

35B Kapazität, 3B Inferenzkosten – läuft auf Consumer-GPUs

Open Weight

Apache 2.0 – vollständig offen für kommerzielle Nutzung und Feintuning

Qwen 3.6 35B A3B wird unter der Apache 2.0-Lizenz veröffentlicht und ermöglicht uneingeschränktes kommerzielles Deployment, Feintuning und Weiterverteilung. Lade Gewichte von HuggingFace herunter und deploye auf deiner eigenen Infrastruktur mit voller Kontrolle.