Qwen 3.6 35B A3B
35 Milliarden Parameter, 3 Milliarden aktiv – Frontier-MoE auf Consumer-Hardware
Qwen 3.6 35B A3B ist ein Mixture-of-Experts-Modell, das pro Token nur 3B Parameter aus 256 Experten aktiviert. Mit 73,4 % auf SWE-bench Verified, 92,7 % auf AIME 2026 und Apache 2.0-Lizenz bringt es Spitzen-Coding und -Reasoning auf Consumer-GPUs.
Modellvarianten
Open-Weight MoE für lokales und Cloud-Deployment
Qwen 3.6 35B A3B liefert starke Leistung mit minimalen aktiven Parametern. Wähle die instruktionsoptimierte Variante für Chat und Coding oder das Basismodell zum Feintuning.
Mixture-of-Experts-Architektur
35B Gesamtparameter, 3B aktiv pro Token, 256 Experten
Qwen 3.6 35B A3B nutzt ein Hybrid Gated DeltaNet + Gated Attention + MoE-Design mit 256 Experten, wobei 8 Experten plus 1 geteilter Experte pro Token geroutet werden. Der 262K native Kontext ist auf 1M Token erweiterbar, und die Apache 2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung.
Mit nur 3B aktiven Parametern pro Token läuft dieses Modell effizient auf Consumer-GPUs und liefert dabei Leistung, die mit deutlich größeren dichten Modellen konkurriert.
Instruktionsoptimiert
35B A3B Instruct
Optimiert für konversationelle KI, Coding und agentische Aufgaben auf Consumer-Hardware
Feinabgestimmt für Instruktionsbefolgung und Mehrrunden-Dialog mit MoE-Effizienz
Vortrainiert
35B A3B Base
MoE-Basismodell für Feintuning und spezialisierte Anwendungen
Vortrainiert mit 256-Experten-MoE-Routing auf vielfältigen Daten
Fähigkeiten
256 Experten, 3B aktiv – maximale Effizienz trifft starke Leistung
Qwen 3.6 35B A3B kombiniert einen riesigen Experten-Pool mit minimalem aktivem Rechenaufwand und liefert beeindruckende Coding-, Reasoning- und agentische Fähigkeiten auf Consumer-Hardware.
Reale Softwareentwicklung
73,4 % auf SWE-bench Verified – Lösung realer GitHub-Issues mit nur 3B aktiven Parametern pro Token. Konkurrenzfähig mit Modellen, die 10x mehr Rechenleistung bei der Inferenz nutzen.
Terminal-Operationen
51,5 auf Terminal-Bench 2.0 für komplexe mehrstufige Terminal-Workflows. Bewältigt Debugging, Systemadministration und Build-Pipeline-Aufgaben mit hoher Kompetenz.
Fortgeschrittene Mathematik
92,7 % auf AIME 2026 – nahezu Frontier-Mathematik-Reasoning von einem Modell, das auf Consumer-GPUs läuft. Der Schritt-für-Schritt-Denkmodus ermöglicht transparente Problemlösung.
262K bis 1M Kontext
262K natives Kontextfenster, erweiterbar auf 1M Token. Analysiere ganze Codebasen, lange Dokumente und komplexe Mehrrunden-Konversationen ohne Kürzung.
Wettbewerbsprogrammierung
80,4 auf LiveCodeBench v6 für algorithmische Problemlösung. Starke Codegenerierung, Debugging und Refactoring-Fähigkeiten über mehrere Programmiersprachen hinweg.
Open-Weight-Freiheit
Die Apache 2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung, Feintuning und Weiterverteilung. Volle Transparenz der Modellgewichte für Forschung und Anpassung.
Wichtige Highlights
Frontier-MoE-Leistung auf Consumer-Hardware
Qwen 3.6 35B A3B erzielt starke Ergebnisse bei Coding-, Reasoning- und agentischen Benchmarks und aktiviert dabei nur 3B Parameter pro Token.
Top-Ergebnisse
- SWE-bench Verified: 73,4 % – reale Softwareentwicklung
- Terminal-Bench 2.0: 51,5 – komplexe Terminal-Operationen
- AIME 2026: 92,7 % – fortgeschrittene Mathematik
- LiveCodeBench v6: 80,4 – Wettbewerbsprogrammierung
- Apache 2.0-Lizenz – vollständig Open-Weight
Technische Daten
- 35B Gesamtparameter, 3B aktiv pro Token
- 256 Experten: 8 geroutet + 1 geteilt aktiv pro Token
- Hybrid Gated DeltaNet + Gated Attention + MoE-Architektur
- 262K nativer Kontext, erweiterbar auf 1M Token
- Läuft lokal auf Consumer-GPUs
Leistung
Starke MoE-Leistung bei 3B aktiven Inferenzkosten
Qwen 3.6 35B A3B erreicht 73,4 % auf SWE-bench Verified und 92,7 % auf AIME 2026 bei nur 3B aktiven Parametern pro Token – Frontier-Fähigkeiten auf Consumer-Hardware.
Qwen 3.6 35B A3B zeigt, dass sparse MoE-Architekturen mit 256 Experten beeindruckende Ergebnisse bei Softwareentwicklung, Mathematik und Wettbewerbsprogrammierung liefern können – bei einem Bruchteil der Rechenkosten.


SWE-bench Verified: 73,4 % mit nur 3B aktiven Parametern
Terminal-Bench 2.0: 51,5 für Terminal-Operationen
AIME 2026: 92,7 % bei fortgeschrittener Mathematik
LiveCodeBench v6: 80,4 Wettbewerbsprogrammierung
Apache 2.0 Open-Weight-Lizenz
Benchmark-Vergleich
Qwen 3.6 35B A3B vs. die Qwen 3.6-Familie und Wettbewerber
Qwen 3.6 35B A3B liefert starke Leistung bei Softwareentwicklung, Terminal-Operationen und Reasoning-Benchmarks bei minimalen Inferenzkosten.
| Benchmark | Qwen 3.6 35B A3B MoE Vorgestellt | Qwen 3.6 27B Dicht | Qwen 3.6 Plus Proprietär | Qwen 3 235B A22B MoE |
|---|---|---|---|---|
SWE-bench Verified Reale Softwareentwicklung | 73.4% | 77.2% | 78.8% | 76.2% |
Terminal-Bench 2.0 Terminal-Operationen | 51.5 | 59.3 | 61.6 | - |
AIME 2026 Mathematik Ohne Tools | 92.7% | 94.1% | - | - |
LiveCodeBench v6 Wettbewerbsprogrammierung | 80.4 | 83.9 | - | - |
Benchmark-Ergebnisse aus der offiziellen Qwen 3.6 Modellkarte und HuggingFace-Evaluierungen.
256-Experten-MoE
35B Kapazität, 3B Inferenzkosten – läuft auf Consumer-GPUs
Das Mixture-of-Experts-Design routet jedes Token durch 8 von 256 Experten plus 1 geteilten Experten. Alle 35B Parameter werden für Routing-Diversität geladen, aber nur 3B aktivieren sich pro Forward Pass. Kombiniert mit der Hybrid Gated DeltaNet + Gated Attention-Architektur ermöglicht dies Consumer-GPU-Deployment mit starker Leistung.
- 3B aktive Parameter pro Token aus 35B Gesamtkapazität
- 256 Experten: 8 geroutet + 1 geteilt aktiv pro Token
- Läuft lokal auf Consumer-GPUs mit Quantisierung

Open Weight
Apache 2.0 – vollständig offen für kommerzielle Nutzung und Feintuning
Qwen 3.6 35B A3B wird unter der Apache 2.0-Lizenz veröffentlicht und ermöglicht uneingeschränktes kommerzielles Deployment, Feintuning und Weiterverteilung. Lade Gewichte von HuggingFace herunter und deploye auf deiner eigenen Infrastruktur mit voller Kontrolle.
- Apache 2.0-Lizenz – keine Nutzungsbeschränkungen
- Voller Zugang zu Gewichten für Feintuning und Anpassung
- Community-getriebenes Ökosystem mit breiter Framework-Unterstützung
Erste Schritte
Qwen 3.6 35B A3B jetzt ausprobieren
Starte sofort einen Chat oder lade Open-Weight-Modelle für selbstgehostetes Deployment herunter.
Lokales Deployment
Auf deiner eigenen Hardware betreiben
Lokales Deployment auf Consumer-GPUs mit quantisierten Gewichten. Apache 2.0-Lizenz für uneingeschränkte Nutzung.
Qwen-Ökosystem
Teil der Qwen 3.6 Modellfamilie
Qwen 3.6 35B A3B ist die Open-Weight-MoE-Variante in Alibabas neuester Modellfamilie, konzipiert für maximale Zugänglichkeit auf Consumer-Hardware.
Erste Schritte
Bereit, mit Qwen 3.6 35B A3B zu entwickeln?
Starte sofort einen kostenlosen Chat oder lade Open-Weight-Modelle unter Apache 2.0 für selbstgehostetes Deployment auf Consumer-Hardware herunter.