Qwen 3.6 35B A3B

35 Milliarden Parameter, 3 Milliarden aktiv – Frontier-MoE auf Consumer-Hardware

Qwen 3.6 35B A3B ist ein Mixture-of-Experts-Modell, das pro Token nur 3B Parameter aus 256 Experten aktiviert. Mit 73,4 % auf SWE-bench Verified, 92,7 % auf AIME 2026 und Apache 2.0-Lizenz bringt es Spitzen-Coding und -Reasoning auf Consumer-GPUs.

Modellvarianten

Open-Weight MoE für lokales und Cloud-Deployment

Qwen 3.6 35B A3B liefert starke Leistung mit minimalen aktiven Parametern. Wähle die instruktionsoptimierte Variante für Chat und Coding oder das Basismodell zum Feintuning.

Mixture-of-Experts-Architektur

35B Gesamtparameter, 3B aktiv pro Token, 256 Experten

Qwen 3.6 35B A3B nutzt ein Hybrid Gated DeltaNet + Gated Attention + MoE-Design mit 256 Experten, wobei 8 Experten plus 1 geteilter Experte pro Token geroutet werden. Der 262K native Kontext ist auf 1M Token erweiterbar, und die Apache 2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung.

Mit nur 3B aktiven Parametern pro Token läuft dieses Modell effizient auf Consumer-GPUs und liefert dabei Leistung, die mit deutlich größeren dichten Modellen konkurriert.

Instruktionsoptimiert

35B A3B Instruct

Optimiert für konversationelle KI, Coding und agentische Aufgaben auf Consumer-Hardware

Feinabgestimmt für Instruktionsbefolgung und Mehrrunden-Dialog mit MoE-Effizienz

Jetzt verfügbar – Apache 2.0

Vortrainiert

35B A3B Base

MoE-Basismodell für Feintuning und spezialisierte Anwendungen

Vortrainiert mit 256-Experten-MoE-Routing auf vielfältigen Daten

Jetzt verfügbar – Apache 2.0

Fähigkeiten

256 Experten, 3B aktiv – maximale Effizienz trifft starke Leistung

Qwen 3.6 35B A3B kombiniert einen riesigen Experten-Pool mit minimalem aktivem Rechenaufwand und liefert beeindruckende Coding-, Reasoning- und agentische Fähigkeiten auf Consumer-Hardware.

Reale Softwareentwicklung

73,4 % auf SWE-bench Verified – Lösung realer GitHub-Issues mit nur 3B aktiven Parametern pro Token. Konkurrenzfähig mit Modellen, die 10x mehr Rechenleistung bei der Inferenz nutzen.

Terminal-Operationen

51,5 auf Terminal-Bench 2.0 für komplexe mehrstufige Terminal-Workflows. Bewältigt Debugging, Systemadministration und Build-Pipeline-Aufgaben mit hoher Kompetenz.

Fortgeschrittene Mathematik

92,7 % auf AIME 2026 – nahezu Frontier-Mathematik-Reasoning von einem Modell, das auf Consumer-GPUs läuft. Der Schritt-für-Schritt-Denkmodus ermöglicht transparente Problemlösung.

262K bis 1M Kontext

262K natives Kontextfenster, erweiterbar auf 1M Token. Analysiere ganze Codebasen, lange Dokumente und komplexe Mehrrunden-Konversationen ohne Kürzung.

Wettbewerbsprogrammierung

80,4 auf LiveCodeBench v6 für algorithmische Problemlösung. Starke Codegenerierung, Debugging und Refactoring-Fähigkeiten über mehrere Programmiersprachen hinweg.

Open-Weight-Freiheit

Die Apache 2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung, Feintuning und Weiterverteilung. Volle Transparenz der Modellgewichte für Forschung und Anpassung.

Wichtige Highlights

Frontier-MoE-Leistung auf Consumer-Hardware

Qwen 3.6 35B A3B erzielt starke Ergebnisse bei Coding-, Reasoning- und agentischen Benchmarks und aktiviert dabei nur 3B Parameter pro Token.

Top-Ergebnisse

  • SWE-bench Verified: 73,4 % – reale Softwareentwicklung
  • Terminal-Bench 2.0: 51,5 – komplexe Terminal-Operationen
  • AIME 2026: 92,7 % – fortgeschrittene Mathematik
  • LiveCodeBench v6: 80,4 – Wettbewerbsprogrammierung
  • Apache 2.0-Lizenz – vollständig Open-Weight

Technische Daten

  • 35B Gesamtparameter, 3B aktiv pro Token
  • 256 Experten: 8 geroutet + 1 geteilt aktiv pro Token
  • Hybrid Gated DeltaNet + Gated Attention + MoE-Architektur
  • 262K nativer Kontext, erweiterbar auf 1M Token
  • Läuft lokal auf Consumer-GPUs

Leistung

Starke MoE-Leistung bei 3B aktiven Inferenzkosten

Qwen 3.6 35B A3B erreicht 73,4 % auf SWE-bench Verified und 92,7 % auf AIME 2026 bei nur 3B aktiven Parametern pro Token – Frontier-Fähigkeiten auf Consumer-Hardware.

Qwen 3.6 35B A3B zeigt, dass sparse MoE-Architekturen mit 256 Experten beeindruckende Ergebnisse bei Softwareentwicklung, Mathematik und Wettbewerbsprogrammierung liefern können – bei einem Bruchteil der Rechenkosten.

Leistungsvergleichsdiagramm von Qwen 3.6 35B A3B über Coding- und Reasoning-Benchmarks

SWE-bench Verified: 73,4 % mit nur 3B aktiven Parametern

Terminal-Bench 2.0: 51,5 für Terminal-Operationen

AIME 2026: 92,7 % bei fortgeschrittener Mathematik

LiveCodeBench v6: 80,4 Wettbewerbsprogrammierung

Apache 2.0 Open-Weight-Lizenz

Benchmark-Vergleich

Qwen 3.6 35B A3B vs. die Qwen 3.6-Familie und Wettbewerber

Qwen 3.6 35B A3B liefert starke Leistung bei Softwareentwicklung, Terminal-Operationen und Reasoning-Benchmarks bei minimalen Inferenzkosten.

Benchmark
Qwen 3.6 35B A3B
MoE
Vorgestellt
Qwen 3.6 27B
Dicht
Qwen 3.6 Plus
Proprietär
Qwen 3 235B A22B
MoE
SWE-bench Verified
Reale Softwareentwicklung
73.4%77.2%78.8%76.2%
Terminal-Bench 2.0
Terminal-Operationen
51.559.361.6-
AIME 2026
Mathematik
Ohne Tools
92.7%94.1%--
LiveCodeBench v6
Wettbewerbsprogrammierung
80.483.9--

Benchmark-Ergebnisse aus der offiziellen Qwen 3.6 Modellkarte und HuggingFace-Evaluierungen.

256-Experten-MoE

35B Kapazität, 3B Inferenzkosten – läuft auf Consumer-GPUs

Das Mixture-of-Experts-Design routet jedes Token durch 8 von 256 Experten plus 1 geteilten Experten. Alle 35B Parameter werden für Routing-Diversität geladen, aber nur 3B aktivieren sich pro Forward Pass. Kombiniert mit der Hybrid Gated DeltaNet + Gated Attention-Architektur ermöglicht dies Consumer-GPU-Deployment mit starker Leistung.

  • 3B aktive Parameter pro Token aus 35B Gesamtkapazität
  • 256 Experten: 8 geroutet + 1 geteilt aktiv pro Token
  • Läuft lokal auf Consumer-GPUs mit Quantisierung
35B Kapazität, 3B Inferenzkosten – läuft auf Consumer-GPUs

Open Weight

Apache 2.0 – vollständig offen für kommerzielle Nutzung und Feintuning

Qwen 3.6 35B A3B wird unter der Apache 2.0-Lizenz veröffentlicht und ermöglicht uneingeschränktes kommerzielles Deployment, Feintuning und Weiterverteilung. Lade Gewichte von HuggingFace herunter und deploye auf deiner eigenen Infrastruktur mit voller Kontrolle.

  • Apache 2.0-Lizenz – keine Nutzungsbeschränkungen
  • Voller Zugang zu Gewichten für Feintuning und Anpassung
  • Community-getriebenes Ökosystem mit breiter Framework-Unterstützung

Lokales Deployment

Auf deiner eigenen Hardware betreiben

Lokales Deployment auf Consumer-GPUs mit quantisierten Gewichten. Apache 2.0-Lizenz für uneingeschränkte Nutzung.

Qwen-Ökosystem

Teil der Qwen 3.6 Modellfamilie

Qwen 3.6 35B A3B ist die Open-Weight-MoE-Variante in Alibabas neuester Modellfamilie, konzipiert für maximale Zugänglichkeit auf Consumer-Hardware.

Dokumentation

Vollständige Anleitungen für Integration und Deployment

Docs lesen

HuggingFace

Apache 2.0-Gewichte herunterladen und den Model Hub erkunden

Herunterladen

Modellkarte

Technische Spezifikationen und Evaluierungsergebnisse

Details ansehen

GitHub-Repository

Quellcode, Beispiele und Community-Beiträge

Code ansehen

API-Zugang

OpenAI-kompatible API-Endpunkte für Cloud-Deployment

Loslegen

Community

Tritt der Qwen-Entwickler-Community bei

Beitreten

Erste Schritte

Bereit, mit Qwen 3.6 35B A3B zu entwickeln?

Starte sofort einen kostenlosen Chat oder lade Open-Weight-Modelle unter Apache 2.0 für selbstgehostetes Deployment auf Consumer-Hardware herunter.