Qwen Code

Agentisches Coding, das echte GitHub-Issues löst, Terminal-Workflows meistert und Claude bei SkillsBench schlägt

Die Qwen-3.6-Familie liefert Elite-Coding-Leistung in jeder Dimension. Das Plus-Modell erreicht 78,8 % auf SWE-bench Verified und 61,6 auf Terminal-Bench 2.0. Das 27B-Dense-Modell erzielt 77,2 % SWE-bench, 48,2 auf SkillsBench (schlägt Claude 4.5 Opus mit 45,3) und 1487 auf QwenWebBench für Frontend-Code-Generierung. Das 35B-A3B-MoE bringt 73,4 % SWE-bench auf einer Consumer-GPU. Alle Modelle funktionieren mit Claude Code, OpenClaw, Aider und Continue.dev über die OpenAI-kompatible API. preserve_thinking erhält den Reasoning-Zustand über Agent-Loop-Iterationen für iterative Entwicklung.

Coding-Fähigkeiten

Full-Stack-Coding vom Terminal bis zur Produktion – mit Thinking-Preservation

Qwen-3.6-Modelle glänzen in jeder Phase des Software-Entwicklungszyklus. Vom Verstehen großer Codebasen über Code-Generierung bis hin zu Debugging, Testing und Deployment über Terminal-Workflows. Der preserve_thinking-Parameter erhält den Reasoning-Kontext über iterative Entwicklungszyklen.

Agentisches Coding (SWE-bench)

Löst reale GitHub-Issues autonom von Anfang bis Ende. 78,8 % auf SWE-bench Verified (Plus) und 77,2 % (27B) zeigen die Fähigkeit, Repositories zu navigieren, Ursachen zu identifizieren, Fixes zu implementieren und funktionierende Patches ohne menschliches Eingreifen einzureichen. Das 35B A3B erreicht 73,4 % auf einer Consumer-GPU. Diese Ergebnisse platzieren Qwen 3.6 unter den Top-Modellen für autonomes Software-Engineering.

Frontend-Code-Generierung (QwenWebBench)

Das 27B-Modell erreicht 1487 auf QwenWebBench und das 35B A3B 1397, was starke Frontend-Code-Generierungsfähigkeiten zeigt. Generiert vollständige React-, Vue- und Next.js-Komponenten mit korrektem TypeScript-Typing, Barrierefreiheitsattributen, responsiven Layouts und Design-System-Integration. Beherrscht CSS-in-JS, Tailwind CSS und Component-Library-Patterns. Der preserve_thinking-Parameter hilft, den Design-Kontext über Multi-File-Frontend-Scaffolding beizubehalten.

Terminal-Operationen (Terminal-Bench)

61,6 auf Terminal-Bench 2.0 (Plus) und 59,3 (27B) – Terminal-Beherrschung auf Expertenniveau. Bewältigt komplexe mehrstufige Shell-Workflows, Systemadministrationsaufgaben, Debugging-Sessions, CI/CD-Pipeline-Management, Docker-Orchestrierung und Infrastruktur-Automatisierung. Das 35B A3B erreicht 51,5 – immer noch stark für ein Consumer-GPU-Modell.

SkillsBench – schlägt Claude 4.5 Opus

Das 27B-Modell erreicht 48,2 auf SkillsBench und schlägt damit Claude 4.5 Opus mit 45,3. SkillsBench bewertet praktische Coding-Fähigkeiten wie Code-Review, Refactoring, API-Design, Teststrategie und architektonische Entscheidungsfindung. Dieser Benchmark misst die Art von nuanciertem Engineering-Urteilsvermögen, das in der realen Entwicklung zählt – nicht nur Code-Generierung.

Repository-Level-Reasoning (NL2Repo)

Das 27B-Modell erreicht 36,2 auf NL2Repo und zeigt die Fähigkeit, natürlichsprachliche Beschreibungen in vollständige Repository-Strukturen zu übersetzen. Versteht dateiübergreifende Abhängigkeiten, Modulgrenzen, Architekturmuster und Projektkonventionen über ganze Repositories hinweg. Das 1M-Kontextfenster (Plus) ermöglicht die Verarbeitung kompletter Codebasen in einem Durchgang.

Code-Generierung (LiveCodeBench)

83,9 auf LiveCodeBench (27B) und 80,4 (35B A3B) für wettbewerbsfähige Code-Generierung. Produziert sauberen, idiomatischen Code in Python, TypeScript, Rust, Go, Java, C++ und über 20 weiteren Sprachen mit korrekter Fehlerbehandlung, Dokumentation und Testabdeckung. Bewältigt algorithmische Probleme, Datenstruktur-Implementierungen und System-Design-Herausforderungen.

Coding-Tool-Integration

Funktioniert mit Claude Code, OpenClaw, Aider, Continue.dev und Qwen Code über die OpenAI-kompatible API. Setze die Base-URL auf deinen DashScope-, OpenRouter- oder lokalen Ollama-Endpunkt und starte sofort mit dem Coden. Der preserve_thinking-Parameter ist besonders wertvoll in Claude-Code- und OpenClaw-Agent-Loops, wo die Beibehaltung des Reasoning-Zustands über Iterationen redundantes Re-Reasoning reduziert und die Fix-Genauigkeit verbessert.

Debugging, Testing und Claw-Eval

Das 27B-Modell erreicht 72,4 im Claw-Eval-Durchschnitt und das 35B A3B 68,7, was die End-to-End-agentische Coding-Fähigkeit misst. Verfolgt Bugs durch komplexe Call-Stacks, identifiziert Ursachen aus Fehlerprotokollen und generiert umfassende Testsuiten. Unterstützt Unit-Tests, Integrationstests, End-to-End-Testing-Frameworks und Property-Based-Testing über alle wichtigen Sprachen und Frameworks.

Coding-Benchmarks

Spitzenergebnisse in jeder Coding-Evaluierung

Qwen-3.6-Modelle rangieren durchgehend unter den besten bei Software-Engineering-, Code-Generierungs-, Terminal-Operations- und praktischen Coding-Skill-Benchmarks.

Software-Engineering-Benchmarks

  • SWE-bench Verified: 78,8 % (Plus) / 77,2 % (27B) / 73,4 % (35B A3B)
  • Terminal-Bench 2.0: 61,6 (Plus) / 59,3 (27B) / 51,5 (35B A3B)
  • SkillsBench: 48,2 (27B) – schlägt Claude 4.5 Opus (45,3)
  • Claw-Eval Avg: 72,4 (27B) / 68,7 (35B A3B)
  • LiveCodeBench: 83,9 (27B) / 80,4 (35B A3B)
  • QwenWebBench: 1487 (27B) / 1397 (35B A3B) – Frontend-Generierung
  • NL2Repo: 36,2 (27B) – natürliche Sprache zu Repository
  • SWE-bench Pro: 56,6 (Plus)

Tool- und Modelloptionen

  • Funktioniert mit: Claude Code, OpenClaw, Aider, Continue.dev, Qwen Code
  • 27B Dense: Bestes Open-Weight-Coding, 77,2 % SWE-bench
  • 35B A3B MoE: 73,4 % SWE-bench auf Consumer-GPU (ca. 21 GB VRAM)
  • Plus: 78,8 % SWE-bench, 1M Kontext, preserve_thinking
  • Frontend: React, Vue, Next.js mit TypeScript-Unterstützung
  • preserve_thinking: erhält Reasoning über Agent-Iterationen

Qwen-Ökosystem

Coding-Modelle für jede Skalierung – von der Consumer-GPU bis zur Frontier-Leistung

Vom 35B A3B, das auf einer einzelnen Consumer-GPU läuft, bis zum Plus mit 1M Kontext und preserve_thinking deckt die Qwen-3.6-Familie jedes Coding-Deployment-Szenario ab. Alle Modelle funktionieren mit Claude Code, OpenClaw, Aider und Continue.dev.

Qwen 3.6 27B

Dense, 77,2 % SWE-bench, 48,2 SkillsBench

Mehr erfahren

Qwen 3.6 35B A3B

MoE, 73,4 % SWE-bench, Consumer-GPU

Mehr erfahren

Qwen 3.6 Plus

78,8 % SWE-bench, 1M Kontext, preserve_thinking

Mehr erfahren

Ollama-Setup

Qwen Code lokal mit einem Befehl betreiben

Loslegen

API-Referenz

OpenAI-kompatible Endpunkte für Coding-Aufgaben

API ansehen

Community

Tritt der Qwen-Entwickler-Community bei

Beitreten

Jetzt coden

Bereit, mit Qwen 3.6 zu coden? 78,8 % SWE-bench, funktioniert mit deinen Lieblingstools

Chatte kostenlos oder integriere über die OpenAI-kompatible API. Funktioniert mit Claude Code, OpenClaw, Aider und Continue.dev. Wähle aus Open-Weight-Modellen, die du lokal betreiben kannst, oder dem Plus für maximale Leistung mit preserve_thinking.