Qwen Code

Coding agentique qui résout de vrais issues GitHub, maîtrise les workflows terminal et bat Claude sur SkillsBench

La famille Qwen 3.6 offre des performances de coding d'élite sur toutes les dimensions. Le modèle Plus atteint 78,8 % sur SWE-bench Verified et 61,6 sur Terminal-Bench 2.0. Le modèle dense 27B obtient 77,2 % SWE-bench, 48,2 sur SkillsBench (battant Claude 4.5 Opus à 45,3) et 1487 sur QwenWebBench pour la génération de code frontend. Le MoE 35B A3B apporte 73,4 % SWE-bench sur un GPU grand public. Tous les modèles fonctionnent avec Claude Code, OpenClaw, Aider et Continue.dev via l'API compatible OpenAI. preserve_thinking maintient l'état de raisonnement à travers les itérations de boucle d'agent pour le développement itératif.

Capacités de coding

Coding full-stack du terminal à la production – avec préservation du raisonnement

Les modèles Qwen 3.6 excellent à chaque étape du cycle de développement logiciel. De la compréhension de grandes bases de code à la génération de code, en passant par le débogage, les tests et le déploiement via des workflows terminal. Le paramètre preserve_thinking maintient le contexte de raisonnement à travers les cycles de développement itératifs.

Coding agentique (SWE-bench)

Résout de manière autonome de vrais issues GitHub de bout en bout. 78,8 % sur SWE-bench Verified (Plus) et 77,2 % (27B) démontrent la capacité à naviguer dans les dépôts, identifier les causes racines, implémenter des corrections et soumettre des patches fonctionnels sans intervention humaine. Le 35B A3B atteint 73,4 % sur un GPU grand public. Ces scores placent Qwen 3.6 parmi les meilleurs modèles pour l'ingénierie logicielle autonome.

Génération de code frontend (QwenWebBench)

Le modèle 27B obtient 1487 sur QwenWebBench et le 35B A3B 1397, démontrant de solides capacités de génération de code frontend. Génère des composants React, Vue et Next.js complets avec un typage TypeScript correct, des attributs d'accessibilité, des layouts responsifs et une intégration de design system. Gère CSS-in-JS, Tailwind CSS et les patterns de bibliothèques de composants. Le paramètre preserve_thinking aide à maintenir le contexte de design lors du scaffolding frontend multi-fichiers.

Opérations terminal (Terminal-Bench)

61,6 sur Terminal-Bench 2.0 (Plus) et 59,3 (27B) – maîtrise du terminal au niveau expert. Gère des workflows shell multi-étapes complexes, des tâches d'administration système, des sessions de débogage, la gestion de pipelines CI/CD, l'orchestration Docker et l'automatisation d'infrastructure. Le 35B A3B obtient 51,5, toujours solide pour un modèle GPU grand public.

SkillsBench – bat Claude 4.5 Opus

Le modèle 27B obtient 48,2 sur SkillsBench, battant Claude 4.5 Opus à 45,3. SkillsBench évalue les compétences pratiques de coding incluant la revue de code, le refactoring, la conception d'API, la stratégie de test et la prise de décision architecturale. Ce benchmark mesure le type de jugement d'ingénierie nuancé qui compte dans le développement réel, pas seulement la génération de code.

Raisonnement au niveau repo (NL2Repo)

Le modèle 27B obtient 36,2 sur NL2Repo, démontrant la capacité à traduire des descriptions en langage naturel en structures de dépôt complètes. Comprend les dépendances inter-fichiers, les frontières de modules, les patterns architecturaux et les conventions de projet à travers des dépôts entiers. La fenêtre de contexte 1M (Plus) permet de traiter des bases de code complètes en une seule passe.

Génération de code (LiveCodeBench)

83,9 sur LiveCodeBench (27B) et 80,4 (35B A3B) pour une génération de code de niveau compétitif. Produit du code propre et idiomatique en Python, TypeScript, Rust, Go, Java, C++ et plus de 20 langages avec une gestion d'erreurs correcte, de la documentation et une couverture de tests. Gère les problèmes algorithmiques, les implémentations de structures de données et les défis de conception système.

Intégration d'outils de coding

Fonctionne avec Claude Code, OpenClaw, Aider, Continue.dev et Qwen Code via l'API compatible OpenAI. Configure l'URL de base vers ton endpoint DashScope, OpenRouter ou Ollama local et commence à coder immédiatement. Le paramètre preserve_thinking est particulièrement précieux dans les boucles d'agent Claude Code et OpenClaw où le maintien de l'état de raisonnement à travers les itérations réduit le re-raisonnement redondant et améliore la précision des corrections.

Débogage, tests et Claw-Eval

Le modèle 27B obtient 72,4 en moyenne Claw-Eval et le 35B A3B 68,7, mesurant la capacité de coding agentique de bout en bout. Trace les bugs à travers des piles d'appels complexes, identifie les causes racines à partir des logs d'erreurs et génère des suites de tests complètes. Supporte les tests unitaires, les tests d'intégration, les frameworks de tests end-to-end et les tests basés sur les propriétés dans tous les langages et frameworks majeurs.

Benchmarks de coding

Résultats de premier plan dans chaque évaluation de coding

Les modèles Qwen 3.6 se classent régulièrement parmi les meilleurs en ingénierie logicielle, génération de code, opérations terminal et benchmarks de compétences pratiques de coding.

Benchmarks d'ingénierie logicielle

  • SWE-bench Verified : 78,8 % (Plus) / 77,2 % (27B) / 73,4 % (35B A3B)
  • Terminal-Bench 2.0 : 61,6 (Plus) / 59,3 (27B) / 51,5 (35B A3B)
  • SkillsBench : 48,2 (27B) – bat Claude 4.5 Opus (45,3)
  • Claw-Eval Avg : 72,4 (27B) / 68,7 (35B A3B)
  • LiveCodeBench : 83,9 (27B) / 80,4 (35B A3B)
  • QwenWebBench : 1487 (27B) / 1397 (35B A3B) – génération frontend
  • NL2Repo : 36,2 (27B) – langage naturel vers dépôt
  • SWE-bench Pro : 56,6 (Plus)

Options d'outils et de modèles

  • Fonctionne avec : Claude Code, OpenClaw, Aider, Continue.dev, Qwen Code
  • 27B Dense : Meilleur coding open-weight, 77,2 % SWE-bench
  • 35B A3B MoE : 73,4 % SWE-bench sur GPU grand public (environ 21 Go VRAM)
  • Plus : 78,8 % SWE-bench, contexte 1M, preserve_thinking
  • Frontend : React, Vue, Next.js avec support TypeScript
  • preserve_thinking : maintient le raisonnement à travers les itérations d'agent

Écosystème Qwen

Modèles de coding pour chaque échelle – du GPU grand public aux performances de pointe

Du 35B A3B qui tourne sur un seul GPU grand public au Plus avec contexte 1M et preserve_thinking, la famille Qwen 3.6 couvre chaque scénario de déploiement coding. Tous les modèles fonctionnent avec Claude Code, OpenClaw, Aider et Continue.dev.

Qwen 3.6 27B

Dense, 77,2 % SWE-bench, 48,2 SkillsBench

En savoir plus

Qwen 3.6 35B A3B

MoE, 73,4 % SWE-bench, GPU grand public

En savoir plus

Qwen 3.6 Plus

78,8 % SWE-bench, contexte 1M, preserve_thinking

En savoir plus

Setup Ollama

Exécute Qwen Code localement en une commande

Commencer

Référence API

Endpoints compatibles OpenAI pour les tâches de coding

Voir l'API

Communauté

Rejoins la communauté de développeurs Qwen

Rejoindre

Commencer à coder

Prêt à coder avec Qwen 3.6 ? 78,8 % SWE-bench, fonctionne avec tes outils préférés

Commence à chatter gratuitement ou intègre via l'API compatible OpenAI. Fonctionne avec Claude Code, OpenClaw, Aider et Continue.dev. Choisis parmi les modèles open-weight que tu peux exécuter localement ou le Plus pour des performances maximales avec preserve_thinking.