Qwen 3.6 35B A3B

35 milliards de paramètres, 3 milliards actifs - un MoE de pointe sur matériel grand public

Qwen 3.6 35B A3B est un modèle Mixture-of-Experts qui n'active que 3B paramètres par token parmi 256 experts. Avec 73,4 % sur SWE-bench Verified, 92,7 % sur AIME 2026 et une licence Apache 2.0, il apporte le codage et le raisonnement de classe frontière aux GPU grand public.

Variantes du modèle

MoE open-weight pour déploiement local et cloud

Qwen 3.6 35B A3B offre de solides performances avec un minimum de paramètres actifs. Choisissez la variante instruction-tuned pour le chat et le codage, ou le modèle de base pour le fine-tuning.

Architecture Mixture-of-Experts

35B paramètres totaux, 3B actifs par token, 256 experts

Qwen 3.6 35B A3B utilise une conception Hybrid Gated DeltaNet + Gated Attention + MoE avec 256 experts, routant 8 experts plus 1 expert partagé par token. Le contexte natif de 262K est extensible à 1M de tokens, et la licence Apache 2.0 permet une utilisation commerciale sans restriction.

Avec seulement 3B paramètres actifs par token, ce modèle fonctionne efficacement sur des GPU grand public tout en offrant des performances rivalisant avec des modèles denses bien plus grands.

Instruction-tuned

35B A3B Instruct

Optimisé pour l'IA conversationnelle, le codage et les tâches agentiques sur matériel grand public

Fine-tuné pour le suivi d'instructions et le dialogue multi-tours avec l'efficacité MoE

Disponible maintenant - Apache 2.0

Pré-entraîné

35B A3B Base

Modèle MoE de base pour le fine-tuning et les applications spécialisées

Pré-entraîné avec routage MoE à 256 experts sur des données diversifiées

Disponible maintenant - Apache 2.0

Capacités

256 experts, 3B actifs - efficacité maximale et performances solides

Qwen 3.6 35B A3B combine un vaste pool d'experts avec un calcul actif minimal pour offrir des capacités impressionnantes en codage, raisonnement et tâches agentiques sur du matériel grand public.

Ingénierie logicielle réelle

73,4 % sur SWE-bench Verified - résolution de vrais problèmes GitHub avec seulement 3B paramètres actifs par token. Compétitif avec des modèles utilisant 10 fois plus de calcul à l'inférence.

Opérations terminales

51,5 sur Terminal-Bench 2.0 pour les workflows terminaux complexes multi-étapes. Gère le débogage, l'administration système et les tâches de pipeline de build avec une solide compétence.

Mathématiques avancées

92,7 % sur AIME 2026 - un raisonnement mathématique proche de la frontière depuis un modèle qui fonctionne sur des GPU grand public. Le mode de réflexion étape par étape permet une résolution de problèmes transparente.

Contexte de 262K à 1M

Fenêtre de contexte native de 262K extensible à 1M de tokens. Analysez des bases de code entières, de longs documents et des conversations multi-tours complexes sans troncature.

Programmation compétitive

80,4 sur LiveCodeBench v6 pour la résolution de problèmes algorithmiques. Solides capacités de génération de code, débogage et refactoring dans plusieurs langages de programmation.

Liberté open-weight

La licence Apache 2.0 permet une utilisation commerciale, un fine-tuning et une redistribution sans restriction. Transparence totale sur les poids du modèle pour la recherche et la personnalisation.

Points clés

Performances MoE de pointe sur matériel grand public

Qwen 3.6 35B A3B atteint de solides résultats en codage, raisonnement et benchmarks agentiques tout en n'activant que 3B paramètres par token.

Principales réalisations

  • SWE-bench Verified : 73,4 % - ingénierie logicielle réelle
  • Terminal-Bench 2.0 : 51,5 - opérations terminales complexes
  • AIME 2026 : 92,7 % - mathématiques avancées
  • LiveCodeBench v6 : 80,4 - programmation compétitive
  • Licence Apache 2.0 - entièrement open-weight

Spécifications techniques

  • 35B paramètres totaux, 3B actifs par token
  • 256 experts : 8 routés + 1 partagé actif par token
  • Architecture Hybrid Gated DeltaNet + Gated Attention + MoE
  • Contexte natif de 262K, extensible à 1M de tokens
  • Fonctionne localement sur des GPU grand public

Performance

Solides performances MoE au coût d'inférence de 3B actifs

Qwen 3.6 35B A3B atteint 73,4 % sur SWE-bench Verified et 92,7 % sur AIME 2026 tout en n'activant que 3B paramètres par token - apportant des capacités de classe frontière au matériel grand public.

Qwen 3.6 35B A3B démontre que les architectures MoE éparses avec 256 experts peuvent offrir des résultats impressionnants en ingénierie logicielle, mathématiques et programmation compétitive pour une fraction du coût de calcul.

Graphique de comparaison des performances de Qwen 3.6 35B A3B sur les benchmarks de codage et de raisonnement

SWE-bench Verified : 73,4 % avec seulement 3B paramètres actifs

Terminal-Bench 2.0 : 51,5 pour les opérations terminales

AIME 2026 : 92,7 % en mathématiques avancées

LiveCodeBench v6 : 80,4 en programmation compétitive

Licence open-weight Apache 2.0

Comparaison des benchmarks

Qwen 3.6 35B A3B vs la famille Qwen 3.6 et concurrents

Qwen 3.6 35B A3B offre de solides performances en ingénierie logicielle, opérations terminales et benchmarks de raisonnement à un coût d'inférence minimal.

Benchmark
Qwen 3.6 35B A3B
MoE
En vedette
Qwen 3.6 27B
Dense
Qwen 3.6 Plus
Propriétaire
Qwen 3 235B A22B
MoE
SWE-bench Verified
Ingénierie logicielle réelle
73.4%77.2%78.8%76.2%
Terminal-Bench 2.0
Opérations terminales
51.559.361.6-
AIME 2026
Mathématiques
No tools
92.7%94.1%--
LiveCodeBench v6
Programmation compétitive
80.483.9--

Résultats des benchmarks issus de la fiche officielle du modèle Qwen 3.6 et des évaluations HuggingFace.

256-Expert MoE

Capacité de 35B, coût d'inférence de 3B - fonctionne sur GPU grand public

La conception Mixture-of-Experts route chaque token à travers 8 des 256 experts plus 1 expert partagé. Les 35B paramètres sont chargés pour la diversité du routage, mais seuls 3B s'activent par passe avant. Combiné avec l'architecture Hybrid Gated DeltaNet + Gated Attention, cela permet un déploiement sur GPU grand public avec de solides performances.

  • 3B paramètres actifs par token sur une capacité totale de 35B
  • 256 experts : 8 routés + 1 partagé actif par token
  • Fonctionne localement sur des GPU grand public avec quantification
Capacité de 35B, coût d'inférence de 3B - fonctionne sur GPU grand public

Open Weight

Apache 2.0 - entièrement ouvert pour l'usage commercial et le fine-tuning

Qwen 3.6 35B A3B est publié sous licence Apache 2.0, permettant un déploiement commercial, un fine-tuning et une redistribution sans restriction. Téléchargez les poids depuis HuggingFace et déployez sur votre propre infrastructure avec un contrôle total.

  • Licence Apache 2.0 - aucune restriction d'utilisation
  • Accès complet aux poids pour le fine-tuning et la personnalisation
  • Écosystème communautaire avec un large support de frameworks

Déploiement local

Exécutez sur votre propre matériel

Déployez localement sur des GPU grand public avec des poids quantifiés. Licence Apache 2.0 pour une utilisation sans restriction.

Écosystème Qwen

Membre de la famille de modèles Qwen 3.6

Qwen 3.6 35B A3B est la variante MoE open-weight de la dernière famille de modèles d'Alibaba, conçue pour une accessibilité maximale sur matériel grand public.

Documentation

Guides complets pour l'intégration et le déploiement

Lire la doc

HuggingFace

Téléchargez les poids Apache 2.0 et explorez le hub de modèles

Télécharger

Fiche modèle

Spécifications techniques et résultats d'évaluation

Voir les détails

Dépôt GitHub

Code source, exemples et contributions communautaires

Voir le code

Accès API

Endpoints API compatibles OpenAI pour le déploiement cloud

Commencer

Communauté

Rejoignez la communauté des développeurs Qwen

Rejoindre

Pour commencer

Prêt à construire avec Qwen 3.6 35B A3B ?

Commencez à discuter gratuitement instantanément, ou téléchargez les modèles open-weight sous Apache 2.0 pour un déploiement auto-hébergé sur matériel grand public.