Qwen 3.6 35B A3B

35 miliardi di parametri, 3 miliardi attivi - MoE frontier su hardware consumer

Qwen 3.6 35B A3B è un modello Mixture-of-Experts che attiva solo 3B parametri per token da 256 esperti. Con il 73.4% su SWE-bench Verified, il 92.7% su AIME 2026 e licenza Apache 2.0, porta capacità di coding e ragionamento di livello frontier sulle GPU consumer.

Inizia a chattare Vedi i benchmark

Varianti del modello

MoE open-weight per deployment locale e cloud

Qwen 3.6 35B A3B offre prestazioni elevate con un numero minimo di parametri attivi. Scegli la variante instruction-tuned per chat e coding, oppure il modello base per il fine-tuning.

Architettura Mixture-of-Experts

35B parametri totali, 3B attivi per token, 256 esperti

Qwen 3.6 35B A3B utilizza un design Hybrid Gated DeltaNet + Gated Attention + MoE con 256 esperti, instradando 8 esperti più 1 condiviso per token. Il contesto nativo da 262K è estendibile a 1M di token e la licenza Apache 2.0 consente un uso commerciale senza restrizioni.

Con solo 3B parametri attivi per token, questo modello gira in modo efficiente su GPU consumer offrendo prestazioni che rivaleggiano con modelli dense molto più grandi.

Inizia a chattare Scopri le capacità

Instruction-tuned

35B A3B Instruct

Ottimizzato per AI conversazionale, coding e task agentici su hardware consumer

Fine-tuned per seguire istruzioni e dialogo multi-turno con efficienza MoE

Disponibile ora - Apache 2.0

Inizia a chattare Scarica i pesi

Pre-addestrato

35B A3B Base

Modello MoE di base per fine-tuning e applicazioni specializzate

Pre-addestrato con routing MoE a 256 esperti su dati diversificati

Disponibile ora - Apache 2.0

Vedi su HuggingFace Guida al fine-tuning

Capacità

256 esperti, 3B attivi - massima efficienza con prestazioni elevate

Qwen 3.6 35B A3B combina un vasto pool di esperti con un compute attivo minimo per offrire capacità impressionanti di coding, ragionamento e task agentici su hardware consumer.

Ingegneria software reale

73.4% su SWE-bench Verified - risolve issue GitHub reali con solo 3B parametri attivi per token. Competitivo con modelli che usano 10 volte più compute in fase di inferenza.

Operazioni da terminale

51.5 su Terminal-Bench 2.0 per workflow complessi multi-step nel terminale. Gestisce debug, amministrazione di sistema e pipeline di build con grande competenza.

Matematica avanzata

92.7% su AIME 2026 - ragionamento matematico quasi frontier da un modello che gira su GPU consumer. La modalità di pensiero step-by-step permette una risoluzione trasparente dei problemi.

Contesto da 262K a 1M

Finestra di contesto nativa da 262K estendibile a 1M di token. Analizza intere codebase, documenti lunghi e conversazioni complesse multi-turno senza troncamento.

Coding competitivo

80.4 su LiveCodeBench v6 per la risoluzione di problemi algoritmici. Ottime capacità di generazione di codice, debug e refactoring in diversi linguaggi di programmazione.

Libertà open-weight

La licenza Apache 2.0 consente uso commerciale, fine-tuning e ridistribuzione senza restrizioni. Piena trasparenza sui pesi del modello per ricerca e personalizzazione.

Punti chiave

Prestazioni MoE frontier su hardware consumer

Qwen 3.6 35B A3B raggiunge risultati solidi su coding, ragionamento e benchmark agentici attivando solo 3B parametri per token.

Risultati di punta

SWE-bench Verified: 73.4% - ingegneria software reale
Terminal-Bench 2.0: 51.5 - operazioni complesse da terminale
AIME 2026: 92.7% - matematica avanzata
LiveCodeBench v6: 80.4 - coding competitivo
Licenza Apache 2.0 - completamente open-weight

Specifiche tecniche

35B parametri totali, 3B attivi per token
256 esperti: 8 instradati + 1 condiviso attivo per token
Architettura Hybrid Gated DeltaNet + Gated Attention + MoE
Contesto nativo da 262K, estendibile a 1M di token
Eseguibile in locale su GPU consumer

Chatta gratis Scarica i pesi

Prestazioni

Prestazioni MoE solide con costo d'inferenza di soli 3B parametri attivi

Qwen 3.6 35B A3B raggiunge il 73.4% su SWE-bench Verified e il 92.7% su AIME 2026 attivando solo 3B parametri per token - portando capacità di livello frontier su hardware consumer.

Qwen 3.6 35B A3B dimostra che le architetture MoE sparse con 256 esperti possono offrire risultati impressionanti nell'ingegneria software, matematica e coding competitivo a una frazione del costo computazionale.

Inizia a chattare Vedi la model card

Grafico comparativo delle prestazioni di Qwen 3.6 35B A3B su benchmark di coding e ragionamento

SWE-bench Verified: 73.4% con solo 3B parametri attivi

Terminal-Bench 2.0: 51.5 per operazioni da terminale

AIME 2026: 92.7% in matematica avanzata

LiveCodeBench v6: 80.4 nel coding competitivo

Licenza open-weight Apache 2.0

Confronto benchmark

Qwen 3.6 35B A3B vs la famiglia Qwen 3.6 e i concorrenti

Qwen 3.6 35B A3B offre prestazioni solide su ingegneria software, operazioni da terminale e benchmark di ragionamento con un costo d'inferenza minimo.

Benchmark	Qwen 3.6 35B A3B MoE In evidenza	Qwen 3.6 27B Dense	Qwen 3.6 Plus Proprietario	Qwen 3 235B A22B MoE
SWE-bench Verified Ingegneria software reale	73.4%	77.2%	78.8%	76.2%
Terminal-Bench 2.0 Operazioni da terminale	51.5	59.3	61.6	-
AIME 2026 Matematica No tools	92.7%	94.1%	-	-
LiveCodeBench v6 Coding competitivo	80.4	83.9	-	-

Risultati benchmark dalla model card ufficiale di Qwen 3.6 e dalle valutazioni HuggingFace.

MoE a 256 esperti

Capacità da 35B, costo d'inferenza da 3B - gira su GPU consumer

Il design Mixture-of-Experts instrada ogni token attraverso 8 dei 256 esperti più 1 esperto condiviso. Tutti i 35B parametri vengono caricati per la diversità del routing, ma solo 3B si attivano per ogni forward pass. Combinato con l'architettura Hybrid Gated DeltaNet + Gated Attention, questo permette il deployment su GPU consumer con prestazioni elevate.

3B parametri attivi per token su una capacità totale di 35B
256 esperti: 8 instradati + 1 condiviso attivo per token
Eseguibile in locale su GPU consumer con quantizzazione

Inizia a chattare Dettagli architettura

Capacità da 35B, costo d'inferenza da 3B - gira su GPU consumer

Open Weight

Apache 2.0 - completamente aperto per uso commerciale e fine-tuning

Qwen 3.6 35B A3B è rilasciato sotto licenza Apache 2.0, che consente deployment commerciale, fine-tuning e ridistribuzione senza restrizioni. Scarica i pesi da HuggingFace e fai il deploy sulla tua infrastruttura con pieno controllo.

Licenza Apache 2.0 - nessuna restrizione d'uso
Accesso completo ai pesi per fine-tuning e personalizzazione
Ecosistema guidato dalla community con ampio supporto framework

Per iniziare

Prova Qwen 3.6 35B A3B ora

Inizia a chattare subito, oppure scarica i modelli open-weight per il deployment self-hosted.

Chatta con Qwen 3.6 35B A3B

Prova il modello MoE a 256 esperti subito - nessuna configurazione richiesta

Documentazione API

Integra tramite endpoint API compatibili OpenAI

Model card

Specifiche tecniche complete e risultati benchmark

HuggingFace

Repository ufficiale del modello con pesi Apache 2.0

Deployment locale

Esegui sul tuo hardware

Fai il deploy in locale su GPU consumer con pesi quantizzati. Licenza Apache 2.0 per uso senza restrizioni.

Pesi GGUF

Pesi quantizzati per llama.cpp e Ollama

Ollama

Deployment locale con un solo comando su hardware consumer

vLLM

Serving MoE ad alto throughput per la produzione

Ecosistema Qwen

Parte della famiglia di modelli Qwen 3.6

Qwen 3.6 35B A3B è la variante MoE open-weight dell'ultima famiglia di modelli di Alibaba, progettata per la massima accessibilità su hardware consumer.

Esplora i modelli Qwen Pagina ufficiale