Esegui Qwen 3.6 in locale
Distribuisci Qwen 3.6 sul tuo hardware - dal Mac M4 16 GB ai server di produzione
I modelli open-weight di Qwen 3.6 sono progettati per il deployment locale su un'ampia gamma di hardware. Il modello denso 27B gira su 16 GB di VRAM usando IQ4_XS GGUF con compressione della cache KV fino a 100K di contesto. Il modello 35B A3B MoE offre 20-40 token al secondo su hardware consumer con quantizzazione a 4 bit. La community conferma che Mac M4 16 GB esegue il 35B A3B con quantizzazione Q3. Supporto completo per Ollama, vLLM, llama.cpp, SGLang e KTransformers. Le capacità di visione e multimodali funzionano in locale.
Deployment locale
Tutto ciò che serve per eseguire Qwen 3.6 sulla tua macchina
Dalla scelta dell'hardware alla regolazione della quantizzazione, questa guida copre ogni aspetto del deployment locale dei modelli Qwen 3.6 per sviluppo, test e produzione. Sei framework di inferenza supportati, con configurazioni hardware dai laptop da 16 GB alle workstation da 96 GB.
Requisiti hardware - 35B A3B MoE
Il modello 35B A3B MoE con soli 3B parametri attivi è l'opzione più adatta all'hardware. Quantizzazione Q3_K_M: ~17 GB VRAM, confermato funzionante su Mac M4 16 GB. Q4_K_M: ~21-23 GB VRAM, adatto a RTX 4090 24 GB. Q8_0: ~35 GB. BF16 precisione completa: ~70 GB, adatto a RTX 6000 96 GB. Aspettati 20-40 token al secondo su hardware consumer con quantizzazione a 4 bit secondo i benchmark della community Unsloth.
Requisiti hardware - 27B Denso
Il modello denso 27B offre la massima qualità open-weight con tutti i parametri attivi. IQ4_XS GGUF: gira su 16 GB di VRAM con compressione della cache KV, supportando fino a 100K di contesto. Q4_K_M: ~16 GB, necessita di GPU 24 GB+ per un funzionamento confortevole con contesto. FP16 precisione completa: ~55,6 GB, richiede 2x RTX 4090 o A100 80 GB. Ideale per deployment su workstation dove la qualità è la priorità.
Setup con un comando Ollama
Il percorso più rapido per il deployment locale: 'ollama run qwen3.6:35b-a3b'. Download automatico del modello, selezione della quantizzazione e rilevamento GPU. Supporta accelerazione NVIDIA CUDA e Apple Metal. L'API compatibile con OpenAI su localhost:11434 si integra con Claude Code, Aider, Continue.dev e altri strumenti di coding. Visione e chiamata funzioni funzionano immediatamente - miglioramenti rispetto a Qwen 3.5.
Serving di produzione vLLM
Serving di livello produttivo con batching continuo, PagedAttention e endpoint API compatibili con OpenAI. Ideale per deployment multi-utente e inferenza ad alto throughput su hardware server. Supporta parallelismo tensoriale per distribuire il modello 27B su più GPU. PagedAttention consente una gestione efficiente della memoria per richieste a contesto lungo fino alla lunghezza completa del modello.
llama.cpp e SGLang
llama.cpp offre inferenza leggera in C++ con supporto CPU e GPU, ideale per deployment edge e ambienti con risorse limitate. SGLang offre serving ad alte prestazioni con RadixAttention per caching efficiente dei prefissi. Entrambi supportano modelli GGUF quantizzati e forniscono endpoint API compatibili con OpenAI. KTransformers è supportato anche per scenari di deployment avanzati.
Visione e multimodale in locale
Sia il modello 27B che il 35B A3B supportano input visivi e multimodali quando distribuiti in locale. Analizza screenshot di codice, rivedi design UI, interpreta diagrammi di architettura e fai debug di problemi visivi. Questa capacità funziona con Ollama, vLLM e altri framework supportati. Un miglioramento significativo rispetto a Qwen 3.5 dove la visione locale era non funzionante.
Privacy e sovranità dei dati
Tutti i dati restano sulla tua macchina. Nessuna chiamata API, nessuna dipendenza cloud, nessun tracciamento dell'uso, nessun dato che lascia la tua rete. Perfetto per codebase sensibili, dati proprietari, applicazioni sanitarie e finanziarie, e ambienti air-gapped dove la sovranità dei dati è legalmente richiesta. La licenza Apache 2.0 consente l'uso commerciale senza restrizioni.
Analisi dei costi vs API
Zero costi per token dopo l'investimento hardware iniziale. Una singola RTX 4090 (~$1.600) che esegue il modello 35B A3B a 20-40 tok/s può gestire migliaia di richieste al giorno. Ai prezzi DashScope di $0,40/$2,40 per milione di token, la GPU si ripaga in poche settimane per un uso intensivo. Per team che elaborano milioni di token al giorno, il deployment locale offre risparmi 10-100x rispetto all'accesso API.
Riferimento rapido
Configurazioni hardware e opzioni framework
Specifiche chiave per il deployment locale di Qwen 3.6 su diverse configurazioni hardware e framework di inferenza.
Configurazioni 35B A3B MoE
- Q3_K_M: ~17 GB VRAM - Mac M4 16 GB confermato funzionante
- Q4_K_M: ~21-23 GB VRAM - RTX 4090 24 GB consigliata
- Q8_0: ~35 GB VRAM - RTX A6000 48 GB o doppia GPU
- BF16: ~70 GB VRAM - RTX 6000 96 GB precisione completa
- 20-40 tok/s su hardware consumer a 4 bit (benchmark Unsloth)
- 3B parametri attivi per token, inferenza efficiente
Configurazioni 27B Denso
- IQ4_XS GGUF: 16 GB VRAM con compressione cache KV (contesto 100K)
- Q4_K_M: ~16 GB VRAM - RTX 4090 24 GB con spazio per il contesto
- FP16: ~55,6 GB VRAM - 2x RTX 4090 o A100 80 GB
- Tutti i 27B parametri attivi per la massima qualità
- Miglior modello open-weight per il coding: 77,2% SWE-bench
Framework supportati
- Ollama: setup più semplice, deployment con un comando, visione + chiamata funzioni
- vLLM: serving di produzione, batching continuo, parallelismo tensoriale
- llama.cpp: inferenza leggera C++, CPU + GPU, deployment edge
- SGLang: serving ad alte prestazioni con caching prefissi RadixAttention
- KTransformers: deployment e ottimizzazione avanzati
- HuggingFace Transformers: Python nativo, supporto completo fine-tuning
Guide di setup
Deployment locale passo dopo passo per ogni framework
Segui queste guide per far funzionare Qwen 3.6 sul tuo hardware in pochi minuti, con suggerimenti di ottimizzazione specifici per piattaforma.
Installa Ollama e avvia Qwen 3.6 in meno di 5 minuti
Configura serving di produzione con API compatibile OpenAI
Inferenza leggera con supporto CPU e GPU
Serving ad alte prestazioni con RadixAttention
Deployment containerizzato per ambienti riproducibili
Esegui 35B A3B su Mac M4 16 GB con quantizzazione Q3
Ottimizzazione
Ottieni il massimo dal tuo hardware
Regola quantizzazione, dimensione batch, allocazione memoria e lunghezza contesto per prestazioni ottimali sul tuo hardware specifico.
Compromessi qualità vs velocità vs VRAM per ogni livello GGUF
Parallelismo tensoriale per il modello denso 27B su più GPU
Impostazioni ottimizzate per Mac M1/M2/M3/M4 con Metal
Fai entrare il 27B in 16 GB VRAM con contesto 100K usando IQ4_XS
Collega Qwen locale a Claude Code, Aider, Continue.dev
Ecosistema Qwen
Modelli open-weight progettati per il deployment locale - licenza Apache 2.0
I modelli open-weight di Qwen 3.6 sono rilasciati con licenza Apache 2.0 con supporto completo per sei framework di inferenza. Dai laptop Mac M4 ai server multi-GPU, distribuisci con fiducia e zero costi ricorrenti.
Per iniziare
Pronto a eseguire Qwen 3.6 sul tuo hardware? Inizia con un comando
Prova Qwen 3.6 nel browser, poi distribuisci in locale con Ollama, vLLM, llama.cpp o SGLang. Il 35B A3B gira su Mac M4 16 GB, il 27B entra in 16 GB VRAM con IQ4_XS. Zero costi per token, piena privacy dei dati, licenza Apache 2.0.