Esegui Qwen 3.6 in locale

Distribuisci Qwen 3.6 sul tuo hardware - dal Mac M4 16 GB ai server di produzione

I modelli open-weight di Qwen 3.6 sono progettati per il deployment locale su un'ampia gamma di hardware. Il modello denso 27B gira su 16 GB di VRAM usando IQ4_XS GGUF con compressione della cache KV fino a 100K di contesto. Il modello 35B A3B MoE offre 20-40 token al secondo su hardware consumer con quantizzazione a 4 bit. La community conferma che Mac M4 16 GB esegue il 35B A3B con quantizzazione Q3. Supporto completo per Ollama, vLLM, llama.cpp, SGLang e KTransformers. Le capacità di visione e multimodali funzionano in locale.

Inizia a chattare Vedi guida hardware

Deployment locale

Tutto ciò che serve per eseguire Qwen 3.6 sulla tua macchina

Dalla scelta dell'hardware alla regolazione della quantizzazione, questa guida copre ogni aspetto del deployment locale dei modelli Qwen 3.6 per sviluppo, test e produzione. Sei framework di inferenza supportati, con configurazioni hardware dai laptop da 16 GB alle workstation da 96 GB.

Requisiti hardware - 35B A3B MoE

Il modello 35B A3B MoE con soli 3B parametri attivi è l'opzione più adatta all'hardware. Quantizzazione Q3_K_M: ~17 GB VRAM, confermato funzionante su Mac M4 16 GB. Q4_K_M: ~21-23 GB VRAM, adatto a RTX 4090 24 GB. Q8_0: ~35 GB. BF16 precisione completa: ~70 GB, adatto a RTX 6000 96 GB. Aspettati 20-40 token al secondo su hardware consumer con quantizzazione a 4 bit secondo i benchmark della community Unsloth.

Requisiti hardware - 27B Denso

Il modello denso 27B offre la massima qualità open-weight con tutti i parametri attivi. IQ4_XS GGUF: gira su 16 GB di VRAM con compressione della cache KV, supportando fino a 100K di contesto. Q4_K_M: ~16 GB, necessita di GPU 24 GB+ per un funzionamento confortevole con contesto. FP16 precisione completa: ~55,6 GB, richiede 2x RTX 4090 o A100 80 GB. Ideale per deployment su workstation dove la qualità è la priorità.

Setup con un comando Ollama

Il percorso più rapido per il deployment locale: 'ollama run qwen3.6:35b-a3b'. Download automatico del modello, selezione della quantizzazione e rilevamento GPU. Supporta accelerazione NVIDIA CUDA e Apple Metal. L'API compatibile con OpenAI su localhost:11434 si integra con Claude Code, Aider, Continue.dev e altri strumenti di coding. Visione e chiamata funzioni funzionano immediatamente - miglioramenti rispetto a Qwen 3.5.

Serving di produzione vLLM

Serving di livello produttivo con batching continuo, PagedAttention e endpoint API compatibili con OpenAI. Ideale per deployment multi-utente e inferenza ad alto throughput su hardware server. Supporta parallelismo tensoriale per distribuire il modello 27B su più GPU. PagedAttention consente una gestione efficiente della memoria per richieste a contesto lungo fino alla lunghezza completa del modello.

llama.cpp e SGLang

llama.cpp offre inferenza leggera in C++ con supporto CPU e GPU, ideale per deployment edge e ambienti con risorse limitate. SGLang offre serving ad alte prestazioni con RadixAttention per caching efficiente dei prefissi. Entrambi supportano modelli GGUF quantizzati e forniscono endpoint API compatibili con OpenAI. KTransformers è supportato anche per scenari di deployment avanzati.

Visione e multimodale in locale

Sia il modello 27B che il 35B A3B supportano input visivi e multimodali quando distribuiti in locale. Analizza screenshot di codice, rivedi design UI, interpreta diagrammi di architettura e fai debug di problemi visivi. Questa capacità funziona con Ollama, vLLM e altri framework supportati. Un miglioramento significativo rispetto a Qwen 3.5 dove la visione locale era non funzionante.

Privacy e sovranità dei dati

Tutti i dati restano sulla tua macchina. Nessuna chiamata API, nessuna dipendenza cloud, nessun tracciamento dell'uso, nessun dato che lascia la tua rete. Perfetto per codebase sensibili, dati proprietari, applicazioni sanitarie e finanziarie, e ambienti air-gapped dove la sovranità dei dati è legalmente richiesta. La licenza Apache 2.0 consente l'uso commerciale senza restrizioni.

Analisi dei costi vs API

Zero costi per token dopo l'investimento hardware iniziale. Una singola RTX 4090 (~$1.600) che esegue il modello 35B A3B a 20-40 tok/s può gestire migliaia di richieste al giorno. Ai prezzi DashScope di $0,40/$2,40 per milione di token, la GPU si ripaga in poche settimane per un uso intensivo. Per team che elaborano milioni di token al giorno, il deployment locale offre risparmi 10-100x rispetto all'accesso API.

Riferimento rapido

Configurazioni hardware e opzioni framework

Specifiche chiave per il deployment locale di Qwen 3.6 su diverse configurazioni hardware e framework di inferenza.

Configurazioni 35B A3B MoE

Q3_K_M: ~17 GB VRAM - Mac M4 16 GB confermato funzionante
Q4_K_M: ~21-23 GB VRAM - RTX 4090 24 GB consigliata
Q8_0: ~35 GB VRAM - RTX A6000 48 GB o doppia GPU
BF16: ~70 GB VRAM - RTX 6000 96 GB precisione completa
20-40 tok/s su hardware consumer a 4 bit (benchmark Unsloth)
3B parametri attivi per token, inferenza efficiente

Configurazioni 27B Denso

IQ4_XS GGUF: 16 GB VRAM con compressione cache KV (contesto 100K)
Q4_K_M: ~16 GB VRAM - RTX 4090 24 GB con spazio per il contesto
FP16: ~55,6 GB VRAM - 2x RTX 4090 o A100 80 GB
Tutti i 27B parametri attivi per la massima qualità
Miglior modello open-weight per il coding: 77,2% SWE-bench

Framework supportati

Ollama: setup più semplice, deployment con un comando, visione + chiamata funzioni
vLLM: serving di produzione, batching continuo, parallelismo tensoriale
llama.cpp: inferenza leggera C++, CPU + GPU, deployment edge
SGLang: serving ad alte prestazioni con caching prefissi RadixAttention
KTransformers: deployment e ottimizzazione avanzati
HuggingFace Transformers: Python nativo, supporto completo fine-tuning

Inizia a chattare Scarica i modelli

Guide di setup

Deployment locale passo dopo passo per ogni framework

Segui queste guide per far funzionare Qwen 3.6 sul tuo hardware in pochi minuti, con suggerimenti di ottimizzazione specifici per piattaforma.

Avvio rapido Ollama

Installa Ollama e avvia Qwen 3.6 in meno di 5 minuti

Deployment vLLM

Configura serving di produzione con API compatibile OpenAI

Guida llama.cpp

Inferenza leggera con supporto CPU e GPU

Setup SGLang

Serving ad alte prestazioni con RadixAttention

box

Setup Docker

Deployment containerizzato per ambienti riproducibili

Guida Mac M4

Esegui 35B A3B su Mac M4 16 GB con quantizzazione Q3

Ottimizzazione

Ottieni il massimo dal tuo hardware

Regola quantizzazione, dimensione batch, allocazione memoria e lunghezza contesto per prestazioni ottimali sul tuo hardware specifico.

Confronto quantizzazioni

Compromessi qualità vs velocità vs VRAM per ogni livello GGUF

Setup multi-GPU

Parallelismo tensoriale per il modello denso 27B su più GPU

Guida Apple Silicon

Impostazioni ottimizzate per Mac M1/M2/M3/M4 con Metal

Compressione cache KV

Fai entrare il 27B in 16 GB VRAM con contesto 100K usando IQ4_XS

Integrazione strumenti di coding

Collega Qwen locale a Claude Code, Aider, Continue.dev

Ecosistema Qwen

Modelli open-weight progettati per il deployment locale - licenza Apache 2.0

I modelli open-weight di Qwen 3.6 sono rilasciati con licenza Apache 2.0 con supporto completo per sei framework di inferenza. Dai laptop Mac M4 ai server multi-GPU, distribuisci con fiducia e zero costi ricorrenti.

Esplora tutti i modelli Collezione HuggingFace

Qwen 3.6 35B A3B

MoE, 3B parametri attivi, 20-40 tok/s su GPU consumer

Scarica

Qwen 3.6 27B

Denso, 16 GB VRAM con IQ4_XS, massima qualità

Scarica

Libreria Ollama

Tag modello preconfigurati per setup con un comando

Sfoglia

Modelli GGUF

Modelli quantizzati per ogni budget VRAM

Scarica

Docs vLLM

Serving di produzione con batching continuo

Leggi docs

Community

Ricevi aiuto dalla community Qwen

Unisciti

Per iniziare

Pronto a eseguire Qwen 3.6 sul tuo hardware? Inizia con un comando

Prova Qwen 3.6 nel browser, poi distribuisci in locale con Ollama, vLLM, llama.cpp o SGLang. Il 35B A3B gira su Mac M4 16 GB, il 27B entra in 16 GB VRAM con IQ4_XS. Zero costi per token, piena privacy dei dati, licenza Apache 2.0.

Inizia a chattare Scarica i modelli