Esegui Qwen 3.6 in locale

Distribuisci Qwen 3.6 sul tuo hardware - dal Mac M4 16 GB ai server di produzione

I modelli open-weight di Qwen 3.6 sono progettati per il deployment locale su un'ampia gamma di hardware. Il modello denso 27B gira su 16 GB di VRAM usando IQ4_XS GGUF con compressione della cache KV fino a 100K di contesto. Il modello 35B A3B MoE offre 20-40 token al secondo su hardware consumer con quantizzazione a 4 bit. La community conferma che Mac M4 16 GB esegue il 35B A3B con quantizzazione Q3. Supporto completo per Ollama, vLLM, llama.cpp, SGLang e KTransformers. Le capacità di visione e multimodali funzionano in locale.

Deployment locale

Tutto ciò che serve per eseguire Qwen 3.6 sulla tua macchina

Dalla scelta dell'hardware alla regolazione della quantizzazione, questa guida copre ogni aspetto del deployment locale dei modelli Qwen 3.6 per sviluppo, test e produzione. Sei framework di inferenza supportati, con configurazioni hardware dai laptop da 16 GB alle workstation da 96 GB.

Requisiti hardware - 35B A3B MoE

Il modello 35B A3B MoE con soli 3B parametri attivi è l'opzione più adatta all'hardware. Quantizzazione Q3_K_M: ~17 GB VRAM, confermato funzionante su Mac M4 16 GB. Q4_K_M: ~21-23 GB VRAM, adatto a RTX 4090 24 GB. Q8_0: ~35 GB. BF16 precisione completa: ~70 GB, adatto a RTX 6000 96 GB. Aspettati 20-40 token al secondo su hardware consumer con quantizzazione a 4 bit secondo i benchmark della community Unsloth.

Requisiti hardware - 27B Denso

Il modello denso 27B offre la massima qualità open-weight con tutti i parametri attivi. IQ4_XS GGUF: gira su 16 GB di VRAM con compressione della cache KV, supportando fino a 100K di contesto. Q4_K_M: ~16 GB, necessita di GPU 24 GB+ per un funzionamento confortevole con contesto. FP16 precisione completa: ~55,6 GB, richiede 2x RTX 4090 o A100 80 GB. Ideale per deployment su workstation dove la qualità è la priorità.

Setup con un comando Ollama

Il percorso più rapido per il deployment locale: 'ollama run qwen3.6:35b-a3b'. Download automatico del modello, selezione della quantizzazione e rilevamento GPU. Supporta accelerazione NVIDIA CUDA e Apple Metal. L'API compatibile con OpenAI su localhost:11434 si integra con Claude Code, Aider, Continue.dev e altri strumenti di coding. Visione e chiamata funzioni funzionano immediatamente - miglioramenti rispetto a Qwen 3.5.

Serving di produzione vLLM

Serving di livello produttivo con batching continuo, PagedAttention e endpoint API compatibili con OpenAI. Ideale per deployment multi-utente e inferenza ad alto throughput su hardware server. Supporta parallelismo tensoriale per distribuire il modello 27B su più GPU. PagedAttention consente una gestione efficiente della memoria per richieste a contesto lungo fino alla lunghezza completa del modello.

llama.cpp e SGLang

llama.cpp offre inferenza leggera in C++ con supporto CPU e GPU, ideale per deployment edge e ambienti con risorse limitate. SGLang offre serving ad alte prestazioni con RadixAttention per caching efficiente dei prefissi. Entrambi supportano modelli GGUF quantizzati e forniscono endpoint API compatibili con OpenAI. KTransformers è supportato anche per scenari di deployment avanzati.

Visione e multimodale in locale

Sia il modello 27B che il 35B A3B supportano input visivi e multimodali quando distribuiti in locale. Analizza screenshot di codice, rivedi design UI, interpreta diagrammi di architettura e fai debug di problemi visivi. Questa capacità funziona con Ollama, vLLM e altri framework supportati. Un miglioramento significativo rispetto a Qwen 3.5 dove la visione locale era non funzionante.

Privacy e sovranità dei dati

Tutti i dati restano sulla tua macchina. Nessuna chiamata API, nessuna dipendenza cloud, nessun tracciamento dell'uso, nessun dato che lascia la tua rete. Perfetto per codebase sensibili, dati proprietari, applicazioni sanitarie e finanziarie, e ambienti air-gapped dove la sovranità dei dati è legalmente richiesta. La licenza Apache 2.0 consente l'uso commerciale senza restrizioni.

Analisi dei costi vs API

Zero costi per token dopo l'investimento hardware iniziale. Una singola RTX 4090 (~$1.600) che esegue il modello 35B A3B a 20-40 tok/s può gestire migliaia di richieste al giorno. Ai prezzi DashScope di $0,40/$2,40 per milione di token, la GPU si ripaga in poche settimane per un uso intensivo. Per team che elaborano milioni di token al giorno, il deployment locale offre risparmi 10-100x rispetto all'accesso API.

Riferimento rapido

Configurazioni hardware e opzioni framework

Specifiche chiave per il deployment locale di Qwen 3.6 su diverse configurazioni hardware e framework di inferenza.

Configurazioni 35B A3B MoE

  • Q3_K_M: ~17 GB VRAM - Mac M4 16 GB confermato funzionante
  • Q4_K_M: ~21-23 GB VRAM - RTX 4090 24 GB consigliata
  • Q8_0: ~35 GB VRAM - RTX A6000 48 GB o doppia GPU
  • BF16: ~70 GB VRAM - RTX 6000 96 GB precisione completa
  • 20-40 tok/s su hardware consumer a 4 bit (benchmark Unsloth)
  • 3B parametri attivi per token, inferenza efficiente

Configurazioni 27B Denso

  • IQ4_XS GGUF: 16 GB VRAM con compressione cache KV (contesto 100K)
  • Q4_K_M: ~16 GB VRAM - RTX 4090 24 GB con spazio per il contesto
  • FP16: ~55,6 GB VRAM - 2x RTX 4090 o A100 80 GB
  • Tutti i 27B parametri attivi per la massima qualità
  • Miglior modello open-weight per il coding: 77,2% SWE-bench

Framework supportati

  • Ollama: setup più semplice, deployment con un comando, visione + chiamata funzioni
  • vLLM: serving di produzione, batching continuo, parallelismo tensoriale
  • llama.cpp: inferenza leggera C++, CPU + GPU, deployment edge
  • SGLang: serving ad alte prestazioni con caching prefissi RadixAttention
  • KTransformers: deployment e ottimizzazione avanzati
  • HuggingFace Transformers: Python nativo, supporto completo fine-tuning

Ecosistema Qwen

Modelli open-weight progettati per il deployment locale - licenza Apache 2.0

I modelli open-weight di Qwen 3.6 sono rilasciati con licenza Apache 2.0 con supporto completo per sei framework di inferenza. Dai laptop Mac M4 ai server multi-GPU, distribuisci con fiducia e zero costi ricorrenti.

Qwen 3.6 35B A3B

MoE, 3B parametri attivi, 20-40 tok/s su GPU consumer

Scarica

Qwen 3.6 27B

Denso, 16 GB VRAM con IQ4_XS, massima qualità

Scarica

Libreria Ollama

Tag modello preconfigurati per setup con un comando

Sfoglia

Modelli GGUF

Modelli quantizzati per ogni budget VRAM

Scarica

Docs vLLM

Serving di produzione con batching continuo

Leggi docs

Community

Ricevi aiuto dalla community Qwen

Unisciti

Per iniziare

Pronto a eseguire Qwen 3.6 sul tuo hardware? Inizia con un comando

Prova Qwen 3.6 nel browser, poi distribuisci in locale con Ollama, vLLM, llama.cpp o SGLang. Il 35B A3B gira su Mac M4 16 GB, il 27B entra in 16 GB VRAM con IQ4_XS. Zero costi per token, piena privacy dei dati, licenza Apache 2.0.