Qwen 3.6 + Ollama
Esegui Qwen 3.6 in locale con un singolo comando - nessuna configurazione necessaria
Ollama rende l'esecuzione di Qwen 3.6 semplice come 'ollama run qwen3.6:35b-a3b'. Rilevamento automatico della GPU, download del modello e selezione della quantizzazione. Supporta sia il modello denso 27B che il 35B A3B MoE con accelerazione NVIDIA CUDA e Apple Metal. Aspettati 20-40 token al secondo su hardware consumer per il modello 35B A3B a 4 bit. L'API compatibile con OpenAI su localhost:11434 si integra direttamente con Claude Code, Aider, Continue.dev e altri strumenti di coding. Visione e input multimodali supportati nativamente - una correzione importante rispetto a Qwen 3.5 dove visione e chiamata funzioni erano non funzionanti.
Guida Ollama
Dall'installazione all'inferenza in meno di 5 minuti
Ollama gestisce la complessità del deployment locale dei modelli - rilevamento GPU, gestione memoria, quantizzazione e serving API - così puoi concentrarti sull'uso del modello. Qwen 3.6 corregge i problemi di visione e chiamata funzioni che affliggevano Qwen 3.5 su Ollama.
Setup con un comando
Installa Ollama, poi esegui 'ollama run qwen3.6:35b-a3b' (tag predefinito) o 'ollama run qwen3.6:27b'. Download automatico del modello, rilevamento GPU e selezione ottimale della quantizzazione. Funziona su macOS (Apple Silicon con Metal), Linux (NVIDIA CUDA) e Windows (WSL2 o nativo). Il 35B A3B è il modello predefinito consigliato per la maggior parte degli utenti grazie al suo equilibrio tra qualità e requisiti hardware.
Selezione tag modello
Scegli la variante giusta: 'qwen3.6:35b-a3b' per GPU consumer (tag predefinito), 'qwen3.6:27b' per prestazioni massime su hardware workstation, 'qwen3.6:35b-a3b-q4_k_m' per controllo specifico della quantizzazione, o 'qwen3.6:35b-a3b-q3_k_m' per budget VRAM più stretti (~17 GB). I tag corrispondono direttamente ai livelli di quantizzazione GGUF. Usa 'ollama list' per vedere i modelli scaricati e 'ollama show qwen3.6:35b-a3b' per ispezionare i dettagli del modello.
Requisiti VRAM e quantizzazione
Opzioni di quantizzazione 35B A3B: Q2_K (~13 GB, più veloce, qualità più bassa), Q3_K_M (~17 GB, buono per Mac M4 16 GB), Q4_K_M (~21 GB, qualità/velocità bilanciata su GPU 24 GB), Q5_K_M (~25 GB), Q8_0 (~35 GB, quasi lossless). 27B denso: Q4_K_M ~16 GB, necessita GPU 24 GB+. BF16 precisione completa per 35B A3B richiede ~70 GB VRAM. La community conferma che Mac M4 16 GB esegue il 35B A3B con quantizzazione Q3.
Supporto visione e multimodale
I modelli Qwen 3.6 supportano input multimodali tramite Ollama - un miglioramento importante rispetto a Qwen 3.5 dove la visione era non funzionante. Passa immagini insieme a prompt testuali per analisi di screenshot di codice, revisione UI, comprensione di diagrammi, parsing di diagrammi di architettura e workflow di debug visivo. Usa il comando /image nella chat Ollama o passa immagini codificate in base64 tramite l'API.
Benchmark prestazionali su hardware consumer
I benchmark della community Unsloth mostrano 20-40 token al secondo su configurazioni locali per il modello 35B A3B a 4 bit. Gli utenti Mac M4 16 GB riportano velocità utilizzabili con quantizzazione Q3. RTX 4090 24 GB gestisce Q4_K_M con spazio per il contesto. RTX 6000 96 GB può eseguire il deployment a precisione completa. Le prestazioni scalano linearmente con la larghezza di banda della memoria GPU - memoria più veloce significa inferenza più veloce.
Personalizzazione Modelfile
Crea Modelfile personalizzati per configurare prompt di sistema, temperatura, lunghezza contesto (num_ctx), offloading livelli GPU (num_gpu), dimensione batch (num_batch) e conteggio thread. Imposta num_ctx fino a 131072 per attività a contesto lungo. Personalizza il template di chat per casi d'uso specifici come assistenti di coding, scrittura tecnica o workflow agentici. I Modelfile sono testo semplice e versionabili.
Chiamata funzioni e supporto tool
Qwen 3.6 su Ollama supporta la chiamata funzioni e l'invocazione di tool - un'altra correzione rispetto a Qwen 3.5 dove la chiamata funzioni era non funzionante. Definisci i tool nel formato compatibile con OpenAI e il modello genererà chiamate a funzioni strutturate. Questo abilita l'integrazione con framework agentici come LangChain, AutoGen e CrewAI tramite l'endpoint localhost:11434.
Integrazione strumenti di coding
Ollama espone un'API compatibile con OpenAI su localhost:11434. Collegati direttamente a Claude Code (tramite API compatibile con OpenAI), OpenClaw, Aider, Continue.dev, Cursor e altri strumenti di coding che supportano endpoint OpenAI personalizzati. Imposta l'URL base su http://localhost:11434/v1 e usa qualsiasi stringa come chiave API. I modelli Qwen 3.6 supportano lo stesso formato chat completions di OpenAI.
Riferimento rapido
Comandi Ollama, tag modello e requisiti hardware
Comandi essenziali, opzioni di configurazione e requisiti hardware per eseguire Qwen 3.6 con Ollama su diverse piattaforme.
Comandi essenziali
- ollama run qwen3.6:35b-a3b - Esegui modello MoE (tag predefinito, GPU consumer)
- ollama run qwen3.6:27b - Esegui modello denso (GPU workstation)
- ollama pull qwen3.6:35b-a3b-q3_k_m - Scarica quant Q3 (~17 GB, adatto a Mac M4)
- ollama pull qwen3.6:35b-a3b-q4_k_m - Scarica quant Q4 (~21 GB, bilanciato)
- ollama serve - Avvia server API su localhost:11434
- ollama list - Mostra modelli scaricati e dimensioni
- ollama show qwen3.6:35b-a3b - Ispeziona dettagli e parametri del modello
Requisiti hardware
- 35B A3B Q3_K_M: ~17 GB VRAM (Mac M4 16 GB confermato funzionante)
- 35B A3B Q4_K_M: ~21 GB VRAM (RTX 4090 24 GB consigliata)
- 35B A3B BF16: ~70 GB VRAM (RTX 6000 96 GB o multi-GPU)
- 27B Dense Q4_K_M: ~16 GB VRAM (RTX 4090 24 GB minimo)
- 27B Dense IQ4_XS: entra in 16 GB VRAM con compressione cache KV
- macOS: Apple Silicon con accelerazione Metal (M1 Pro+ consigliato)
- 20-40 tok/s su hardware consumer per 35B A3B a 4 bit
- Fallback CPU disponibile ma significativamente più lento (~2-5 tok/s)
Correzioni rispetto a Qwen 3.5
- Input visione/multimodale: non funzionante in 3.5, pienamente funzionante in 3.6
- Chiamata funzioni/invocazione tool: non funzionante in 3.5, corretto in 3.6
- Gestione contesto e efficienza memoria migliorate
- Migliore qualità di quantizzazione a bit width inferiori
Guide di setup
Fai funzionare Qwen 3.6 con Ollama su qualsiasi piattaforma
Guide passo dopo passo per installare Ollama e configurare Qwen 3.6 sulla tua piattaforma, con suggerimenti di ottimizzazione specifici per hardware.
Installa Ollama e avvia Qwen 3.6 su Mac M1/M2/M3/M4 con accelerazione Metal
Configurazione GPU NVIDIA con accelerazione CUDA per throughput massimo
Installazione WSL2 e Windows nativo con GPU passthrough
Esegui Ollama in un container con accesso GPU per deployment riproducibili
Esegui 35B A3B con quantizzazione Q3 su Mac M4 con 16 GB RAM
Distribuisci modelli grandi su più GPU per prestazioni migliori
Configurazione avanzata
Ottimizza le prestazioni di Qwen 3.6 e integra con gli strumenti di coding
Regola le prestazioni del modello con Modelfile, configurazione GPU, impostazioni contesto e collegati al tuo ambiente di sviluppo.
Prompt di sistema personalizzati, temperatura, lunghezza contesto e template chat
Gestione VRAM, offloading livelli e tuning dimensione batch
Usa Qwen 3.6 tramite Ollama come backend per Claude Code
Assistente AI per il coding in VS Code con Qwen 3.6 locale
Pair programming AI con Qwen 3.6 ospitato su Ollama
Collega localhost:11434 di Ollama a qualsiasi strumento compatibile con OpenAI
Ecosistema Qwen
Ollama è il percorso più rapido per Qwen 3.6 locale - un comando, tutte le funzionalità
Setup con un comando con rilevamento automatico GPU, gestione modelli, supporto visione, chiamata funzioni e API compatibile con OpenAI su localhost:11434 per integrazione senza interruzioni con Claude Code, Aider, Continue.dev e altro.
Per iniziare
Pronto a eseguire Qwen 3.6 con Ollama? Basta un comando
Prova Qwen 3.6 nel browser, poi installa Ollama per il deployment locale. Esegui 'ollama run qwen3.6:35b-a3b' per scaricare, configurare e iniziare a chattare con 20-40 tok/s su hardware consumer. Visione, chiamata funzioni e integrazione strumenti di coding funzionano nativamente.