Qwen 3.6 + Ollama

Esegui Qwen 3.6 in locale con un singolo comando - nessuna configurazione necessaria

Ollama rende l'esecuzione di Qwen 3.6 semplice come 'ollama run qwen3.6:35b-a3b'. Rilevamento automatico della GPU, download del modello e selezione della quantizzazione. Supporta sia il modello denso 27B che il 35B A3B MoE con accelerazione NVIDIA CUDA e Apple Metal. Aspettati 20-40 token al secondo su hardware consumer per il modello 35B A3B a 4 bit. L'API compatibile con OpenAI su localhost:11434 si integra direttamente con Claude Code, Aider, Continue.dev e altri strumenti di coding. Visione e input multimodali supportati nativamente - una correzione importante rispetto a Qwen 3.5 dove visione e chiamata funzioni erano non funzionanti.

Inizia a chattare Vedi tag modello

Guida Ollama

Dall'installazione all'inferenza in meno di 5 minuti

Ollama gestisce la complessità del deployment locale dei modelli - rilevamento GPU, gestione memoria, quantizzazione e serving API - così puoi concentrarti sull'uso del modello. Qwen 3.6 corregge i problemi di visione e chiamata funzioni che affliggevano Qwen 3.5 su Ollama.

Setup con un comando

Installa Ollama, poi esegui 'ollama run qwen3.6:35b-a3b' (tag predefinito) o 'ollama run qwen3.6:27b'. Download automatico del modello, rilevamento GPU e selezione ottimale della quantizzazione. Funziona su macOS (Apple Silicon con Metal), Linux (NVIDIA CUDA) e Windows (WSL2 o nativo). Il 35B A3B è il modello predefinito consigliato per la maggior parte degli utenti grazie al suo equilibrio tra qualità e requisiti hardware.

Selezione tag modello

Scegli la variante giusta: 'qwen3.6:35b-a3b' per GPU consumer (tag predefinito), 'qwen3.6:27b' per prestazioni massime su hardware workstation, 'qwen3.6:35b-a3b-q4_k_m' per controllo specifico della quantizzazione, o 'qwen3.6:35b-a3b-q3_k_m' per budget VRAM più stretti (~17 GB). I tag corrispondono direttamente ai livelli di quantizzazione GGUF. Usa 'ollama list' per vedere i modelli scaricati e 'ollama show qwen3.6:35b-a3b' per ispezionare i dettagli del modello.

Requisiti VRAM e quantizzazione

Opzioni di quantizzazione 35B A3B: Q2_K (~13 GB, più veloce, qualità più bassa), Q3_K_M (~17 GB, buono per Mac M4 16 GB), Q4_K_M (~21 GB, qualità/velocità bilanciata su GPU 24 GB), Q5_K_M (~25 GB), Q8_0 (~35 GB, quasi lossless). 27B denso: Q4_K_M ~16 GB, necessita GPU 24 GB+. BF16 precisione completa per 35B A3B richiede ~70 GB VRAM. La community conferma che Mac M4 16 GB esegue il 35B A3B con quantizzazione Q3.

Supporto visione e multimodale

I modelli Qwen 3.6 supportano input multimodali tramite Ollama - un miglioramento importante rispetto a Qwen 3.5 dove la visione era non funzionante. Passa immagini insieme a prompt testuali per analisi di screenshot di codice, revisione UI, comprensione di diagrammi, parsing di diagrammi di architettura e workflow di debug visivo. Usa il comando /image nella chat Ollama o passa immagini codificate in base64 tramite l'API.

Benchmark prestazionali su hardware consumer

I benchmark della community Unsloth mostrano 20-40 token al secondo su configurazioni locali per il modello 35B A3B a 4 bit. Gli utenti Mac M4 16 GB riportano velocità utilizzabili con quantizzazione Q3. RTX 4090 24 GB gestisce Q4_K_M con spazio per il contesto. RTX 6000 96 GB può eseguire il deployment a precisione completa. Le prestazioni scalano linearmente con la larghezza di banda della memoria GPU - memoria più veloce significa inferenza più veloce.

Personalizzazione Modelfile

Crea Modelfile personalizzati per configurare prompt di sistema, temperatura, lunghezza contesto (num_ctx), offloading livelli GPU (num_gpu), dimensione batch (num_batch) e conteggio thread. Imposta num_ctx fino a 131072 per attività a contesto lungo. Personalizza il template di chat per casi d'uso specifici come assistenti di coding, scrittura tecnica o workflow agentici. I Modelfile sono testo semplice e versionabili.

Chiamata funzioni e supporto tool

Qwen 3.6 su Ollama supporta la chiamata funzioni e l'invocazione di tool - un'altra correzione rispetto a Qwen 3.5 dove la chiamata funzioni era non funzionante. Definisci i tool nel formato compatibile con OpenAI e il modello genererà chiamate a funzioni strutturate. Questo abilita l'integrazione con framework agentici come LangChain, AutoGen e CrewAI tramite l'endpoint localhost:11434.

Integrazione strumenti di coding

Ollama espone un'API compatibile con OpenAI su localhost:11434. Collegati direttamente a Claude Code (tramite API compatibile con OpenAI), OpenClaw, Aider, Continue.dev, Cursor e altri strumenti di coding che supportano endpoint OpenAI personalizzati. Imposta l'URL base su http://localhost:11434/v1 e usa qualsiasi stringa come chiave API. I modelli Qwen 3.6 supportano lo stesso formato chat completions di OpenAI.

Riferimento rapido

Comandi Ollama, tag modello e requisiti hardware

Comandi essenziali, opzioni di configurazione e requisiti hardware per eseguire Qwen 3.6 con Ollama su diverse piattaforme.

Comandi essenziali

ollama run qwen3.6:35b-a3b - Esegui modello MoE (tag predefinito, GPU consumer)
ollama run qwen3.6:27b - Esegui modello denso (GPU workstation)
ollama pull qwen3.6:35b-a3b-q3_k_m - Scarica quant Q3 (~17 GB, adatto a Mac M4)
ollama pull qwen3.6:35b-a3b-q4_k_m - Scarica quant Q4 (~21 GB, bilanciato)
ollama serve - Avvia server API su localhost:11434
ollama list - Mostra modelli scaricati e dimensioni
ollama show qwen3.6:35b-a3b - Ispeziona dettagli e parametri del modello

Requisiti hardware

35B A3B Q3_K_M: ~17 GB VRAM (Mac M4 16 GB confermato funzionante)
35B A3B Q4_K_M: ~21 GB VRAM (RTX 4090 24 GB consigliata)
35B A3B BF16: ~70 GB VRAM (RTX 6000 96 GB o multi-GPU)
27B Dense Q4_K_M: ~16 GB VRAM (RTX 4090 24 GB minimo)
27B Dense IQ4_XS: entra in 16 GB VRAM con compressione cache KV
macOS: Apple Silicon con accelerazione Metal (M1 Pro+ consigliato)
20-40 tok/s su hardware consumer per 35B A3B a 4 bit
Fallback CPU disponibile ma significativamente più lento (~2-5 tok/s)

Correzioni rispetto a Qwen 3.5

Input visione/multimodale: non funzionante in 3.5, pienamente funzionante in 3.6
Chiamata funzioni/invocazione tool: non funzionante in 3.5, corretto in 3.6
Gestione contesto e efficienza memoria migliorate
Migliore qualità di quantizzazione a bit width inferiori

Inizia a chattare Documentazione Ollama

Guide di setup

Fai funzionare Qwen 3.6 con Ollama su qualsiasi piattaforma

Guide passo dopo passo per installare Ollama e configurare Qwen 3.6 sulla tua piattaforma, con suggerimenti di ottimizzazione specifici per hardware.

Setup macOS (Apple Silicon)

Installa Ollama e avvia Qwen 3.6 su Mac M1/M2/M3/M4 con accelerazione Metal

Setup Linux (NVIDIA)

Configurazione GPU NVIDIA con accelerazione CUDA per throughput massimo

Setup Windows

Installazione WSL2 e Windows nativo con GPU passthrough

Setup Docker

Esegui Ollama in un container con accesso GPU per deployment riproducibili

Guida Mac M4 16 GB

Esegui 35B A3B con quantizzazione Q3 su Mac M4 con 16 GB RAM

Setup multi-GPU

Distribuisci modelli grandi su più GPU per prestazioni migliori

Configurazione avanzata

Ottimizza le prestazioni di Qwen 3.6 e integra con gli strumenti di coding

Regola le prestazioni del modello con Modelfile, configurazione GPU, impostazioni contesto e collegati al tuo ambiente di sviluppo.

Guida Modelfile

Prompt di sistema personalizzati, temperatura, lunghezza contesto e template chat

Ottimizzazione GPU

Gestione VRAM, offloading livelli e tuning dimensione batch

Integrazione Claude Code

Usa Qwen 3.6 tramite Ollama come backend per Claude Code

Setup Continue.dev

Assistente AI per il coding in VS Code con Qwen 3.6 locale

Integrazione Aider

Pair programming AI con Qwen 3.6 ospitato su Ollama

Integrazione API

Collega localhost:11434 di Ollama a qualsiasi strumento compatibile con OpenAI

Ecosistema Qwen

Ollama è il percorso più rapido per Qwen 3.6 locale - un comando, tutte le funzionalità

Setup con un comando con rilevamento automatico GPU, gestione modelli, supporto visione, chiamata funzioni e API compatibile con OpenAI su localhost:11434 per integrazione senza interruzioni con Claude Code, Aider, Continue.dev e altro.

Esplora tutti i modelli Libreria Ollama

Qwen 3.6 35B A3B

Modello MoE, 20-40 tok/s su GPU consumer

Esegui localmente

Qwen 3.6 27B

Modello denso, massime prestazioni locali

Esegui localmente

Libreria Ollama

Sfoglia tutti i tag e le quantizzazioni Qwen disponibili

Sfoglia

Riferimento Modelfile

Personalizza comportamento, contesto e parametri del modello

Leggi docs

Riferimento API

API compatibile con OpenAI su localhost:11434

Vedi API

Community

Ricevi aiuto dalle community Ollama e Qwen

Unisciti

Per iniziare

Pronto a eseguire Qwen 3.6 con Ollama? Basta un comando

Prova Qwen 3.6 nel browser, poi installa Ollama per il deployment locale. Esegui 'ollama run qwen3.6:35b-a3b' per scaricare, configurare e iniziare a chattare con 20-40 tok/s su hardware consumer. Visione, chiamata funzioni e integrazione strumenti di coding funzionano nativamente.

Inizia a chattare Installa Ollama