Qwen 3.6 + Ollama

Esegui Qwen 3.6 in locale con un singolo comando - nessuna configurazione necessaria

Ollama rende l'esecuzione di Qwen 3.6 semplice come 'ollama run qwen3.6:35b-a3b'. Rilevamento automatico della GPU, download del modello e selezione della quantizzazione. Supporta sia il modello denso 27B che il 35B A3B MoE con accelerazione NVIDIA CUDA e Apple Metal. Aspettati 20-40 token al secondo su hardware consumer per il modello 35B A3B a 4 bit. L'API compatibile con OpenAI su localhost:11434 si integra direttamente con Claude Code, Aider, Continue.dev e altri strumenti di coding. Visione e input multimodali supportati nativamente - una correzione importante rispetto a Qwen 3.5 dove visione e chiamata funzioni erano non funzionanti.

Guida Ollama

Dall'installazione all'inferenza in meno di 5 minuti

Ollama gestisce la complessità del deployment locale dei modelli - rilevamento GPU, gestione memoria, quantizzazione e serving API - così puoi concentrarti sull'uso del modello. Qwen 3.6 corregge i problemi di visione e chiamata funzioni che affliggevano Qwen 3.5 su Ollama.

Setup con un comando

Installa Ollama, poi esegui 'ollama run qwen3.6:35b-a3b' (tag predefinito) o 'ollama run qwen3.6:27b'. Download automatico del modello, rilevamento GPU e selezione ottimale della quantizzazione. Funziona su macOS (Apple Silicon con Metal), Linux (NVIDIA CUDA) e Windows (WSL2 o nativo). Il 35B A3B è il modello predefinito consigliato per la maggior parte degli utenti grazie al suo equilibrio tra qualità e requisiti hardware.

Selezione tag modello

Scegli la variante giusta: 'qwen3.6:35b-a3b' per GPU consumer (tag predefinito), 'qwen3.6:27b' per prestazioni massime su hardware workstation, 'qwen3.6:35b-a3b-q4_k_m' per controllo specifico della quantizzazione, o 'qwen3.6:35b-a3b-q3_k_m' per budget VRAM più stretti (~17 GB). I tag corrispondono direttamente ai livelli di quantizzazione GGUF. Usa 'ollama list' per vedere i modelli scaricati e 'ollama show qwen3.6:35b-a3b' per ispezionare i dettagli del modello.

Requisiti VRAM e quantizzazione

Opzioni di quantizzazione 35B A3B: Q2_K (~13 GB, più veloce, qualità più bassa), Q3_K_M (~17 GB, buono per Mac M4 16 GB), Q4_K_M (~21 GB, qualità/velocità bilanciata su GPU 24 GB), Q5_K_M (~25 GB), Q8_0 (~35 GB, quasi lossless). 27B denso: Q4_K_M ~16 GB, necessita GPU 24 GB+. BF16 precisione completa per 35B A3B richiede ~70 GB VRAM. La community conferma che Mac M4 16 GB esegue il 35B A3B con quantizzazione Q3.

Supporto visione e multimodale

I modelli Qwen 3.6 supportano input multimodali tramite Ollama - un miglioramento importante rispetto a Qwen 3.5 dove la visione era non funzionante. Passa immagini insieme a prompt testuali per analisi di screenshot di codice, revisione UI, comprensione di diagrammi, parsing di diagrammi di architettura e workflow di debug visivo. Usa il comando /image nella chat Ollama o passa immagini codificate in base64 tramite l'API.

Benchmark prestazionali su hardware consumer

I benchmark della community Unsloth mostrano 20-40 token al secondo su configurazioni locali per il modello 35B A3B a 4 bit. Gli utenti Mac M4 16 GB riportano velocità utilizzabili con quantizzazione Q3. RTX 4090 24 GB gestisce Q4_K_M con spazio per il contesto. RTX 6000 96 GB può eseguire il deployment a precisione completa. Le prestazioni scalano linearmente con la larghezza di banda della memoria GPU - memoria più veloce significa inferenza più veloce.

Personalizzazione Modelfile

Crea Modelfile personalizzati per configurare prompt di sistema, temperatura, lunghezza contesto (num_ctx), offloading livelli GPU (num_gpu), dimensione batch (num_batch) e conteggio thread. Imposta num_ctx fino a 131072 per attività a contesto lungo. Personalizza il template di chat per casi d'uso specifici come assistenti di coding, scrittura tecnica o workflow agentici. I Modelfile sono testo semplice e versionabili.

Chiamata funzioni e supporto tool

Qwen 3.6 su Ollama supporta la chiamata funzioni e l'invocazione di tool - un'altra correzione rispetto a Qwen 3.5 dove la chiamata funzioni era non funzionante. Definisci i tool nel formato compatibile con OpenAI e il modello genererà chiamate a funzioni strutturate. Questo abilita l'integrazione con framework agentici come LangChain, AutoGen e CrewAI tramite l'endpoint localhost:11434.

Integrazione strumenti di coding

Ollama espone un'API compatibile con OpenAI su localhost:11434. Collegati direttamente a Claude Code (tramite API compatibile con OpenAI), OpenClaw, Aider, Continue.dev, Cursor e altri strumenti di coding che supportano endpoint OpenAI personalizzati. Imposta l'URL base su http://localhost:11434/v1 e usa qualsiasi stringa come chiave API. I modelli Qwen 3.6 supportano lo stesso formato chat completions di OpenAI.

Riferimento rapido

Comandi Ollama, tag modello e requisiti hardware

Comandi essenziali, opzioni di configurazione e requisiti hardware per eseguire Qwen 3.6 con Ollama su diverse piattaforme.

Comandi essenziali

  • ollama run qwen3.6:35b-a3b - Esegui modello MoE (tag predefinito, GPU consumer)
  • ollama run qwen3.6:27b - Esegui modello denso (GPU workstation)
  • ollama pull qwen3.6:35b-a3b-q3_k_m - Scarica quant Q3 (~17 GB, adatto a Mac M4)
  • ollama pull qwen3.6:35b-a3b-q4_k_m - Scarica quant Q4 (~21 GB, bilanciato)
  • ollama serve - Avvia server API su localhost:11434
  • ollama list - Mostra modelli scaricati e dimensioni
  • ollama show qwen3.6:35b-a3b - Ispeziona dettagli e parametri del modello

Requisiti hardware

  • 35B A3B Q3_K_M: ~17 GB VRAM (Mac M4 16 GB confermato funzionante)
  • 35B A3B Q4_K_M: ~21 GB VRAM (RTX 4090 24 GB consigliata)
  • 35B A3B BF16: ~70 GB VRAM (RTX 6000 96 GB o multi-GPU)
  • 27B Dense Q4_K_M: ~16 GB VRAM (RTX 4090 24 GB minimo)
  • 27B Dense IQ4_XS: entra in 16 GB VRAM con compressione cache KV
  • macOS: Apple Silicon con accelerazione Metal (M1 Pro+ consigliato)
  • 20-40 tok/s su hardware consumer per 35B A3B a 4 bit
  • Fallback CPU disponibile ma significativamente più lento (~2-5 tok/s)

Correzioni rispetto a Qwen 3.5

  • Input visione/multimodale: non funzionante in 3.5, pienamente funzionante in 3.6
  • Chiamata funzioni/invocazione tool: non funzionante in 3.5, corretto in 3.6
  • Gestione contesto e efficienza memoria migliorate
  • Migliore qualità di quantizzazione a bit width inferiori

Ecosistema Qwen

Ollama è il percorso più rapido per Qwen 3.6 locale - un comando, tutte le funzionalità

Setup con un comando con rilevamento automatico GPU, gestione modelli, supporto visione, chiamata funzioni e API compatibile con OpenAI su localhost:11434 per integrazione senza interruzioni con Claude Code, Aider, Continue.dev e altro.

Qwen 3.6 35B A3B

Modello MoE, 20-40 tok/s su GPU consumer

Esegui localmente

Qwen 3.6 27B

Modello denso, massime prestazioni locali

Esegui localmente

Libreria Ollama

Sfoglia tutti i tag e le quantizzazioni Qwen disponibili

Sfoglia

Riferimento Modelfile

Personalizza comportamento, contesto e parametri del modello

Leggi docs

Riferimento API

API compatibile con OpenAI su localhost:11434

Vedi API

Community

Ricevi aiuto dalle community Ollama e Qwen

Unisciti

Per iniziare

Pronto a eseguire Qwen 3.6 con Ollama? Basta un comando

Prova Qwen 3.6 nel browser, poi installa Ollama per il deployment locale. Esegui 'ollama run qwen3.6:35b-a3b' per scaricare, configurare e iniziare a chattare con 20-40 tok/s su hardware consumer. Visione, chiamata funzioni e integrazione strumenti di coding funzionano nativamente.