Qwen 3.6 + Ollama
Draai Qwen 3.6 lokaal met één commando - geen configuratie nodig
Ollama maakt het draaien van Qwen 3.6 zo eenvoudig als 'ollama run qwen3.6:35b-a3b'. Automatische GPU-detectie, modeldownload en kwantisatieselectie. Ondersteunt zowel het 27B dense als het 35B A3B MoE-model met NVIDIA CUDA en Apple Metal-versnelling. Verwacht 20-40 tokens per seconde op consumer-hardware voor het 35B A3B 4-bit model. De OpenAI-compatibele API op localhost:11434 integreert direct met Claude Code, Aider, Continue.dev en andere codingtools. Vision en multimodale invoer worden standaard ondersteund - een belangrijke fix ten opzichte van Qwen 3.5 waar vision en tool calling niet werkten.
Ollama-gids
Van installatie tot inferentie in minder dan 5 minuten
Ollama neemt de complexiteit van lokale modeldeployment over - GPU-detectie, geheugenbeheer, kwantisatie en API-serving - zodat jij je kunt richten op het gebruik van het model. Qwen 3.6 lost de vision- en tool calling-problemen op die Qwen 3.5 op Ollama teisterden.
One-command setup
Installeer Ollama en voer dan 'ollama run qwen3.6:35b-a3b' (standaardtag) of 'ollama run qwen3.6:27b' uit. Automatische modeldownload, GPU-detectie en optimale kwantisatieselectie. Werkt op macOS (Apple Silicon met Metal), Linux (NVIDIA CUDA) en Windows (WSL2 of native). Het 35B A3B is het standaard aanbevolen model voor de meeste gebruikers vanwege de balans tussen kwaliteit en hardwarevereisten.
Modeltag-selectie
Kies de juiste modelvariant: 'qwen3.6:35b-a3b' voor consumer GPU's (standaardtag), 'qwen3.6:27b' voor maximale prestaties op workstation-hardware, 'qwen3.6:35b-a3b-q4_k_m' voor specifieke kwantisatiecontrole, of 'qwen3.6:35b-a3b-q3_k_m' voor krappere VRAM-budgetten (~17 GB). Tags corresponderen direct met GGUF-kwantisatieniveaus. Gebruik 'ollama list' om gedownloade modellen te zien en 'ollama show qwen3.6:35b-a3b' om modeldetails te inspecteren.
VRAM-vereisten en kwantisatie
35B A3B kwantisatie-opties: Q2_K (~13 GB, snelst, laagste kwaliteit), Q3_K_M (~17 GB, goed voor Mac M4 16 GB), Q4_K_M (~21 GB, gebalanceerde kwaliteit/snelheid op 24 GB GPU), Q5_K_M (~25 GB), Q8_0 (~35 GB, bijna lossless). 27B dense: Q4_K_M ~16 GB, heeft 24 GB+ GPU nodig. BF16 volledige precisie voor 35B A3B vereist ~70 GB VRAM. Community-rapporten bevestigen dat Mac M4 16 GB het 35B A3B met Q3-kwantisatie draait.
Vision en multimodale ondersteuning
Qwen 3.6-modellen ondersteunen multimodale invoer via Ollama - een grote verbetering ten opzichte van Qwen 3.5 waar vision niet werkte. Geef afbeeldingen mee naast tekstprompts voor analyse van code-screenshots, UI-review, diagrambegrip, parsing van architectuurdiagrammen en visuele debugworkflows. Gebruik het /image-commando in Ollama-chat of geef base64-gecodeerde afbeeldingen door via de API.
Prestatiebenchmarks op consumer-hardware
Unsloth community-benchmarks tonen 20-40 tokens per seconde op lokale configuraties voor het 35B A3B 4-bit model. Mac M4 16 GB-gebruikers melden bruikbare snelheden met Q3-kwantisatie. RTX 4090 24 GB verwerkt Q4_K_M met ruimte voor context. RTX 6000 96 GB kan volledige precisie-deployment draaien. Prestaties schalen lineair met GPU-geheugenbandbreedte - sneller geheugen betekent snellere inferentie.
Modelfile-aanpassing
Maak aangepaste Modelfiles om systeemprompts, temperatuur, contextlengte (num_ctx), GPU-laag offloading (num_gpu), batchgrootte (num_batch) en threadaantal te configureren. Stel num_ctx in tot 131072 voor long-context taken. Pas het chattemplate aan voor specifieke use cases zoals codeerassistenten, technisch schrijven of agentische workflows. Modelfiles zijn platte tekst en versiebeheerbaar.
Tool calling en functie-ondersteuning
Qwen 3.6 op Ollama ondersteunt tool calling en functie-aanroepen - nog een fix ten opzichte van Qwen 3.5 waar tool calling niet werkte. Definieer tools in het OpenAI-compatibele formaat en het model genereert gestructureerde functie-aanroepen. Dit maakt integratie mogelijk met agentische frameworks zoals LangChain, AutoGen en CrewAI via het localhost:11434-endpoint.
Codingtool-integratie
Ollama biedt een OpenAI-compatibele API op localhost:11434. Verbind direct met Claude Code (via OpenAI-compatibele API), OpenClaw, Aider, Continue.dev, Cursor en andere codingtools die aangepaste OpenAI-endpoints ondersteunen. Stel de basis-URL in op http://localhost:11434/v1 en gebruik een willekeurige string als API-sleutel. De Qwen 3.6-modellen ondersteunen hetzelfde chat completions-formaat als OpenAI.
Snelreferentie
Ollama-commando's, modeltags en hardwarevereisten
Essentiële commando's, configuratie-opties en hardwarevereisten voor het draaien van Qwen 3.6 met Ollama op verschillende platformen.
Essentiële commando's
- ollama run qwen3.6:35b-a3b - Draai MoE-model (standaardtag, consumer GPU)
- ollama run qwen3.6:27b - Draai dense model (workstation GPU)
- ollama pull qwen3.6:35b-a3b-q3_k_m - Download Q3-kwant (~17 GB, Mac M4-vriendelijk)
- ollama pull qwen3.6:35b-a3b-q4_k_m - Download Q4-kwant (~21 GB, gebalanceerd)
- ollama serve - Start API-server op localhost:11434
- ollama list - Toon gedownloade modellen en groottes
- ollama show qwen3.6:35b-a3b - Inspecteer modeldetails en parameters
Hardwarevereisten
- 35B A3B Q3_K_M: ~17 GB VRAM (Mac M4 16 GB bevestigd werkend)
- 35B A3B Q4_K_M: ~21 GB VRAM (RTX 4090 24 GB aanbevolen)
- 35B A3B BF16: ~70 GB VRAM (RTX 6000 96 GB of multi-GPU)
- 27B Dense Q4_K_M: ~16 GB VRAM (RTX 4090 24 GB minimum)
- 27B Dense IQ4_XS: past in 16 GB VRAM met KV-cachecompressie
- macOS: Apple Silicon met Metal-versnelling (M1 Pro+ aanbevolen)
- 20-40 tok/s op consumer-hardware voor 35B A3B 4-bit
- CPU-fallback beschikbaar maar aanzienlijk langzamer (~2-5 tok/s)
Fixes ten opzichte van Qwen 3.5
- Vision/multimodale invoer: niet werkend in 3.5, volledig werkend in 3.6
- Tool calling/functie-aanroepen: niet werkend in 3.5, gefixt in 3.6
- Verbeterde contextverwerking en geheugenefficiëntie
- Betere kwantisatiekwaliteit bij lagere bit widths
Setupgidsen
Draai Qwen 3.6 met Ollama op elk platform
Stap-voor-stap gidsen voor het installeren van Ollama en configureren van Qwen 3.6 op jouw platform, met hardwarespecifieke optimalisatietips.
Installeer Ollama en draai Qwen 3.6 op M1/M2/M3/M4 Macs met Metal-versnelling
NVIDIA GPU-setup met CUDA-versnelling voor maximale doorvoer
WSL2 en native Windows-installatie met GPU-passthrough
Draai Ollama in een container met GPU-toegang voor reproduceerbare deployments
Draai 35B A3B met Q3-kwantisatie op Mac M4 met 16 GB RAM
Verdeel grote modellen over meerdere GPU's voor betere prestaties
Geavanceerde configuratie
Optimaliseer Qwen 3.6-prestaties en integreer met codingtools
Stem modelprestaties af met Modelfiles, GPU-configuratie, contextinstellingen en verbind met je ontwikkelomgeving.
Aangepaste systeemprompts, temperatuur, contextlengte en chattemplates
VRAM-beheer, laag-offloading en batchgrootte-tuning
Gebruik Qwen 3.6 via Ollama als backend voor Claude Code
AI-codeerassistent in VS Code met lokale Qwen 3.6
AI pair programming met Qwen 3.6 via Ollama
Verbind Ollama's localhost:11434 met elke OpenAI-compatibele tool
Qwen-ecosysteem
Ollama is het snelste pad naar lokale Qwen 3.6 - één commando, alle mogelijkheden
One-command setup met automatische GPU-detectie, modelbeheer, vision-ondersteuning, tool calling en een OpenAI-compatibele API op localhost:11434 voor naadloze integratie met Claude Code, Aider, Continue.dev en meer.
Aan de slag
Klaar om Qwen 3.6 met Ollama te draaien? Eén commando is alles wat je nodig hebt
Probeer Qwen 3.6 eerst in de browser en installeer dan Ollama voor lokale deployment. Voer 'ollama run qwen3.6:35b-a3b' uit om te downloaden, configureren en te chatten met 20-40 tok/s op consumer-hardware. Vision, tool calling en codingtool-integratie werken direct.