Qwen 3.6 + Ollama

Draai Qwen 3.6 lokaal met één commando - geen configuratie nodig

Ollama maakt het draaien van Qwen 3.6 zo eenvoudig als 'ollama run qwen3.6:35b-a3b'. Automatische GPU-detectie, modeldownload en kwantisatieselectie. Ondersteunt zowel het 27B dense als het 35B A3B MoE-model met NVIDIA CUDA en Apple Metal-versnelling. Verwacht 20-40 tokens per seconde op consumer-hardware voor het 35B A3B 4-bit model. De OpenAI-compatibele API op localhost:11434 integreert direct met Claude Code, Aider, Continue.dev en andere codingtools. Vision en multimodale invoer worden standaard ondersteund - een belangrijke fix ten opzichte van Qwen 3.5 waar vision en tool calling niet werkten.

Start met chatten Bekijk modeltags

Ollama-gids

Van installatie tot inferentie in minder dan 5 minuten

Ollama neemt de complexiteit van lokale modeldeployment over - GPU-detectie, geheugenbeheer, kwantisatie en API-serving - zodat jij je kunt richten op het gebruik van het model. Qwen 3.6 lost de vision- en tool calling-problemen op die Qwen 3.5 op Ollama teisterden.

One-command setup

Installeer Ollama en voer dan 'ollama run qwen3.6:35b-a3b' (standaardtag) of 'ollama run qwen3.6:27b' uit. Automatische modeldownload, GPU-detectie en optimale kwantisatieselectie. Werkt op macOS (Apple Silicon met Metal), Linux (NVIDIA CUDA) en Windows (WSL2 of native). Het 35B A3B is het standaard aanbevolen model voor de meeste gebruikers vanwege de balans tussen kwaliteit en hardwarevereisten.

Modeltag-selectie

Kies de juiste modelvariant: 'qwen3.6:35b-a3b' voor consumer GPU's (standaardtag), 'qwen3.6:27b' voor maximale prestaties op workstation-hardware, 'qwen3.6:35b-a3b-q4_k_m' voor specifieke kwantisatiecontrole, of 'qwen3.6:35b-a3b-q3_k_m' voor krappere VRAM-budgetten (~17 GB). Tags corresponderen direct met GGUF-kwantisatieniveaus. Gebruik 'ollama list' om gedownloade modellen te zien en 'ollama show qwen3.6:35b-a3b' om modeldetails te inspecteren.

VRAM-vereisten en kwantisatie

35B A3B kwantisatie-opties: Q2_K (~13 GB, snelst, laagste kwaliteit), Q3_K_M (~17 GB, goed voor Mac M4 16 GB), Q4_K_M (~21 GB, gebalanceerde kwaliteit/snelheid op 24 GB GPU), Q5_K_M (~25 GB), Q8_0 (~35 GB, bijna lossless). 27B dense: Q4_K_M ~16 GB, heeft 24 GB+ GPU nodig. BF16 volledige precisie voor 35B A3B vereist ~70 GB VRAM. Community-rapporten bevestigen dat Mac M4 16 GB het 35B A3B met Q3-kwantisatie draait.

Vision en multimodale ondersteuning

Qwen 3.6-modellen ondersteunen multimodale invoer via Ollama - een grote verbetering ten opzichte van Qwen 3.5 waar vision niet werkte. Geef afbeeldingen mee naast tekstprompts voor analyse van code-screenshots, UI-review, diagrambegrip, parsing van architectuurdiagrammen en visuele debugworkflows. Gebruik het /image-commando in Ollama-chat of geef base64-gecodeerde afbeeldingen door via de API.

Prestatiebenchmarks op consumer-hardware

Unsloth community-benchmarks tonen 20-40 tokens per seconde op lokale configuraties voor het 35B A3B 4-bit model. Mac M4 16 GB-gebruikers melden bruikbare snelheden met Q3-kwantisatie. RTX 4090 24 GB verwerkt Q4_K_M met ruimte voor context. RTX 6000 96 GB kan volledige precisie-deployment draaien. Prestaties schalen lineair met GPU-geheugenbandbreedte - sneller geheugen betekent snellere inferentie.

Modelfile-aanpassing

Maak aangepaste Modelfiles om systeemprompts, temperatuur, contextlengte (num_ctx), GPU-laag offloading (num_gpu), batchgrootte (num_batch) en threadaantal te configureren. Stel num_ctx in tot 131072 voor long-context taken. Pas het chattemplate aan voor specifieke use cases zoals codeerassistenten, technisch schrijven of agentische workflows. Modelfiles zijn platte tekst en versiebeheerbaar.

Tool calling en functie-ondersteuning

Qwen 3.6 op Ollama ondersteunt tool calling en functie-aanroepen - nog een fix ten opzichte van Qwen 3.5 waar tool calling niet werkte. Definieer tools in het OpenAI-compatibele formaat en het model genereert gestructureerde functie-aanroepen. Dit maakt integratie mogelijk met agentische frameworks zoals LangChain, AutoGen en CrewAI via het localhost:11434-endpoint.

Codingtool-integratie

Ollama biedt een OpenAI-compatibele API op localhost:11434. Verbind direct met Claude Code (via OpenAI-compatibele API), OpenClaw, Aider, Continue.dev, Cursor en andere codingtools die aangepaste OpenAI-endpoints ondersteunen. Stel de basis-URL in op http://localhost:11434/v1 en gebruik een willekeurige string als API-sleutel. De Qwen 3.6-modellen ondersteunen hetzelfde chat completions-formaat als OpenAI.

Snelreferentie

Ollama-commando's, modeltags en hardwarevereisten

Essentiële commando's, configuratie-opties en hardwarevereisten voor het draaien van Qwen 3.6 met Ollama op verschillende platformen.

Essentiële commando's

ollama run qwen3.6:35b-a3b - Draai MoE-model (standaardtag, consumer GPU)
ollama run qwen3.6:27b - Draai dense model (workstation GPU)
ollama pull qwen3.6:35b-a3b-q3_k_m - Download Q3-kwant (~17 GB, Mac M4-vriendelijk)
ollama pull qwen3.6:35b-a3b-q4_k_m - Download Q4-kwant (~21 GB, gebalanceerd)
ollama serve - Start API-server op localhost:11434
ollama list - Toon gedownloade modellen en groottes
ollama show qwen3.6:35b-a3b - Inspecteer modeldetails en parameters

Hardwarevereisten

35B A3B Q3_K_M: ~17 GB VRAM (Mac M4 16 GB bevestigd werkend)
35B A3B Q4_K_M: ~21 GB VRAM (RTX 4090 24 GB aanbevolen)
35B A3B BF16: ~70 GB VRAM (RTX 6000 96 GB of multi-GPU)
27B Dense Q4_K_M: ~16 GB VRAM (RTX 4090 24 GB minimum)
27B Dense IQ4_XS: past in 16 GB VRAM met KV-cachecompressie
macOS: Apple Silicon met Metal-versnelling (M1 Pro+ aanbevolen)
20-40 tok/s op consumer-hardware voor 35B A3B 4-bit
CPU-fallback beschikbaar maar aanzienlijk langzamer (~2-5 tok/s)

Fixes ten opzichte van Qwen 3.5

Vision/multimodale invoer: niet werkend in 3.5, volledig werkend in 3.6
Tool calling/functie-aanroepen: niet werkend in 3.5, gefixt in 3.6
Verbeterde contextverwerking en geheugenefficiëntie
Betere kwantisatiekwaliteit bij lagere bit widths

Start met chatten Ollama-documentatie

Setupgidsen

Draai Qwen 3.6 met Ollama op elk platform

Stap-voor-stap gidsen voor het installeren van Ollama en configureren van Qwen 3.6 op jouw platform, met hardwarespecifieke optimalisatietips.

macOS-setup (Apple Silicon)

Installeer Ollama en draai Qwen 3.6 op M1/M2/M3/M4 Macs met Metal-versnelling

Linux-setup (NVIDIA)

NVIDIA GPU-setup met CUDA-versnelling voor maximale doorvoer

Windows-setup

WSL2 en native Windows-installatie met GPU-passthrough

Docker-setup

Draai Ollama in een container met GPU-toegang voor reproduceerbare deployments

Mac M4 16 GB-gids

Draai 35B A3B met Q3-kwantisatie op Mac M4 met 16 GB RAM

Multi-GPU-setup

Verdeel grote modellen over meerdere GPU's voor betere prestaties

Geavanceerde configuratie

Optimaliseer Qwen 3.6-prestaties en integreer met codingtools

Stem modelprestaties af met Modelfiles, GPU-configuratie, contextinstellingen en verbind met je ontwikkelomgeving.

Modelfile-gids

Aangepaste systeemprompts, temperatuur, contextlengte en chattemplates

GPU-optimalisatie

VRAM-beheer, laag-offloading en batchgrootte-tuning

Claude Code-integratie

Gebruik Qwen 3.6 via Ollama als backend voor Claude Code

Continue.dev-setup

AI-codeerassistent in VS Code met lokale Qwen 3.6

Aider-integratie

AI pair programming met Qwen 3.6 via Ollama

API-integratie

Verbind Ollama's localhost:11434 met elke OpenAI-compatibele tool

Qwen-ecosysteem

Ollama is het snelste pad naar lokale Qwen 3.6 - één commando, alle mogelijkheden

One-command setup met automatische GPU-detectie, modelbeheer, vision-ondersteuning, tool calling en een OpenAI-compatibele API op localhost:11434 voor naadloze integratie met Claude Code, Aider, Continue.dev en meer.

Ontdek alle modellen Ollama-bibliotheek

Qwen 3.6 35B A3B

MoE-model, 20-40 tok/s op consumer GPU

Lokaal draaien

Qwen 3.6 27B

Dense model, maximale lokale prestaties

Lokaal draaien

Ollama-bibliotheek

Blader door alle beschikbare Qwen modeltags en kwantisaties

Bladeren

Modelfile-referentie

Pas modelgedrag, context en parameters aan

Lees docs

API-referentie

OpenAI-compatibele API op localhost:11434

Bekijk API

Community

Krijg hulp van de Ollama- en Qwen-community's

Deelnemen

Aan de slag

Klaar om Qwen 3.6 met Ollama te draaien? Eén commando is alles wat je nodig hebt

Probeer Qwen 3.6 eerst in de browser en installeer dan Ollama voor lokale deployment. Voer 'ollama run qwen3.6:35b-a3b' uit om te downloaden, configureren en te chatten met 20-40 tok/s op consumer-hardware. Vision, tool calling en codingtool-integratie werken direct.

Start met chatten Installeer Ollama