Qwen 3.6 lokaal draaien

Deploy Qwen 3.6 op je eigen hardware - van Mac M4 16 GB tot productieservers

De open-weight modellen van Qwen 3.6 zijn ontworpen voor lokale deployment op uiteenlopende hardware. Het 27B dense model draait op 16 GB VRAM met IQ4_XS GGUF en KV-cachecompressie tot 100K context. Het 35B A3B MoE-model levert 20-40 tokens per seconde op consumer-hardware bij 4-bit kwantisatie. Community-rapporten bevestigen dat Mac M4 16 GB het 35B A3B draait met Q3-kwantisatie. Volledige ondersteuning voor Ollama, vLLM, llama.cpp, SGLang en KTransformers. Vision en multimodale mogelijkheden werken lokaal.

Start met chatten Bekijk hardwaregids

Lokale deployment

Alles wat je nodig hebt om Qwen 3.6 op je eigen machine te draaien

Van hardwareselectie tot kwantisatie-tuning, deze gids behandelt elk aspect van het lokaal deployen van Qwen 3.6-modellen voor ontwikkeling, testen en productie. Zes inference-frameworks ondersteund, met hardwareconfiguraties van 16 GB laptops tot 96 GB workstations.

Hardwarevereisten - 35B A3B MoE

Het 35B A3B MoE-model met slechts 3B actieve parameters is de meest hardwarevriendelijke optie. Q3_K_M-kwantisatie: ~17 GB VRAM, bevestigd werkend op Mac M4 16 GB. Q4_K_M: ~21-23 GB VRAM, past op RTX 4090 24 GB. Q8_0: ~35 GB. BF16 volledige precisie: ~70 GB, past op RTX 6000 96 GB. Verwacht 20-40 tokens per seconde op consumer-hardware bij 4-bit kwantisatie op basis van Unsloth community-benchmarks.

Hardwarevereisten - 27B Dense

Het 27B dense model levert maximale open-weight kwaliteit met alle parameters actief. IQ4_XS GGUF: draait op 16 GB VRAM met KV-cachecompressie, ondersteunt tot 100K contextlengte. Q4_K_M: ~16 GB, heeft 24 GB+ GPU nodig voor comfortabel gebruik met context. FP16 volledige precisie: ~55,6 GB, vereist 2x RTX 4090 of A100 80 GB. Ideaal voor workstation-deployments waar kwaliteit de hoogste prioriteit heeft.

Ollama one-command setup

Het snelste pad naar lokale deployment: 'ollama run qwen3.6:35b-a3b'. Automatische modeldownload, kwantisatieselectie en GPU-detectie. Ondersteunt NVIDIA CUDA en Apple Metal-versnelling. De OpenAI-compatibele API op localhost:11434 integreert met Claude Code, Aider, Continue.dev en andere codingtools. Vision en tool calling werken direct - verbeteringen ten opzichte van Qwen 3.5.

vLLM productie-serving

Productiewaardige serving met continue batching, PagedAttention en OpenAI-compatibele API-endpoints. Ideaal voor multi-user deployments en high-throughput inferentie op serverhardware. Ondersteunt tensor-parallellisme voor het verdelen van het 27B-model over meerdere GPU's. PagedAttention maakt efficiënt geheugenbeheer mogelijk voor long-context verzoeken tot de volledige contextlengte van het model.

llama.cpp en SGLang

llama.cpp biedt lichtgewicht C++-inferentie met CPU- en GPU-ondersteuning, ideaal voor edge-deployments en omgevingen met beperkte resources. SGLang biedt high-performance serving met RadixAttention voor efficiënte prefix-caching. Beide ondersteunen GGUF-gekwantiseerde modellen en bieden OpenAI-compatibele API-endpoints. KTransformers wordt ook ondersteund voor geavanceerde deployment-scenario's.

Vision en multimodaal lokaal

Zowel het 27B als het 35B A3B-model ondersteunen visuele en multimodale invoer bij lokale deployment. Analyseer code-screenshots, beoordeel UI-ontwerpen, interpreteer architectuurdiagrammen en debug visuele problemen. Deze mogelijkheid werkt met Ollama, vLLM en andere ondersteunde frameworks. Een aanzienlijke verbetering ten opzichte van Qwen 3.5 waar lokale vision niet werkte.

Privacy en datasoevereiniteit

Alle data blijft op je machine. Geen API-aanroepen, geen cloudafhankelijkheden, geen gebruikstracking, geen data die je netwerk verlaat. Perfect voor gevoelige codebases, bedrijfseigen data, zorg- en financiële toepassingen, en air-gapped omgevingen waar datasoevereiniteit wettelijk vereist is. De Apache 2.0-licentie staat commercieel gebruik zonder beperkingen toe.

Kostenanalyse vs API

Nul kosten per token na de initiële hardware-investering. Een enkele RTX 4090 (~$1.600) die het 35B A3B-model draait op 20-40 tok/s kan duizenden verzoeken per dag verwerken. Bij DashScope-prijzen van $0,40/$2,40 per miljoen tokens verdient de GPU zichzelf binnen weken terug bij intensief gebruik. Voor teams die dagelijks miljoenen tokens verwerken, biedt lokale deployment 10-100x kostenbesparing ten opzichte van API-toegang.

Snelreferentie

Hardwareconfiguraties en framework-opties

Belangrijkste specificaties voor lokale Qwen 3.6-deployment op verschillende hardwareconfiguraties en inference-frameworks.

35B A3B MoE-configuraties

Q3_K_M: ~17 GB VRAM - Mac M4 16 GB bevestigd werkend
Q4_K_M: ~21-23 GB VRAM - RTX 4090 24 GB aanbevolen
Q8_0: ~35 GB VRAM - RTX A6000 48 GB of dubbele GPU
BF16: ~70 GB VRAM - RTX 6000 96 GB volledige precisie
20-40 tok/s op consumer-hardware bij 4-bit (Unsloth-benchmarks)
3B actieve parameters per token, efficiënte inferentie

27B Dense-configuraties

IQ4_XS GGUF: 16 GB VRAM met KV-cachecompressie (100K context)
Q4_K_M: ~16 GB VRAM - RTX 4090 24 GB met ruimte voor context
FP16: ~55,6 GB VRAM - 2x RTX 4090 of A100 80 GB
Alle 27B parameters actief voor maximale kwaliteit
Beste open-weight codingmodel: 77,2% SWE-bench

Ondersteunde frameworks

Ollama: eenvoudigste setup, deployment met één commando, vision + tool calling
vLLM: productie-serving, continue batching, tensor-parallellisme
llama.cpp: lichtgewicht C++-inferentie, CPU + GPU, edge-deployment
SGLang: high-performance serving met RadixAttention prefix-caching
KTransformers: geavanceerde deployment en optimalisatie
HuggingFace Transformers: native Python, volledige fine-tuning-ondersteuning

Start met chatten Download modellen

Setupgidsen

Stap-voor-stap lokale deployment voor elk framework

Volg deze gidsen om Qwen 3.6 in minuten op je hardware te draaien, met platformspecifieke optimalisatietips.

Ollama-snelstart

Installeer Ollama en draai Qwen 3.6 in minder dan 5 minuten

vLLM-deployment

Stel productiewaardige serving in met OpenAI-compatibele API

llama.cpp-gids

Lichtgewicht inferentie met CPU- en GPU-ondersteuning

SGLang-setup

High-performance serving met RadixAttention

box

Docker-setup

Gecontaineriseerde deployment voor reproduceerbare omgevingen

Mac M4-gids

Draai 35B A3B op Mac M4 16 GB met Q3-kwantisatie

Optimalisatie

Haal het maximale uit je hardware

Stem kwantisatie, batchgrootte, geheugentoewijzing en contextlengte af voor optimale prestaties op jouw specifieke hardware.

Kwantisatievergelijking

Kwaliteit vs snelheid vs VRAM-afwegingen voor elk GGUF-niveau

Multi-GPU-setup

Tensor-parallellisme voor het 27B dense model over meerdere GPU's

Apple Silicon-gids

Geoptimaliseerde instellingen voor M1/M2/M3/M4 Macs met Metal

KV-cachecompressie

Pas 27B in 16 GB VRAM met 100K context via IQ4_XS

Codingtool-integratie

Verbind lokale Qwen met Claude Code, Aider, Continue.dev

Qwen-ecosysteem

Open-weight modellen gebouwd voor lokale deployment - Apache 2.0-licentie

De open-weight modellen van Qwen 3.6 zijn uitgebracht onder de Apache 2.0-licentie met volledige ondersteuning voor zes inference-frameworks. Van Mac M4-laptops tot multi-GPU-servers, deploy met vertrouwen en nul doorlopende kosten.

Ontdek alle modellen HuggingFace-collectie

Qwen 3.6 35B A3B

MoE, 3B actieve params, 20-40 tok/s op consumer GPU

Downloaden

Qwen 3.6 27B

Dense, 16 GB VRAM met IQ4_XS, max kwaliteit

Downloaden

Ollama-bibliotheek

Voorgebouwde modeltags voor one-command setup

Bladeren

GGUF-modellen

Gekwantiseerde modellen voor elk VRAM-budget

Downloaden

vLLM-docs

Productie-serving met continue batching

Lees docs

Community

Krijg hulp van de Qwen-community

Deelnemen

Aan de slag

Klaar om Qwen 3.6 op je eigen hardware te draaien? Begin met één commando

Probeer Qwen 3.6 eerst in de browser en deploy vervolgens lokaal met Ollama, vLLM, llama.cpp of SGLang. Het 35B A3B draait op Mac M4 16 GB, het 27B past in 16 GB VRAM met IQ4_XS. Nul kosten per token, volledige dataprivacy, Apache 2.0-licentie.

Start met chatten Download modellen