Qwen 3.6 lokaal draaien

Deploy Qwen 3.6 op je eigen hardware - van Mac M4 16 GB tot productieservers

De open-weight modellen van Qwen 3.6 zijn ontworpen voor lokale deployment op uiteenlopende hardware. Het 27B dense model draait op 16 GB VRAM met IQ4_XS GGUF en KV-cachecompressie tot 100K context. Het 35B A3B MoE-model levert 20-40 tokens per seconde op consumer-hardware bij 4-bit kwantisatie. Community-rapporten bevestigen dat Mac M4 16 GB het 35B A3B draait met Q3-kwantisatie. Volledige ondersteuning voor Ollama, vLLM, llama.cpp, SGLang en KTransformers. Vision en multimodale mogelijkheden werken lokaal.

Lokale deployment

Alles wat je nodig hebt om Qwen 3.6 op je eigen machine te draaien

Van hardwareselectie tot kwantisatie-tuning, deze gids behandelt elk aspect van het lokaal deployen van Qwen 3.6-modellen voor ontwikkeling, testen en productie. Zes inference-frameworks ondersteund, met hardwareconfiguraties van 16 GB laptops tot 96 GB workstations.

Hardwarevereisten - 35B A3B MoE

Het 35B A3B MoE-model met slechts 3B actieve parameters is de meest hardwarevriendelijke optie. Q3_K_M-kwantisatie: ~17 GB VRAM, bevestigd werkend op Mac M4 16 GB. Q4_K_M: ~21-23 GB VRAM, past op RTX 4090 24 GB. Q8_0: ~35 GB. BF16 volledige precisie: ~70 GB, past op RTX 6000 96 GB. Verwacht 20-40 tokens per seconde op consumer-hardware bij 4-bit kwantisatie op basis van Unsloth community-benchmarks.

Hardwarevereisten - 27B Dense

Het 27B dense model levert maximale open-weight kwaliteit met alle parameters actief. IQ4_XS GGUF: draait op 16 GB VRAM met KV-cachecompressie, ondersteunt tot 100K contextlengte. Q4_K_M: ~16 GB, heeft 24 GB+ GPU nodig voor comfortabel gebruik met context. FP16 volledige precisie: ~55,6 GB, vereist 2x RTX 4090 of A100 80 GB. Ideaal voor workstation-deployments waar kwaliteit de hoogste prioriteit heeft.

Ollama one-command setup

Het snelste pad naar lokale deployment: 'ollama run qwen3.6:35b-a3b'. Automatische modeldownload, kwantisatieselectie en GPU-detectie. Ondersteunt NVIDIA CUDA en Apple Metal-versnelling. De OpenAI-compatibele API op localhost:11434 integreert met Claude Code, Aider, Continue.dev en andere codingtools. Vision en tool calling werken direct - verbeteringen ten opzichte van Qwen 3.5.

vLLM productie-serving

Productiewaardige serving met continue batching, PagedAttention en OpenAI-compatibele API-endpoints. Ideaal voor multi-user deployments en high-throughput inferentie op serverhardware. Ondersteunt tensor-parallellisme voor het verdelen van het 27B-model over meerdere GPU's. PagedAttention maakt efficiënt geheugenbeheer mogelijk voor long-context verzoeken tot de volledige contextlengte van het model.

llama.cpp en SGLang

llama.cpp biedt lichtgewicht C++-inferentie met CPU- en GPU-ondersteuning, ideaal voor edge-deployments en omgevingen met beperkte resources. SGLang biedt high-performance serving met RadixAttention voor efficiënte prefix-caching. Beide ondersteunen GGUF-gekwantiseerde modellen en bieden OpenAI-compatibele API-endpoints. KTransformers wordt ook ondersteund voor geavanceerde deployment-scenario's.

Vision en multimodaal lokaal

Zowel het 27B als het 35B A3B-model ondersteunen visuele en multimodale invoer bij lokale deployment. Analyseer code-screenshots, beoordeel UI-ontwerpen, interpreteer architectuurdiagrammen en debug visuele problemen. Deze mogelijkheid werkt met Ollama, vLLM en andere ondersteunde frameworks. Een aanzienlijke verbetering ten opzichte van Qwen 3.5 waar lokale vision niet werkte.

Privacy en datasoevereiniteit

Alle data blijft op je machine. Geen API-aanroepen, geen cloudafhankelijkheden, geen gebruikstracking, geen data die je netwerk verlaat. Perfect voor gevoelige codebases, bedrijfseigen data, zorg- en financiële toepassingen, en air-gapped omgevingen waar datasoevereiniteit wettelijk vereist is. De Apache 2.0-licentie staat commercieel gebruik zonder beperkingen toe.

Kostenanalyse vs API

Nul kosten per token na de initiële hardware-investering. Een enkele RTX 4090 (~$1.600) die het 35B A3B-model draait op 20-40 tok/s kan duizenden verzoeken per dag verwerken. Bij DashScope-prijzen van $0,40/$2,40 per miljoen tokens verdient de GPU zichzelf binnen weken terug bij intensief gebruik. Voor teams die dagelijks miljoenen tokens verwerken, biedt lokale deployment 10-100x kostenbesparing ten opzichte van API-toegang.

Snelreferentie

Hardwareconfiguraties en framework-opties

Belangrijkste specificaties voor lokale Qwen 3.6-deployment op verschillende hardwareconfiguraties en inference-frameworks.

35B A3B MoE-configuraties

  • Q3_K_M: ~17 GB VRAM - Mac M4 16 GB bevestigd werkend
  • Q4_K_M: ~21-23 GB VRAM - RTX 4090 24 GB aanbevolen
  • Q8_0: ~35 GB VRAM - RTX A6000 48 GB of dubbele GPU
  • BF16: ~70 GB VRAM - RTX 6000 96 GB volledige precisie
  • 20-40 tok/s op consumer-hardware bij 4-bit (Unsloth-benchmarks)
  • 3B actieve parameters per token, efficiënte inferentie

27B Dense-configuraties

  • IQ4_XS GGUF: 16 GB VRAM met KV-cachecompressie (100K context)
  • Q4_K_M: ~16 GB VRAM - RTX 4090 24 GB met ruimte voor context
  • FP16: ~55,6 GB VRAM - 2x RTX 4090 of A100 80 GB
  • Alle 27B parameters actief voor maximale kwaliteit
  • Beste open-weight codingmodel: 77,2% SWE-bench

Ondersteunde frameworks

  • Ollama: eenvoudigste setup, deployment met één commando, vision + tool calling
  • vLLM: productie-serving, continue batching, tensor-parallellisme
  • llama.cpp: lichtgewicht C++-inferentie, CPU + GPU, edge-deployment
  • SGLang: high-performance serving met RadixAttention prefix-caching
  • KTransformers: geavanceerde deployment en optimalisatie
  • HuggingFace Transformers: native Python, volledige fine-tuning-ondersteuning

Qwen-ecosysteem

Open-weight modellen gebouwd voor lokale deployment - Apache 2.0-licentie

De open-weight modellen van Qwen 3.6 zijn uitgebracht onder de Apache 2.0-licentie met volledige ondersteuning voor zes inference-frameworks. Van Mac M4-laptops tot multi-GPU-servers, deploy met vertrouwen en nul doorlopende kosten.

Qwen 3.6 35B A3B

MoE, 3B actieve params, 20-40 tok/s op consumer GPU

Downloaden

Qwen 3.6 27B

Dense, 16 GB VRAM met IQ4_XS, max kwaliteit

Downloaden

Ollama-bibliotheek

Voorgebouwde modeltags voor one-command setup

Bladeren

GGUF-modellen

Gekwantiseerde modellen voor elk VRAM-budget

Downloaden

vLLM-docs

Productie-serving met continue batching

Lees docs

Community

Krijg hulp van de Qwen-community

Deelnemen

Aan de slag

Klaar om Qwen 3.6 op je eigen hardware te draaien? Begin met één commando

Probeer Qwen 3.6 eerst in de browser en deploy vervolgens lokaal met Ollama, vLLM, llama.cpp of SGLang. Het 35B A3B draait op Mac M4 16 GB, het 27B past in 16 GB VRAM met IQ4_XS. Nul kosten per token, volledige dataprivacy, Apache 2.0-licentie.