Qwen 3.6 lokal betreiben

Qwen 3.6 auf eigener Hardware bereitstellen – vom Mac M4 16 GB bis zum Produktionsserver

Die Open-Weight-Modelle von Qwen 3.6 sind für die lokale Bereitstellung auf einer breiten Palette von Hardware ausgelegt. Das 27B-Dense-Modell läuft auf 16 GB VRAM mit IQ4_XS-GGUF und KV-Cache-Komprimierung mit bis zu 100K Kontext. Das 35B-A3B-MoE-Modell liefert 20–40 Token pro Sekunde auf Consumer-Hardware bei 4-Bit-Quantisierung. Community-Berichte bestätigen, dass Mac M4 16 GB das 35B A3B bei Q3-Quantisierung betreibt. Volle Unterstützung für Ollama, vLLM, llama.cpp, SGLang und KTransformers. Vision und multimodale Fähigkeiten funktionieren lokal.

Lokale Bereitstellung

Alles, was du brauchst, um Qwen 3.6 auf deinem eigenen Rechner zu betreiben

Von der Hardware-Auswahl bis zur Quantisierungs-Feinabstimmung deckt dieser Leitfaden jeden Aspekt der lokalen Bereitstellung von Qwen-3.6-Modellen für Entwicklung, Tests und Produktion ab. Sechs Inferenz-Frameworks werden unterstützt, mit Hardware-Konfigurationen von 16-GB-Laptops bis zu 96-GB-Workstations.

Hardware-Anforderungen – 35B A3B MoE

Das 35B-A3B-MoE-Modell mit nur 3B aktiven Parametern ist die hardwarefreundlichste Option. Q3_K_M-Quantisierung: ca. 17 GB VRAM, bestätigt auf Mac M4 16 GB. Q4_K_M: ca. 21–23 GB VRAM, passt auf RTX 4090 24 GB. Q8_0: ca. 35 GB. BF16 volle Präzision: ca. 70 GB, passt auf RTX 6000 96 GB. Erwarte 20–40 Token pro Sekunde auf Consumer-Hardware bei 4-Bit-Quantisierung laut Unsloth-Community-Benchmarks.

Hardware-Anforderungen – 27B Dense

Das 27B-Dense-Modell liefert maximale Open-Weight-Qualität mit allen aktiven Parametern. IQ4_XS-GGUF: läuft auf 16 GB VRAM mit KV-Cache-Komprimierung und unterstützt bis zu 100K Kontextlänge. Q4_K_M: ca. 16 GB, benötigt 24 GB+ GPU für komfortablen Betrieb mit Kontext. FP16 volle Präzision: ca. 55,6 GB, erfordert 2x RTX 4090 oder A100 80 GB. Am besten für Workstation-Bereitstellungen, bei denen Qualität oberste Priorität hat.

Ollama-Ein-Befehl-Setup

Der schnellste Weg zur lokalen Bereitstellung: 'ollama run qwen3.6:35b-a3b'. Automatischer Modell-Download, Quantisierungsauswahl und GPU-Erkennung. Unterstützt NVIDIA CUDA und Apple Metal Beschleunigung. Die OpenAI-kompatible API unter localhost:11434 integriert sich mit Claude Code, Aider, Continue.dev und anderen Coding-Tools. Vision und Tool-Calling funktionieren sofort – Verbesserungen gegenüber Qwen 3.5.

vLLM-Produktionsserving

Produktionsreifes Serving mit Continuous Batching, PagedAttention und OpenAI-kompatiblen API-Endpunkten. Ideal für Mehrbenutzerbetrieb und Hochdurchsatz-Inferenz auf Server-Hardware. Unterstützt Tensor-Parallelismus zum Aufteilen des 27B-Modells auf mehrere GPUs. PagedAttention ermöglicht effizientes Speichermanagement für Long-Context-Anfragen bis zur vollen Kontextlänge des Modells.

llama.cpp und SGLang

llama.cpp bietet leichtgewichtige C++-Inferenz mit CPU- und GPU-Unterstützung, ideal für Edge-Deployments und ressourcenbeschränkte Umgebungen. SGLang bietet Hochleistungs-Serving mit RadixAttention für effizientes Prefix-Caching. Beide unterstützen GGUF-quantisierte Modelle und bieten OpenAI-kompatible API-Endpunkte. KTransformers wird ebenfalls für fortgeschrittene Deployment-Szenarien unterstützt.

Vision und multimodal lokal

Sowohl das 27B- als auch das 35B-A3B-Modell unterstützen Vision und multimodale Eingaben bei lokaler Bereitstellung. Analysiere Code-Screenshots, überprüfe UI-Designs, parse Architekturdiagramme und debugge visuelle Probleme. Diese Fähigkeit funktioniert mit Ollama, vLLM und anderen unterstützten Frameworks. Eine deutliche Verbesserung gegenüber Qwen 3.5, wo lokale Vision nicht funktionierte.

Datenschutz und Datensouveränität

Alle Daten bleiben auf deinem Rechner. Keine API-Aufrufe, keine Cloud-Abhängigkeiten, kein Nutzungs-Tracking, keine Daten verlassen dein Netzwerk. Perfekt für sensible Codebasen, proprietäre Daten, Gesundheits- und Finanzanwendungen sowie Air-Gapped-Umgebungen, in denen Datensouveränität gesetzlich vorgeschrieben ist. Die Apache-2.0-Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen.

Kostenanalyse vs. API

Null Token-Kosten nach der anfänglichen Hardware-Investition. Eine einzelne RTX 4090 (ca. 1.600 $) mit dem 35B-A3B-Modell bei 20–40 Tok/s kann Tausende Anfragen pro Tag verarbeiten. Bei DashScope-Preisen von 0,40 $/2,40 $ pro Million Token amortisiert sich die GPU bei intensiver Nutzung innerhalb von Wochen. Für Teams, die täglich Millionen von Token verarbeiten, bietet die lokale Bereitstellung 10–100-fache Kosteneinsparungen gegenüber API-Zugang.

Kurzreferenz

Hardware-Konfigurationen und Framework-Optionen

Wichtige Spezifikationen für die lokale Qwen-3.6-Bereitstellung über verschiedene Hardware-Konfigurationen und Inferenz-Frameworks.

35B A3B MoE-Konfigurationen

  • Q3_K_M: ca. 17 GB VRAM – Mac M4 16 GB bestätigt
  • Q4_K_M: ca. 21–23 GB VRAM – RTX 4090 24 GB empfohlen
  • Q8_0: ca. 35 GB VRAM – RTX A6000 48 GB oder Dual-GPU
  • BF16: ca. 70 GB VRAM – RTX 6000 96 GB volle Präzision
  • 20–40 Tok/s auf Consumer-Hardware bei 4-Bit (Unsloth-Benchmarks)
  • 3B aktive Parameter pro Token, effiziente Inferenz

27B Dense-Konfigurationen

  • IQ4_XS GGUF: 16 GB VRAM mit KV-Cache-Komprimierung (100K Kontext)
  • Q4_K_M: ca. 16 GB VRAM – RTX 4090 24 GB mit Kontext-Spielraum
  • FP16: ca. 55,6 GB VRAM – 2x RTX 4090 oder A100 80 GB
  • Alle 27B Parameter aktiv für maximale Qualität
  • Bestes Open-Weight-Coding-Modell: 77,2 % SWE-bench

Unterstützte Frameworks

  • Ollama: Einfachstes Setup, Ein-Befehl-Deployment, Vision + Tool-Calling
  • vLLM: Produktionsserving, Continuous Batching, Tensor-Parallelismus
  • llama.cpp: Leichtgewichtige C++-Inferenz, CPU + GPU, Edge-Deployment
  • SGLang: Hochleistungs-Serving mit RadixAttention-Prefix-Caching
  • KTransformers: Fortgeschrittenes Deployment und Optimierung
  • HuggingFace Transformers: Natives Python, volle Feintuning-Unterstützung

Qwen-Ökosystem

Open-Weight-Modelle für lokale Bereitstellung – Apache-2.0-lizenziert

Die Open-Weight-Modelle von Qwen 3.6 werden unter der Apache-2.0-Lizenz mit voller Unterstützung für sechs Inferenz-Frameworks veröffentlicht. Vom Mac-M4-Laptop bis zum Multi-GPU-Server – stelle mit Zuversicht und ohne laufende Kosten bereit.

Qwen 3.6 35B A3B

MoE, 3B aktive Parameter, 20–40 Tok/s auf Consumer-GPU

Herunterladen

Qwen 3.6 27B

Dense, 16 GB VRAM mit IQ4_XS, maximale Qualität

Herunterladen

Ollama-Bibliothek

Vorgefertigte Modell-Tags für Ein-Befehl-Setup

Durchsuchen

GGUF-Modelle

Quantisierte Modelle für jedes VRAM-Budget

Herunterladen

vLLM-Dokumentation

Produktionsserving mit Continuous Batching

Doku lesen

Community

Hilfe von der Qwen-Community erhalten

Beitreten

Erste Schritte

Bereit, Qwen 3.6 auf eigener Hardware zu betreiben? Starte mit einem Befehl

Teste Qwen 3.6 zuerst im Browser, dann stelle lokal mit Ollama, vLLM, llama.cpp oder SGLang bereit. Das 35B A3B läuft auf Mac M4 16 GB, das 27B passt mit IQ4_XS auf 16 GB VRAM. Null Token-Kosten, voller Datenschutz, Apache-2.0-lizenziert.