Qwen 3.6 lokal betreiben
Qwen 3.6 auf eigener Hardware bereitstellen – vom Mac M4 16 GB bis zum Produktionsserver
Die Open-Weight-Modelle von Qwen 3.6 sind für die lokale Bereitstellung auf einer breiten Palette von Hardware ausgelegt. Das 27B-Dense-Modell läuft auf 16 GB VRAM mit IQ4_XS-GGUF und KV-Cache-Komprimierung mit bis zu 100K Kontext. Das 35B-A3B-MoE-Modell liefert 20–40 Token pro Sekunde auf Consumer-Hardware bei 4-Bit-Quantisierung. Community-Berichte bestätigen, dass Mac M4 16 GB das 35B A3B bei Q3-Quantisierung betreibt. Volle Unterstützung für Ollama, vLLM, llama.cpp, SGLang und KTransformers. Vision und multimodale Fähigkeiten funktionieren lokal.
Lokale Bereitstellung
Alles, was du brauchst, um Qwen 3.6 auf deinem eigenen Rechner zu betreiben
Von der Hardware-Auswahl bis zur Quantisierungs-Feinabstimmung deckt dieser Leitfaden jeden Aspekt der lokalen Bereitstellung von Qwen-3.6-Modellen für Entwicklung, Tests und Produktion ab. Sechs Inferenz-Frameworks werden unterstützt, mit Hardware-Konfigurationen von 16-GB-Laptops bis zu 96-GB-Workstations.
Hardware-Anforderungen – 35B A3B MoE
Das 35B-A3B-MoE-Modell mit nur 3B aktiven Parametern ist die hardwarefreundlichste Option. Q3_K_M-Quantisierung: ca. 17 GB VRAM, bestätigt auf Mac M4 16 GB. Q4_K_M: ca. 21–23 GB VRAM, passt auf RTX 4090 24 GB. Q8_0: ca. 35 GB. BF16 volle Präzision: ca. 70 GB, passt auf RTX 6000 96 GB. Erwarte 20–40 Token pro Sekunde auf Consumer-Hardware bei 4-Bit-Quantisierung laut Unsloth-Community-Benchmarks.
Hardware-Anforderungen – 27B Dense
Das 27B-Dense-Modell liefert maximale Open-Weight-Qualität mit allen aktiven Parametern. IQ4_XS-GGUF: läuft auf 16 GB VRAM mit KV-Cache-Komprimierung und unterstützt bis zu 100K Kontextlänge. Q4_K_M: ca. 16 GB, benötigt 24 GB+ GPU für komfortablen Betrieb mit Kontext. FP16 volle Präzision: ca. 55,6 GB, erfordert 2x RTX 4090 oder A100 80 GB. Am besten für Workstation-Bereitstellungen, bei denen Qualität oberste Priorität hat.
Ollama-Ein-Befehl-Setup
Der schnellste Weg zur lokalen Bereitstellung: 'ollama run qwen3.6:35b-a3b'. Automatischer Modell-Download, Quantisierungsauswahl und GPU-Erkennung. Unterstützt NVIDIA CUDA und Apple Metal Beschleunigung. Die OpenAI-kompatible API unter localhost:11434 integriert sich mit Claude Code, Aider, Continue.dev und anderen Coding-Tools. Vision und Tool-Calling funktionieren sofort – Verbesserungen gegenüber Qwen 3.5.
vLLM-Produktionsserving
Produktionsreifes Serving mit Continuous Batching, PagedAttention und OpenAI-kompatiblen API-Endpunkten. Ideal für Mehrbenutzerbetrieb und Hochdurchsatz-Inferenz auf Server-Hardware. Unterstützt Tensor-Parallelismus zum Aufteilen des 27B-Modells auf mehrere GPUs. PagedAttention ermöglicht effizientes Speichermanagement für Long-Context-Anfragen bis zur vollen Kontextlänge des Modells.
llama.cpp und SGLang
llama.cpp bietet leichtgewichtige C++-Inferenz mit CPU- und GPU-Unterstützung, ideal für Edge-Deployments und ressourcenbeschränkte Umgebungen. SGLang bietet Hochleistungs-Serving mit RadixAttention für effizientes Prefix-Caching. Beide unterstützen GGUF-quantisierte Modelle und bieten OpenAI-kompatible API-Endpunkte. KTransformers wird ebenfalls für fortgeschrittene Deployment-Szenarien unterstützt.
Vision und multimodal lokal
Sowohl das 27B- als auch das 35B-A3B-Modell unterstützen Vision und multimodale Eingaben bei lokaler Bereitstellung. Analysiere Code-Screenshots, überprüfe UI-Designs, parse Architekturdiagramme und debugge visuelle Probleme. Diese Fähigkeit funktioniert mit Ollama, vLLM und anderen unterstützten Frameworks. Eine deutliche Verbesserung gegenüber Qwen 3.5, wo lokale Vision nicht funktionierte.
Datenschutz und Datensouveränität
Alle Daten bleiben auf deinem Rechner. Keine API-Aufrufe, keine Cloud-Abhängigkeiten, kein Nutzungs-Tracking, keine Daten verlassen dein Netzwerk. Perfekt für sensible Codebasen, proprietäre Daten, Gesundheits- und Finanzanwendungen sowie Air-Gapped-Umgebungen, in denen Datensouveränität gesetzlich vorgeschrieben ist. Die Apache-2.0-Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen.
Kostenanalyse vs. API
Null Token-Kosten nach der anfänglichen Hardware-Investition. Eine einzelne RTX 4090 (ca. 1.600 $) mit dem 35B-A3B-Modell bei 20–40 Tok/s kann Tausende Anfragen pro Tag verarbeiten. Bei DashScope-Preisen von 0,40 $/2,40 $ pro Million Token amortisiert sich die GPU bei intensiver Nutzung innerhalb von Wochen. Für Teams, die täglich Millionen von Token verarbeiten, bietet die lokale Bereitstellung 10–100-fache Kosteneinsparungen gegenüber API-Zugang.
Kurzreferenz
Hardware-Konfigurationen und Framework-Optionen
Wichtige Spezifikationen für die lokale Qwen-3.6-Bereitstellung über verschiedene Hardware-Konfigurationen und Inferenz-Frameworks.
35B A3B MoE-Konfigurationen
- Q3_K_M: ca. 17 GB VRAM – Mac M4 16 GB bestätigt
- Q4_K_M: ca. 21–23 GB VRAM – RTX 4090 24 GB empfohlen
- Q8_0: ca. 35 GB VRAM – RTX A6000 48 GB oder Dual-GPU
- BF16: ca. 70 GB VRAM – RTX 6000 96 GB volle Präzision
- 20–40 Tok/s auf Consumer-Hardware bei 4-Bit (Unsloth-Benchmarks)
- 3B aktive Parameter pro Token, effiziente Inferenz
27B Dense-Konfigurationen
- IQ4_XS GGUF: 16 GB VRAM mit KV-Cache-Komprimierung (100K Kontext)
- Q4_K_M: ca. 16 GB VRAM – RTX 4090 24 GB mit Kontext-Spielraum
- FP16: ca. 55,6 GB VRAM – 2x RTX 4090 oder A100 80 GB
- Alle 27B Parameter aktiv für maximale Qualität
- Bestes Open-Weight-Coding-Modell: 77,2 % SWE-bench
Unterstützte Frameworks
- Ollama: Einfachstes Setup, Ein-Befehl-Deployment, Vision + Tool-Calling
- vLLM: Produktionsserving, Continuous Batching, Tensor-Parallelismus
- llama.cpp: Leichtgewichtige C++-Inferenz, CPU + GPU, Edge-Deployment
- SGLang: Hochleistungs-Serving mit RadixAttention-Prefix-Caching
- KTransformers: Fortgeschrittenes Deployment und Optimierung
- HuggingFace Transformers: Natives Python, volle Feintuning-Unterstützung
Setup-Anleitungen
Schritt-für-Schritt lokale Bereitstellung für jedes Framework
Folge diesen Anleitungen, um Qwen 3.6 in Minuten auf deiner Hardware zum Laufen zu bringen, mit plattformspezifischen Optimierungstipps.
Installiere Ollama und starte Qwen 3.6 in unter 5 Minuten
Produktionsreifes Serving mit OpenAI-kompatibler API einrichten
Leichtgewichtige Inferenz mit CPU- und GPU-Unterstützung
Hochleistungs-Serving mit RadixAttention
Containerisiertes Deployment für reproduzierbare Umgebungen
35B A3B auf Mac M4 16 GB mit Q3-Quantisierung betreiben
Optimierung
Hole das Maximum aus deiner Hardware heraus
Optimiere Quantisierung, Batch-Größe, Speicherzuweisung und Kontextlänge für die beste Leistung auf deiner spezifischen Hardware.
Qualität vs. Geschwindigkeit vs. VRAM-Kompromisse für jede GGUF-Stufe
Tensor-Parallelismus für das 27B-Dense-Modell über GPUs hinweg
Optimierte Einstellungen für M1/M2/M3/M4 Macs mit Metal
27B auf 16 GB VRAM mit 100K Kontext über IQ4_XS
Lokales Qwen mit Claude Code, Aider, Continue.dev verbinden
Qwen-Ökosystem
Open-Weight-Modelle für lokale Bereitstellung – Apache-2.0-lizenziert
Die Open-Weight-Modelle von Qwen 3.6 werden unter der Apache-2.0-Lizenz mit voller Unterstützung für sechs Inferenz-Frameworks veröffentlicht. Vom Mac-M4-Laptop bis zum Multi-GPU-Server – stelle mit Zuversicht und ohne laufende Kosten bereit.
Erste Schritte
Bereit, Qwen 3.6 auf eigener Hardware zu betreiben? Starte mit einem Befehl
Teste Qwen 3.6 zuerst im Browser, dann stelle lokal mit Ollama, vLLM, llama.cpp oder SGLang bereit. Das 35B A3B läuft auf Mac M4 16 GB, das 27B passt mit IQ4_XS auf 16 GB VRAM. Null Token-Kosten, voller Datenschutz, Apache-2.0-lizenziert.