Qwen 3.6 lokal betreiben

Qwen 3.6 auf eigener Hardware bereitstellen – vom Mac M4 16 GB bis zum Produktionsserver

Die Open-Weight-Modelle von Qwen 3.6 sind für die lokale Bereitstellung auf einer breiten Palette von Hardware ausgelegt. Das 27B-Dense-Modell läuft auf 16 GB VRAM mit IQ4_XS-GGUF und KV-Cache-Komprimierung mit bis zu 100K Kontext. Das 35B-A3B-MoE-Modell liefert 20–40 Token pro Sekunde auf Consumer-Hardware bei 4-Bit-Quantisierung. Community-Berichte bestätigen, dass Mac M4 16 GB das 35B A3B bei Q3-Quantisierung betreibt. Volle Unterstützung für Ollama, vLLM, llama.cpp, SGLang und KTransformers. Vision und multimodale Fähigkeiten funktionieren lokal.

Jetzt chatten Hardware-Leitfaden

Lokale Bereitstellung

Alles, was du brauchst, um Qwen 3.6 auf deinem eigenen Rechner zu betreiben

Von der Hardware-Auswahl bis zur Quantisierungs-Feinabstimmung deckt dieser Leitfaden jeden Aspekt der lokalen Bereitstellung von Qwen-3.6-Modellen für Entwicklung, Tests und Produktion ab. Sechs Inferenz-Frameworks werden unterstützt, mit Hardware-Konfigurationen von 16-GB-Laptops bis zu 96-GB-Workstations.

Hardware-Anforderungen – 35B A3B MoE

Das 35B-A3B-MoE-Modell mit nur 3B aktiven Parametern ist die hardwarefreundlichste Option. Q3_K_M-Quantisierung: ca. 17 GB VRAM, bestätigt auf Mac M4 16 GB. Q4_K_M: ca. 21–23 GB VRAM, passt auf RTX 4090 24 GB. Q8_0: ca. 35 GB. BF16 volle Präzision: ca. 70 GB, passt auf RTX 6000 96 GB. Erwarte 20–40 Token pro Sekunde auf Consumer-Hardware bei 4-Bit-Quantisierung laut Unsloth-Community-Benchmarks.

Hardware-Anforderungen – 27B Dense

Das 27B-Dense-Modell liefert maximale Open-Weight-Qualität mit allen aktiven Parametern. IQ4_XS-GGUF: läuft auf 16 GB VRAM mit KV-Cache-Komprimierung und unterstützt bis zu 100K Kontextlänge. Q4_K_M: ca. 16 GB, benötigt 24 GB+ GPU für komfortablen Betrieb mit Kontext. FP16 volle Präzision: ca. 55,6 GB, erfordert 2x RTX 4090 oder A100 80 GB. Am besten für Workstation-Bereitstellungen, bei denen Qualität oberste Priorität hat.

Ollama-Ein-Befehl-Setup

Der schnellste Weg zur lokalen Bereitstellung: 'ollama run qwen3.6:35b-a3b'. Automatischer Modell-Download, Quantisierungsauswahl und GPU-Erkennung. Unterstützt NVIDIA CUDA und Apple Metal Beschleunigung. Die OpenAI-kompatible API unter localhost:11434 integriert sich mit Claude Code, Aider, Continue.dev und anderen Coding-Tools. Vision und Tool-Calling funktionieren sofort – Verbesserungen gegenüber Qwen 3.5.

vLLM-Produktionsserving

Produktionsreifes Serving mit Continuous Batching, PagedAttention und OpenAI-kompatiblen API-Endpunkten. Ideal für Mehrbenutzerbetrieb und Hochdurchsatz-Inferenz auf Server-Hardware. Unterstützt Tensor-Parallelismus zum Aufteilen des 27B-Modells auf mehrere GPUs. PagedAttention ermöglicht effizientes Speichermanagement für Long-Context-Anfragen bis zur vollen Kontextlänge des Modells.

llama.cpp und SGLang

llama.cpp bietet leichtgewichtige C++-Inferenz mit CPU- und GPU-Unterstützung, ideal für Edge-Deployments und ressourcenbeschränkte Umgebungen. SGLang bietet Hochleistungs-Serving mit RadixAttention für effizientes Prefix-Caching. Beide unterstützen GGUF-quantisierte Modelle und bieten OpenAI-kompatible API-Endpunkte. KTransformers wird ebenfalls für fortgeschrittene Deployment-Szenarien unterstützt.

Vision und multimodal lokal

Sowohl das 27B- als auch das 35B-A3B-Modell unterstützen Vision und multimodale Eingaben bei lokaler Bereitstellung. Analysiere Code-Screenshots, überprüfe UI-Designs, parse Architekturdiagramme und debugge visuelle Probleme. Diese Fähigkeit funktioniert mit Ollama, vLLM und anderen unterstützten Frameworks. Eine deutliche Verbesserung gegenüber Qwen 3.5, wo lokale Vision nicht funktionierte.

Datenschutz und Datensouveränität

Alle Daten bleiben auf deinem Rechner. Keine API-Aufrufe, keine Cloud-Abhängigkeiten, kein Nutzungs-Tracking, keine Daten verlassen dein Netzwerk. Perfekt für sensible Codebasen, proprietäre Daten, Gesundheits- und Finanzanwendungen sowie Air-Gapped-Umgebungen, in denen Datensouveränität gesetzlich vorgeschrieben ist. Die Apache-2.0-Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen.

Kostenanalyse vs. API

Null Token-Kosten nach der anfänglichen Hardware-Investition. Eine einzelne RTX 4090 (ca. 1.600 $) mit dem 35B-A3B-Modell bei 20–40 Tok/s kann Tausende Anfragen pro Tag verarbeiten. Bei DashScope-Preisen von 0,40 $/2,40 $ pro Million Token amortisiert sich die GPU bei intensiver Nutzung innerhalb von Wochen. Für Teams, die täglich Millionen von Token verarbeiten, bietet die lokale Bereitstellung 10–100-fache Kosteneinsparungen gegenüber API-Zugang.

Kurzreferenz

Hardware-Konfigurationen und Framework-Optionen

Wichtige Spezifikationen für die lokale Qwen-3.6-Bereitstellung über verschiedene Hardware-Konfigurationen und Inferenz-Frameworks.

35B A3B MoE-Konfigurationen

Q3_K_M: ca. 17 GB VRAM – Mac M4 16 GB bestätigt
Q4_K_M: ca. 21–23 GB VRAM – RTX 4090 24 GB empfohlen
Q8_0: ca. 35 GB VRAM – RTX A6000 48 GB oder Dual-GPU
BF16: ca. 70 GB VRAM – RTX 6000 96 GB volle Präzision
20–40 Tok/s auf Consumer-Hardware bei 4-Bit (Unsloth-Benchmarks)
3B aktive Parameter pro Token, effiziente Inferenz

27B Dense-Konfigurationen

IQ4_XS GGUF: 16 GB VRAM mit KV-Cache-Komprimierung (100K Kontext)
Q4_K_M: ca. 16 GB VRAM – RTX 4090 24 GB mit Kontext-Spielraum
FP16: ca. 55,6 GB VRAM – 2x RTX 4090 oder A100 80 GB
Alle 27B Parameter aktiv für maximale Qualität
Bestes Open-Weight-Coding-Modell: 77,2 % SWE-bench

Unterstützte Frameworks

Ollama: Einfachstes Setup, Ein-Befehl-Deployment, Vision + Tool-Calling
vLLM: Produktionsserving, Continuous Batching, Tensor-Parallelismus
llama.cpp: Leichtgewichtige C++-Inferenz, CPU + GPU, Edge-Deployment
SGLang: Hochleistungs-Serving mit RadixAttention-Prefix-Caching
KTransformers: Fortgeschrittenes Deployment und Optimierung
HuggingFace Transformers: Natives Python, volle Feintuning-Unterstützung

Jetzt chatten Modelle herunterladen

Setup-Anleitungen

Schritt-für-Schritt lokale Bereitstellung für jedes Framework

Folge diesen Anleitungen, um Qwen 3.6 in Minuten auf deiner Hardware zum Laufen zu bringen, mit plattformspezifischen Optimierungstipps.

Ollama-Schnellstart

Installiere Ollama und starte Qwen 3.6 in unter 5 Minuten

vLLM-Deployment

Produktionsreifes Serving mit OpenAI-kompatibler API einrichten

llama.cpp-Anleitung

Leichtgewichtige Inferenz mit CPU- und GPU-Unterstützung

SGLang-Setup

Hochleistungs-Serving mit RadixAttention

box

Docker-Setup

Containerisiertes Deployment für reproduzierbare Umgebungen

Mac-M4-Anleitung

35B A3B auf Mac M4 16 GB mit Q3-Quantisierung betreiben

Optimierung

Hole das Maximum aus deiner Hardware heraus

Optimiere Quantisierung, Batch-Größe, Speicherzuweisung und Kontextlänge für die beste Leistung auf deiner spezifischen Hardware.

Quantisierungsvergleich

Qualität vs. Geschwindigkeit vs. VRAM-Kompromisse für jede GGUF-Stufe

Multi-GPU-Setup

Tensor-Parallelismus für das 27B-Dense-Modell über GPUs hinweg

Apple-Silicon-Anleitung

Optimierte Einstellungen für M1/M2/M3/M4 Macs mit Metal

KV-Cache-Komprimierung

27B auf 16 GB VRAM mit 100K Kontext über IQ4_XS

Coding-Tool-Integration

Lokales Qwen mit Claude Code, Aider, Continue.dev verbinden

Qwen-Ökosystem

Open-Weight-Modelle für lokale Bereitstellung – Apache-2.0-lizenziert

Die Open-Weight-Modelle von Qwen 3.6 werden unter der Apache-2.0-Lizenz mit voller Unterstützung für sechs Inferenz-Frameworks veröffentlicht. Vom Mac-M4-Laptop bis zum Multi-GPU-Server – stelle mit Zuversicht und ohne laufende Kosten bereit.

Alle Modelle entdecken HuggingFace-Sammlung

Qwen 3.6 35B A3B

MoE, 3B aktive Parameter, 20–40 Tok/s auf Consumer-GPU

Herunterladen

Qwen 3.6 27B

Dense, 16 GB VRAM mit IQ4_XS, maximale Qualität

Herunterladen

Ollama-Bibliothek

Vorgefertigte Modell-Tags für Ein-Befehl-Setup

Durchsuchen

GGUF-Modelle

Quantisierte Modelle für jedes VRAM-Budget

Herunterladen

vLLM-Dokumentation

Produktionsserving mit Continuous Batching

Doku lesen

Community

Hilfe von der Qwen-Community erhalten

Beitreten

Erste Schritte

Bereit, Qwen 3.6 auf eigener Hardware zu betreiben? Starte mit einem Befehl

Teste Qwen 3.6 zuerst im Browser, dann stelle lokal mit Ollama, vLLM, llama.cpp oder SGLang bereit. Das 35B A3B läuft auf Mac M4 16 GB, das 27B passt mit IQ4_XS auf 16 GB VRAM. Null Token-Kosten, voller Datenschutz, Apache-2.0-lizenziert.

Jetzt chatten Modelle herunterladen