Qwen 3.6 + Ollama
Qwen 3.6 lokal mit einem einzigen Befehl betreiben – keine Konfiguration nötig
Ollama macht das Betreiben von Qwen 3.6 so einfach wie 'ollama run qwen3.6:35b-a3b'. Automatische GPU-Erkennung, Modell-Download und Quantisierungsauswahl. Unterstützt sowohl das 27B-Dense- als auch das 35B-A3B-MoE-Modell mit NVIDIA-CUDA- und Apple-Metal-Beschleunigung. Erwarte 20–40 Token pro Sekunde auf Consumer-Hardware beim 35B-A3B-4-Bit-Modell. Die OpenAI-kompatible API unter localhost:11434 integriert sich direkt mit Claude Code, Aider, Continue.dev und anderen Coding-Tools. Vision und multimodale Eingaben werden sofort unterstützt – eine wichtige Verbesserung gegenüber Qwen 3.5, wo Vision und Tool-Calling nicht funktionierten.
Ollama-Leitfaden
Von der Installation zur Inferenz in unter 5 Minuten
Ollama übernimmt die Komplexität der lokalen Modellbereitstellung – GPU-Erkennung, Speicherverwaltung, Quantisierung und API-Serving – damit du dich auf die Nutzung des Modells konzentrieren kannst. Qwen 3.6 behebt die Vision- und Tool-Calling-Probleme, die Qwen 3.5 auf Ollama plagten.
Ein-Befehl-Setup
Installiere Ollama, dann starte 'ollama run qwen3.6:35b-a3b' (Standard-Tag) oder 'ollama run qwen3.6:27b'. Automatischer Modell-Download, GPU-Erkennung und optimale Quantisierungsauswahl. Funktioniert auf macOS (Apple Silicon mit Metal), Linux (NVIDIA CUDA) und Windows (WSL2 oder nativ). Das 35B A3B ist das empfohlene Standardmodell für die meisten Nutzer aufgrund seiner Balance aus Qualität und Hardware-Anforderungen.
Modell-Tag-Auswahl
Wähle die richtige Modellvariante: 'qwen3.6:35b-a3b' für Consumer-GPUs (Standard-Tag), 'qwen3.6:27b' für maximale Leistung auf Workstation-Hardware, 'qwen3.6:35b-a3b-q4_k_m' für spezifische Quantisierungskontrolle oder 'qwen3.6:35b-a3b-q3_k_m' für knappere VRAM-Budgets (ca. 17 GB). Tags entsprechen direkt GGUF-Quantisierungsstufen. Nutze 'ollama list' für heruntergeladene Modelle und 'ollama show qwen3.6:35b-a3b' für Modelldetails.
VRAM-Anforderungen und Quantisierung
35B-A3B-Quantisierungsoptionen: Q2_K (ca. 13 GB, schnellste, niedrigste Qualität), Q3_K_M (ca. 17 GB, gut für Mac M4 16 GB), Q4_K_M (ca. 21 GB, ausgewogene Qualität/Geschwindigkeit auf 24-GB-GPU), Q5_K_M (ca. 25 GB), Q8_0 (ca. 35 GB, nahezu verlustfrei). 27B Dense: Q4_K_M ca. 16 GB, benötigt 24 GB+ GPU. BF16 volle Präzision für 35B A3B erfordert ca. 70 GB VRAM. Community-Berichte bestätigen, dass Mac M4 16 GB das 35B A3B bei Q3-Quantisierung erfolgreich betreibt.
Vision und multimodale Unterstützung
Qwen-3.6-Modelle unterstützen multimodale Eingaben über Ollama – eine große Verbesserung gegenüber Qwen 3.5, wo Vision nicht funktionierte. Übergib Bilder zusammen mit Textprompts für Code-Screenshot-Analyse, UI-Review, Diagrammverständnis, Architekturdiagramm-Parsing und visuelle Debugging-Workflows. Nutze den /image-Befehl im Ollama-Chat oder übergib Base64-kodierte Bilder über die API.
Performance-Benchmarks auf Consumer-Hardware
Unsloth-Community-Benchmarks zeigen 20–40 Token pro Sekunde auf lokalen Rigs für das 35B-A3B-4-Bit-Modell. Mac-M4-16-GB-Nutzer berichten von nutzbaren Geschwindigkeiten mit Q3-Quantisierung. RTX 4090 24 GB bewältigt Q4_K_M mit Spielraum für Kontext. RTX 6000 96 GB kann volle Präzision betreiben. Die Performance skaliert linear mit der GPU-Speicherbandbreite – schnellerer Speicher bedeutet schnellere Inferenz.
Modelfile-Anpassung
Erstelle eigene Modelfiles zur Konfiguration von System-Prompts, Temperatur, Kontextlänge (num_ctx), GPU-Layer-Offloading (num_gpu), Batch-Größe (num_batch) und Thread-Anzahl. Setze num_ctx auf bis zu 131072 für Long-Context-Aufgaben. Passe das Chat-Template für spezifische Anwendungsfälle wie Coding-Assistenten, technisches Schreiben oder agentische Workflows an. Modelfiles sind Klartext und versionierbar.
Tool-Calling und Funktionsunterstützung
Qwen 3.6 auf Ollama unterstützt Tool-Calling und Funktionsaufrufe – eine weitere Verbesserung gegenüber Qwen 3.5, wo Tool-Calling nicht funktionierte. Definiere Tools im OpenAI-kompatiblen Format und das Modell generiert strukturierte Funktionsaufrufe. Dies ermöglicht die Integration mit agentischen Frameworks wie LangChain, AutoGen und CrewAI über den localhost:11434-Endpunkt.
Coding-Tool-Integration
Ollama stellt eine OpenAI-kompatible API unter localhost:11434 bereit. Verbinde direkt mit Claude Code (über OpenAI-kompatible API), OpenClaw, Aider, Continue.dev, Cursor und anderen Coding-Tools, die benutzerdefinierte OpenAI-Endpunkte unterstützen. Setze die Base-URL auf http://localhost:11434/v1 und verwende einen beliebigen String als API-Key. Die Qwen-3.6-Modelle unterstützen dasselbe Chat-Completions-Format wie OpenAI.
Kurzreferenz
Ollama-Befehle, Modell-Tags und Hardware-Anforderungen
Wichtige Befehle, Konfigurationsoptionen und Hardware-Anforderungen für den Betrieb von Qwen 3.6 mit Ollama auf verschiedenen Plattformen.
Wichtige Befehle
- ollama run qwen3.6:35b-a3b – MoE-Modell starten (Standard-Tag, Consumer-GPU)
- ollama run qwen3.6:27b – Dense-Modell starten (Workstation-GPU)
- ollama pull qwen3.6:35b-a3b-q3_k_m – Q3-Quant herunterladen (ca. 17 GB, Mac-M4-freundlich)
- ollama pull qwen3.6:35b-a3b-q4_k_m – Q4-Quant herunterladen (ca. 21 GB, ausgewogen)
- ollama serve – API-Server auf localhost:11434 starten
- ollama list – Heruntergeladene Modelle und Größen anzeigen
- ollama show qwen3.6:35b-a3b – Modelldetails und Parameter inspizieren
Hardware-Anforderungen
- 35B A3B Q3_K_M: ca. 17 GB VRAM (Mac M4 16 GB bestätigt)
- 35B A3B Q4_K_M: ca. 21 GB VRAM (RTX 4090 24 GB empfohlen)
- 35B A3B BF16: ca. 70 GB VRAM (RTX 6000 96 GB oder Multi-GPU)
- 27B Dense Q4_K_M: ca. 16 GB VRAM (RTX 4090 24 GB Minimum)
- 27B Dense IQ4_XS: passt auf 16 GB VRAM mit KV-Cache-Komprimierung
- macOS: Apple Silicon mit Metal-Beschleunigung (M1 Pro+ empfohlen)
- 20–40 Tok/s auf Consumer-Hardware beim 35B-A3B-4-Bit-Modell
- CPU-Fallback verfügbar, aber deutlich langsamer (ca. 2–5 Tok/s)
Verbesserungen gegenüber Qwen 3.5
- Vision/multimodale Eingabe: in 3.5 defekt, in 3.6 voll funktionsfähig
- Tool-Calling/Funktionsaufrufe: in 3.5 defekt, in 3.6 behoben
- Verbesserte Kontextverarbeitung und Speichereffizienz
- Bessere Quantisierungsqualität bei niedrigeren Bitbreiten
Setup-Anleitungen
Qwen 3.6 mit Ollama auf jeder Plattform zum Laufen bringen
Schritt-für-Schritt-Anleitungen zur Installation von Ollama und Konfiguration von Qwen 3.6 auf deiner Plattform, mit hardwarespezifischen Optimierungstipps.
Ollama installieren und Qwen 3.6 auf M1/M2/M3/M4 Macs mit Metal-Beschleunigung betreiben
NVIDIA-GPU-Setup mit CUDA-Beschleunigung für maximalen Durchsatz
WSL2- und native Windows-Installation mit GPU-Passthrough
Ollama im Container mit GPU-Zugriff für reproduzierbare Deployments
35B A3B mit Q3-Quantisierung auf Mac M4 mit 16 GB RAM betreiben
Große Modelle auf mehrere GPUs aufteilen für bessere Performance
Erweiterte Konfiguration
Qwen-3.6-Performance optimieren und mit Coding-Tools integrieren
Modellperformance mit Modelfiles, GPU-Konfiguration, Kontexteinstellungen feinabstimmen und mit deiner Entwicklungsumgebung verbinden.
Eigene System-Prompts, Temperatur, Kontextlänge und Chat-Templates
VRAM-Management, Layer-Offloading und Batch-Größen-Tuning
Qwen 3.6 über Ollama als Backend für Claude Code nutzen
KI-Coding-Assistent in VS Code mit lokalem Qwen 3.6
KI-Pair-Programming mit Ollama-gehostetem Qwen 3.6
Ollamas localhost:11434 mit jedem OpenAI-kompatiblen Tool verbinden
Qwen-Ökosystem
Ollama ist der schnellste Weg zu lokalem Qwen 3.6 – ein Befehl, volle Fähigkeiten
Ein-Befehl-Setup mit automatischer GPU-Erkennung, Modellverwaltung, Vision-Unterstützung, Tool-Calling und einer OpenAI-kompatiblen API unter localhost:11434 für nahtlose Integration mit Claude Code, Aider, Continue.dev und mehr.
Erste Schritte
Bereit, Qwen 3.6 mit Ollama zu betreiben? Ein Befehl genügt
Teste Qwen 3.6 zuerst im Browser, dann installiere Ollama für die lokale Bereitstellung. Starte 'ollama run qwen3.6:35b-a3b' zum Herunterladen, Konfigurieren und Chatten mit 20–40 Tok/s auf Consumer-Hardware. Vision, Tool-Calling und Coding-Tool-Integration funktionieren sofort.