Qwen 3.6 + Ollama

Qwen 3.6 lokal mit einem einzigen Befehl betreiben – keine Konfiguration nötig

Ollama macht das Betreiben von Qwen 3.6 so einfach wie 'ollama run qwen3.6:35b-a3b'. Automatische GPU-Erkennung, Modell-Download und Quantisierungsauswahl. Unterstützt sowohl das 27B-Dense- als auch das 35B-A3B-MoE-Modell mit NVIDIA-CUDA- und Apple-Metal-Beschleunigung. Erwarte 20–40 Token pro Sekunde auf Consumer-Hardware beim 35B-A3B-4-Bit-Modell. Die OpenAI-kompatible API unter localhost:11434 integriert sich direkt mit Claude Code, Aider, Continue.dev und anderen Coding-Tools. Vision und multimodale Eingaben werden sofort unterstützt – eine wichtige Verbesserung gegenüber Qwen 3.5, wo Vision und Tool-Calling nicht funktionierten.

Ollama-Leitfaden

Von der Installation zur Inferenz in unter 5 Minuten

Ollama übernimmt die Komplexität der lokalen Modellbereitstellung – GPU-Erkennung, Speicherverwaltung, Quantisierung und API-Serving – damit du dich auf die Nutzung des Modells konzentrieren kannst. Qwen 3.6 behebt die Vision- und Tool-Calling-Probleme, die Qwen 3.5 auf Ollama plagten.

Ein-Befehl-Setup

Installiere Ollama, dann starte 'ollama run qwen3.6:35b-a3b' (Standard-Tag) oder 'ollama run qwen3.6:27b'. Automatischer Modell-Download, GPU-Erkennung und optimale Quantisierungsauswahl. Funktioniert auf macOS (Apple Silicon mit Metal), Linux (NVIDIA CUDA) und Windows (WSL2 oder nativ). Das 35B A3B ist das empfohlene Standardmodell für die meisten Nutzer aufgrund seiner Balance aus Qualität und Hardware-Anforderungen.

Modell-Tag-Auswahl

Wähle die richtige Modellvariante: 'qwen3.6:35b-a3b' für Consumer-GPUs (Standard-Tag), 'qwen3.6:27b' für maximale Leistung auf Workstation-Hardware, 'qwen3.6:35b-a3b-q4_k_m' für spezifische Quantisierungskontrolle oder 'qwen3.6:35b-a3b-q3_k_m' für knappere VRAM-Budgets (ca. 17 GB). Tags entsprechen direkt GGUF-Quantisierungsstufen. Nutze 'ollama list' für heruntergeladene Modelle und 'ollama show qwen3.6:35b-a3b' für Modelldetails.

VRAM-Anforderungen und Quantisierung

35B-A3B-Quantisierungsoptionen: Q2_K (ca. 13 GB, schnellste, niedrigste Qualität), Q3_K_M (ca. 17 GB, gut für Mac M4 16 GB), Q4_K_M (ca. 21 GB, ausgewogene Qualität/Geschwindigkeit auf 24-GB-GPU), Q5_K_M (ca. 25 GB), Q8_0 (ca. 35 GB, nahezu verlustfrei). 27B Dense: Q4_K_M ca. 16 GB, benötigt 24 GB+ GPU. BF16 volle Präzision für 35B A3B erfordert ca. 70 GB VRAM. Community-Berichte bestätigen, dass Mac M4 16 GB das 35B A3B bei Q3-Quantisierung erfolgreich betreibt.

Vision und multimodale Unterstützung

Qwen-3.6-Modelle unterstützen multimodale Eingaben über Ollama – eine große Verbesserung gegenüber Qwen 3.5, wo Vision nicht funktionierte. Übergib Bilder zusammen mit Textprompts für Code-Screenshot-Analyse, UI-Review, Diagrammverständnis, Architekturdiagramm-Parsing und visuelle Debugging-Workflows. Nutze den /image-Befehl im Ollama-Chat oder übergib Base64-kodierte Bilder über die API.

Performance-Benchmarks auf Consumer-Hardware

Unsloth-Community-Benchmarks zeigen 20–40 Token pro Sekunde auf lokalen Rigs für das 35B-A3B-4-Bit-Modell. Mac-M4-16-GB-Nutzer berichten von nutzbaren Geschwindigkeiten mit Q3-Quantisierung. RTX 4090 24 GB bewältigt Q4_K_M mit Spielraum für Kontext. RTX 6000 96 GB kann volle Präzision betreiben. Die Performance skaliert linear mit der GPU-Speicherbandbreite – schnellerer Speicher bedeutet schnellere Inferenz.

Modelfile-Anpassung

Erstelle eigene Modelfiles zur Konfiguration von System-Prompts, Temperatur, Kontextlänge (num_ctx), GPU-Layer-Offloading (num_gpu), Batch-Größe (num_batch) und Thread-Anzahl. Setze num_ctx auf bis zu 131072 für Long-Context-Aufgaben. Passe das Chat-Template für spezifische Anwendungsfälle wie Coding-Assistenten, technisches Schreiben oder agentische Workflows an. Modelfiles sind Klartext und versionierbar.

Tool-Calling und Funktionsunterstützung

Qwen 3.6 auf Ollama unterstützt Tool-Calling und Funktionsaufrufe – eine weitere Verbesserung gegenüber Qwen 3.5, wo Tool-Calling nicht funktionierte. Definiere Tools im OpenAI-kompatiblen Format und das Modell generiert strukturierte Funktionsaufrufe. Dies ermöglicht die Integration mit agentischen Frameworks wie LangChain, AutoGen und CrewAI über den localhost:11434-Endpunkt.

Coding-Tool-Integration

Ollama stellt eine OpenAI-kompatible API unter localhost:11434 bereit. Verbinde direkt mit Claude Code (über OpenAI-kompatible API), OpenClaw, Aider, Continue.dev, Cursor und anderen Coding-Tools, die benutzerdefinierte OpenAI-Endpunkte unterstützen. Setze die Base-URL auf http://localhost:11434/v1 und verwende einen beliebigen String als API-Key. Die Qwen-3.6-Modelle unterstützen dasselbe Chat-Completions-Format wie OpenAI.

Kurzreferenz

Ollama-Befehle, Modell-Tags und Hardware-Anforderungen

Wichtige Befehle, Konfigurationsoptionen und Hardware-Anforderungen für den Betrieb von Qwen 3.6 mit Ollama auf verschiedenen Plattformen.

Wichtige Befehle

  • ollama run qwen3.6:35b-a3b – MoE-Modell starten (Standard-Tag, Consumer-GPU)
  • ollama run qwen3.6:27b – Dense-Modell starten (Workstation-GPU)
  • ollama pull qwen3.6:35b-a3b-q3_k_m – Q3-Quant herunterladen (ca. 17 GB, Mac-M4-freundlich)
  • ollama pull qwen3.6:35b-a3b-q4_k_m – Q4-Quant herunterladen (ca. 21 GB, ausgewogen)
  • ollama serve – API-Server auf localhost:11434 starten
  • ollama list – Heruntergeladene Modelle und Größen anzeigen
  • ollama show qwen3.6:35b-a3b – Modelldetails und Parameter inspizieren

Hardware-Anforderungen

  • 35B A3B Q3_K_M: ca. 17 GB VRAM (Mac M4 16 GB bestätigt)
  • 35B A3B Q4_K_M: ca. 21 GB VRAM (RTX 4090 24 GB empfohlen)
  • 35B A3B BF16: ca. 70 GB VRAM (RTX 6000 96 GB oder Multi-GPU)
  • 27B Dense Q4_K_M: ca. 16 GB VRAM (RTX 4090 24 GB Minimum)
  • 27B Dense IQ4_XS: passt auf 16 GB VRAM mit KV-Cache-Komprimierung
  • macOS: Apple Silicon mit Metal-Beschleunigung (M1 Pro+ empfohlen)
  • 20–40 Tok/s auf Consumer-Hardware beim 35B-A3B-4-Bit-Modell
  • CPU-Fallback verfügbar, aber deutlich langsamer (ca. 2–5 Tok/s)

Verbesserungen gegenüber Qwen 3.5

  • Vision/multimodale Eingabe: in 3.5 defekt, in 3.6 voll funktionsfähig
  • Tool-Calling/Funktionsaufrufe: in 3.5 defekt, in 3.6 behoben
  • Verbesserte Kontextverarbeitung und Speichereffizienz
  • Bessere Quantisierungsqualität bei niedrigeren Bitbreiten

Qwen-Ökosystem

Ollama ist der schnellste Weg zu lokalem Qwen 3.6 – ein Befehl, volle Fähigkeiten

Ein-Befehl-Setup mit automatischer GPU-Erkennung, Modellverwaltung, Vision-Unterstützung, Tool-Calling und einer OpenAI-kompatiblen API unter localhost:11434 für nahtlose Integration mit Claude Code, Aider, Continue.dev und mehr.

Qwen 3.6 35B A3B

MoE-Modell, 20–40 Tok/s auf Consumer-GPU

Lokal betreiben

Qwen 3.6 27B

Dense-Modell, maximale lokale Leistung

Lokal betreiben

Ollama-Bibliothek

Alle verfügbaren Qwen-Modell-Tags und Quantisierungen durchsuchen

Durchsuchen

Modelfile-Referenz

Modellverhalten, Kontext und Parameter anpassen

Doku lesen

API-Referenz

OpenAI-kompatible API unter localhost:11434

API ansehen

Community

Hilfe von den Ollama- und Qwen-Communities erhalten

Beitreten

Erste Schritte

Bereit, Qwen 3.6 mit Ollama zu betreiben? Ein Befehl genügt

Teste Qwen 3.6 zuerst im Browser, dann installiere Ollama für die lokale Bereitstellung. Starte 'ollama run qwen3.6:35b-a3b' zum Herunterladen, Konfigurieren und Chatten mit 20–40 Tok/s auf Consumer-Hardware. Vision, Tool-Calling und Coding-Tool-Integration funktionieren sofort.