Qwen 3.6 + Ollama

Exécute Qwen 3.6 en local avec une seule commande – aucune configuration requise

Ollama rend l'exécution de Qwen 3.6 aussi simple que 'ollama run qwen3.6:35b-a3b'. Détection automatique du GPU, téléchargement du modèle et sélection de la quantification. Supporte les modèles dense 27B et MoE 35B A3B avec accélération NVIDIA CUDA et Apple Metal. Attends-toi à 20-40 tokens par seconde sur matériel grand public pour le modèle 35B A3B 4 bits. L'API compatible OpenAI sur localhost:11434 s'intègre directement avec Claude Code, Aider, Continue.dev et d'autres outils de coding. Vision et entrées multimodales supportées nativement – une correction majeure par rapport à Qwen 3.5 où la vision et l'appel d'outils étaient cassés.

Commencer à chatter Voir les tags de modèles

Guide Ollama

De l'installation à l'inférence en moins de 5 minutes

Ollama gère la complexité du déploiement local de modèles – détection GPU, gestion mémoire, quantification et serving API – pour que tu puisses te concentrer sur l'utilisation du modèle. Qwen 3.6 corrige les problèmes de vision et d'appel d'outils qui affectaient Qwen 3.5 sur Ollama.

Setup en une commande

Installe Ollama, puis lance 'ollama run qwen3.6:35b-a3b' (tag par défaut) ou 'ollama run qwen3.6:27b'. Téléchargement automatique du modèle, détection GPU et sélection optimale de la quantification. Fonctionne sur macOS (Apple Silicon avec Metal), Linux (NVIDIA CUDA) et Windows (WSL2 ou natif). Le 35B A3B est le modèle recommandé par défaut pour la plupart des utilisateurs grâce à son équilibre entre qualité et exigences matérielles.

Sélection des tags de modèles

Choisis la bonne variante : 'qwen3.6:35b-a3b' pour les GPUs grand public (tag par défaut), 'qwen3.6:27b' pour les performances maximales sur matériel workstation, 'qwen3.6:35b-a3b-q4_k_m' pour un contrôle spécifique de la quantification, ou 'qwen3.6:35b-a3b-q3_k_m' pour les budgets VRAM serrés (environ 17 Go). Les tags correspondent directement aux niveaux de quantification GGUF. Utilise 'ollama list' pour voir les modèles téléchargés et 'ollama show qwen3.6:35b-a3b' pour inspecter les détails.

Exigences VRAM et quantification

Options de quantification 35B A3B : Q2_K (environ 13 Go, plus rapide, qualité la plus basse), Q3_K_M (environ 17 Go, bon pour Mac M4 16 Go), Q4_K_M (environ 21 Go, qualité/vitesse équilibrées sur GPU 24 Go), Q5_K_M (environ 25 Go), Q8_0 (environ 35 Go, quasi sans perte). 27B dense : Q4_K_M environ 16 Go, nécessite GPU 24 Go+. BF16 pleine précision pour 35B A3B nécessite environ 70 Go VRAM. La communauté confirme que le Mac M4 16 Go fait tourner le 35B A3B en quantification Q3.

Support vision et multimodal

Les modèles Qwen 3.6 supportent les entrées multimodales via Ollama – une amélioration majeure par rapport à Qwen 3.5 où la vision était cassée. Passe des images avec les prompts texte pour l'analyse de captures d'écran de code, la revue d'UI, la compréhension de diagrammes, le parsing de diagrammes d'architecture et les workflows de débogage visuel. Utilise la commande /image dans le chat Ollama ou passe des images encodées en base64 via l'API.

Benchmarks de performance sur matériel grand public

Les benchmarks de la communauté Unsloth montrent 20-40 tokens par seconde sur des machines locales pour le modèle 35B A3B 4 bits. Les utilisateurs Mac M4 16 Go rapportent des vitesses utilisables avec la quantification Q3. La RTX 4090 24 Go gère le Q4_K_M avec de la marge pour le contexte. La RTX 6000 96 Go peut faire tourner en pleine précision. Les performances évoluent linéairement avec la bande passante mémoire du GPU – une mémoire plus rapide signifie une inférence plus rapide.

Personnalisation Modelfile

Crée des Modelfiles personnalisés pour configurer les prompts système, la température, la longueur de contexte (num_ctx), le déchargement de couches GPU (num_gpu), la taille de lot (num_batch) et le nombre de threads. Configure num_ctx jusqu'à 131072 pour les tâches long-contexte. Personnalise le template de chat pour des cas d'usage spécifiques comme les assistants de coding, la rédaction technique ou les workflows agentiques. Les Modelfiles sont en texte brut et versionnables.

Appel d'outils et support de fonctions

Qwen 3.6 sur Ollama supporte l'appel d'outils et l'invocation de fonctions – une autre correction par rapport à Qwen 3.5 où l'appel d'outils était cassé. Définis des outils au format compatible OpenAI et le modèle générera des appels de fonctions structurés. Cela permet l'intégration avec des frameworks agentiques comme LangChain, AutoGen et CrewAI via l'endpoint localhost:11434.

Intégration d'outils de coding

Ollama expose une API compatible OpenAI sur localhost:11434. Connecte directement à Claude Code (via API compatible OpenAI), OpenClaw, Aider, Continue.dev, Cursor et d'autres outils de coding supportant les endpoints OpenAI personnalisés. Configure l'URL de base sur http://localhost:11434/v1 et utilise n'importe quelle chaîne comme clé API. Les modèles Qwen 3.6 supportent le même format chat completions qu'OpenAI.

Référence rapide

Commandes Ollama, tags de modèles et exigences matérielles

Commandes essentielles, options de configuration et exigences matérielles pour exécuter Qwen 3.6 avec Ollama sur différentes plateformes.

Commandes essentielles

ollama run qwen3.6:35b-a3b – Lancer le modèle MoE (tag par défaut, GPU grand public)
ollama run qwen3.6:27b – Lancer le modèle dense (GPU workstation)
ollama pull qwen3.6:35b-a3b-q3_k_m – Télécharger la quant Q3 (environ 17 Go, compatible Mac M4)
ollama pull qwen3.6:35b-a3b-q4_k_m – Télécharger la quant Q4 (environ 21 Go, équilibré)
ollama serve – Démarrer le serveur API sur localhost:11434
ollama list – Afficher les modèles téléchargés et leurs tailles
ollama show qwen3.6:35b-a3b – Inspecter les détails et paramètres du modèle

Exigences matérielles

35B A3B Q3_K_M : environ 17 Go VRAM (Mac M4 16 Go confirmé)
35B A3B Q4_K_M : environ 21 Go VRAM (RTX 4090 24 Go recommandé)
35B A3B BF16 : environ 70 Go VRAM (RTX 6000 96 Go ou multi-GPU)
27B Dense Q4_K_M : environ 16 Go VRAM (RTX 4090 24 Go minimum)
27B Dense IQ4_XS : tient sur 16 Go VRAM avec compression du cache KV
macOS : Apple Silicon avec accélération Metal (M1 Pro+ recommandé)
20-40 tok/s sur matériel grand public pour le 35B A3B 4 bits
Fallback CPU disponible mais significativement plus lent (environ 2-5 tok/s)

Corrections par rapport à Qwen 3.5

Entrée vision/multimodale : cassée en 3.5, pleinement fonctionnelle en 3.6
Appel d'outils/invocation de fonctions : cassé en 3.5, corrigé en 3.6
Gestion du contexte et efficacité mémoire améliorées
Meilleure qualité de quantification aux faibles largeurs de bits

Commencer à chatter Documentation Ollama

Guides de setup

Faire tourner Qwen 3.6 avec Ollama sur n'importe quelle plateforme

Guides étape par étape pour installer Ollama et configurer Qwen 3.6 sur ta plateforme, avec des conseils d'optimisation spécifiques au matériel.

Setup macOS (Apple Silicon)

Installe Ollama et exécute Qwen 3.6 sur les Macs M1/M2/M3/M4 avec accélération Metal

Setup Linux (NVIDIA)

Configuration GPU NVIDIA avec accélération CUDA pour un débit maximal

Setup Windows

Installation WSL2 et Windows natif avec passthrough GPU

Setup Docker

Exécute Ollama dans un conteneur avec accès GPU pour des déploiements reproductibles

Guide Mac M4 16 Go

Exécute le 35B A3B avec quantification Q3 sur Mac M4 avec 16 Go de RAM

Setup multi-GPU

Répartis les grands modèles sur plusieurs GPUs pour de meilleures performances

Configuration avancée

Optimise les performances de Qwen 3.6 et intègre avec les outils de coding

Affine les performances du modèle avec les Modelfiles, la configuration GPU, les paramètres de contexte et connecte à ton environnement de développement.

Guide Modelfile

Prompts système personnalisés, température, longueur de contexte et templates de chat

Optimisation GPU

Gestion VRAM, déchargement de couches et réglage de la taille de lot

Intégration Claude Code

Utilise Qwen 3.6 via Ollama comme backend pour Claude Code

Setup Continue.dev

Assistant de coding IA dans VS Code avec Qwen 3.6 local

Intégration Aider

Programmation en binôme IA avec Qwen 3.6 hébergé sur Ollama

Intégration API

Connecte le localhost:11434 d'Ollama à n'importe quel outil compatible OpenAI

Écosystème Qwen

Ollama est le chemin le plus rapide vers Qwen 3.6 en local – une commande, toutes les capacités

Setup en une commande avec détection automatique du GPU, gestion des modèles, support vision, appel d'outils et une API compatible OpenAI sur localhost:11434 pour une intégration fluide avec Claude Code, Aider, Continue.dev et plus.

Explorer tous les modèles Bibliothèque Ollama

Qwen 3.6 35B A3B

Modèle MoE, 20-40 tok/s sur GPU grand public

Exécuter en local

Qwen 3.6 27B

Modèle dense, performance locale maximale

Exécuter en local

Bibliothèque Ollama

Parcourir tous les tags et quantifications de modèles Qwen

Parcourir

Référence Modelfile

Personnaliser le comportement, le contexte et les paramètres du modèle

Lire la doc

Référence API

API compatible OpenAI sur localhost:11434

Voir l'API

Communauté

Obtiens de l'aide des communautés Ollama et Qwen

Rejoindre

Pour commencer

Prêt à exécuter Qwen 3.6 avec Ollama ? Une seule commande suffit

Essaie d'abord Qwen 3.6 dans le navigateur, puis installe Ollama pour le déploiement local. Lance 'ollama run qwen3.6:35b-a3b' pour télécharger, configurer et commencer à chatter avec 20-40 tok/s sur matériel grand public. Vision, appel d'outils et intégration d'outils de coding fonctionnent nativement.

Commencer à chatter Installer Ollama