Exécuter Qwen 3.6 en local

Déploie Qwen 3.6 sur ton propre matériel – du Mac M4 16 Go aux serveurs de production

Les modèles open-weight de Qwen 3.6 sont conçus pour le déploiement local sur une large gamme de matériel. Le modèle dense 27B peut tourner sur 16 Go de VRAM avec IQ4_XS GGUF et compression du cache KV supportant jusqu'à 100K de contexte. Le modèle MoE 35B A3B délivre 20-40 tokens par seconde sur matériel grand public en quantification 4 bits. La communauté confirme que le Mac M4 16 Go fait tourner le 35B A3B en quantification Q3. Support complet pour Ollama, vLLM, llama.cpp, SGLang et KTransformers. Les capacités vision et multimodales fonctionnent en local.

Déploiement local

Tout ce qu'il faut pour exécuter Qwen 3.6 sur ta propre machine

De la sélection du matériel au réglage de la quantification, ce guide couvre chaque aspect du déploiement local des modèles Qwen 3.6 pour le développement, les tests et la production. Six frameworks d'inférence supportés, avec des configurations matérielles allant des laptops 16 Go aux workstations 96 Go.

Configuration matérielle – 35B A3B MoE

Le modèle MoE 35B A3B avec seulement 3B de paramètres actifs est l'option la plus légère en matériel. Quantification Q3_K_M : environ 17 Go VRAM, confirmé sur Mac M4 16 Go. Q4_K_M : environ 21-23 Go VRAM, compatible RTX 4090 24 Go. Q8_0 : environ 35 Go. BF16 pleine précision : environ 70 Go, compatible RTX 6000 96 Go. Attends-toi à 20-40 tokens par seconde sur matériel grand public en 4 bits selon les benchmarks de la communauté Unsloth.

Configuration matérielle – 27B Dense

Le modèle dense 27B offre la qualité maximale en open-weight avec tous les paramètres actifs. IQ4_XS GGUF : peut tourner sur 16 Go VRAM avec compression du cache KV, supportant jusqu'à 100K de contexte. Q4_K_M : environ 16 Go, nécessite un GPU 24 Go+ pour un fonctionnement confortable avec du contexte. FP16 pleine précision : environ 55,6 Go, nécessite 2x RTX 4090 ou A100 80 Go. Idéal pour les déploiements workstation où la qualité est la priorité.

Setup Ollama en une commande

Le chemin le plus rapide vers le déploiement local : 'ollama run qwen3.6:35b-a3b'. Téléchargement automatique du modèle, sélection de la quantification et détection du GPU. Supporte l'accélération NVIDIA CUDA et Apple Metal. L'API compatible OpenAI sur localhost:11434 s'intègre avec Claude Code, Aider, Continue.dev et d'autres outils de coding. Vision et appel d'outils fonctionnent nativement – corrections par rapport à Qwen 3.5.

Serving production vLLM

Serving de qualité production avec continuous batching, PagedAttention et endpoints API compatibles OpenAI. Idéal pour les déploiements multi-utilisateurs et l'inférence haut débit sur matériel serveur. Supporte le parallélisme tensoriel pour répartir le modèle 27B sur plusieurs GPUs. PagedAttention permet une gestion efficace de la mémoire pour les requêtes long-contexte jusqu'à la longueur de contexte complète du modèle.

llama.cpp et SGLang

llama.cpp fournit une inférence C++ légère avec support CPU et GPU, idéale pour les déploiements edge et les environnements à ressources limitées. SGLang offre un serving haute performance avec RadixAttention pour un caching de préfixes efficace. Les deux supportent les modèles quantifiés GGUF et fournissent des endpoints API compatibles OpenAI. KTransformers est également supporté pour les scénarios de déploiement avancés.

Vision et multimodal en local

Les modèles 27B et 35B A3B supportent les entrées vision et multimodales en déploiement local. Analyse des captures d'écran de code, revue de designs UI, parsing de diagrammes d'architecture et débogage de problèmes visuels. Cette capacité fonctionne avec Ollama, vLLM et les autres frameworks supportés. Une amélioration significative par rapport à Qwen 3.5 où la vision locale était cassée.

Confidentialité et souveraineté des données

Toutes les données restent sur ta machine. Pas d'appels API, pas de dépendances cloud, pas de suivi d'utilisation, aucune donnée ne quitte ton réseau. Parfait pour les bases de code sensibles, les données propriétaires, les applications santé et finance, et les environnements air-gapped où la souveraineté des données est légalement requise. La licence Apache 2.0 autorise l'usage commercial sans restriction.

Analyse de coûts vs API

Zéro coût par token après l'investissement matériel initial. Une seule RTX 4090 (environ 1 600 $) faisant tourner le modèle 35B A3B à 20-40 tok/s peut traiter des milliers de requêtes par jour. Aux tarifs DashScope de 0,40 $/2,40 $ par million de tokens, le GPU est rentabilisé en quelques semaines pour une utilisation intensive. Pour les équipes traitant des millions de tokens par jour, le déploiement local offre des économies de 10 à 100 fois par rapport à l'accès API.

Référence rapide

Configurations matérielles et options de frameworks

Spécifications clés pour le déploiement local de Qwen 3.6 sur différentes configurations matérielles et frameworks d'inférence.

Configurations 35B A3B MoE

  • Q3_K_M : environ 17 Go VRAM – Mac M4 16 Go confirmé
  • Q4_K_M : environ 21-23 Go VRAM – RTX 4090 24 Go recommandé
  • Q8_0 : environ 35 Go VRAM – RTX A6000 48 Go ou dual GPU
  • BF16 : environ 70 Go VRAM – RTX 6000 96 Go pleine précision
  • 20-40 tok/s sur matériel grand public en 4 bits (benchmarks Unsloth)
  • 3B paramètres actifs par token, inférence efficace

Configurations 27B Dense

  • IQ4_XS GGUF : 16 Go VRAM avec compression du cache KV (contexte 100K)
  • Q4_K_M : environ 16 Go VRAM – RTX 4090 24 Go avec marge pour le contexte
  • FP16 : environ 55,6 Go VRAM – 2x RTX 4090 ou A100 80 Go
  • Tous les 27B paramètres actifs pour une qualité maximale
  • Meilleur modèle open-weight pour le coding : 77,2 % SWE-bench

Frameworks supportés

  • Ollama : Setup le plus simple, déploiement en une commande, vision + appel d'outils
  • vLLM : Serving production, continuous batching, parallélisme tensoriel
  • llama.cpp : Inférence C++ légère, CPU + GPU, déploiement edge
  • SGLang : Serving haute performance avec caching de préfixes RadixAttention
  • KTransformers : Déploiement et optimisation avancés
  • HuggingFace Transformers : Python natif, support complet du fine-tuning

Écosystème Qwen

Modèles open-weight conçus pour le déploiement local – licence Apache 2.0

Les modèles open-weight de Qwen 3.6 sont publiés sous licence Apache 2.0 avec support complet de six frameworks d'inférence. Du laptop Mac M4 aux serveurs multi-GPU, déploie en toute confiance et sans coût récurrent.

Qwen 3.6 35B A3B

MoE, 3B paramètres actifs, 20-40 tok/s sur GPU grand public

Télécharger

Qwen 3.6 27B

Dense, 16 Go VRAM avec IQ4_XS, qualité maximale

Télécharger

Bibliothèque Ollama

Tags de modèles pré-construits pour setup en une commande

Parcourir

Modèles GGUF

Modèles quantifiés pour chaque budget VRAM

Télécharger

Documentation vLLM

Serving production avec continuous batching

Lire la doc

Communauté

Obtiens de l'aide de la communauté Qwen

Rejoindre

Pour commencer

Prêt à exécuter Qwen 3.6 sur ton propre matériel ? Commence avec une seule commande

Essaie d'abord Qwen 3.6 dans le navigateur, puis déploie en local avec Ollama, vLLM, llama.cpp ou SGLang. Le 35B A3B tourne sur Mac M4 16 Go, le 27B tient sur 16 Go VRAM avec IQ4_XS. Zéro coût par token, confidentialité totale, licence Apache 2.0.