تشغيل Qwen 3.6 محلياً
انشر Qwen 3.6 على أجهزتك - من Mac M4 بذاكرة 16 جيجابايت إلى خوادم الإنتاج
نماذج Qwen 3.6 مفتوحة الأوزان مصممة للنشر المحلي على مجموعة واسعة من الأجهزة. النموذج الكثيف 27B يعمل على 16 جيجابايت VRAM باستخدام IQ4_XS GGUF مع ضغط ذاكرة KV حتى سياق 100K. نموذج 35B A3B MoE يقدم 20-40 رمزاً في الثانية على أجهزة المستهلك بتكميم 4 بت. تقارير المجتمع تؤكد أن Mac M4 بذاكرة 16 جيجابايت يشغل 35B A3B بتكميم Q3. دعم كامل لـ Ollama وvLLM وllama.cpp وSGLang وKTransformers. قدرات الرؤية والوسائط المتعددة تعمل محلياً.
النشر المحلي
كل ما تحتاجه لتشغيل Qwen 3.6 على جهازك
من اختيار الأجهزة إلى ضبط التكميم، يغطي هذا الدليل كل جانب من جوانب نشر نماذج Qwen 3.6 محلياً للتطوير والاختبار والإنتاج. ستة أطر استدلال مدعومة، مع تكوينات أجهزة من أجهزة لابتوب بذاكرة 16 جيجابايت إلى محطات عمل بذاكرة 96 جيجابايت.
متطلبات الأجهزة - 35B A3B MoE
نموذج 35B A3B MoE بـ 3B معامل نشط فقط هو الخيار الأكثر ملاءمة للأجهزة. تكميم Q3_K_M: حوالي 17 جيجابايت VRAM، مؤكد العمل على Mac M4 بذاكرة 16 جيجابايت. Q4_K_M: حوالي 21-23 جيجابايت VRAM، يناسب RTX 4090 بسعة 24 جيجابايت. Q8_0: حوالي 35 جيجابايت. BF16 دقة كاملة: حوالي 70 جيجابايت، يناسب RTX 6000 بسعة 96 جيجابايت. توقع 20-40 رمزاً في الثانية على أجهزة المستهلك بتكميم 4 بت وفقاً لمعايير مجتمع Unsloth.
متطلبات الأجهزة - 27B كثيف
النموذج الكثيف 27B يقدم أعلى جودة مفتوحة الأوزان مع جميع المعاملات نشطة. IQ4_XS GGUF: يعمل على 16 جيجابايت VRAM مع ضغط ذاكرة KV، يدعم حتى 100K سياق. Q4_K_M: حوالي 16 جيجابايت، يحتاج GPU بسعة 24 جيجابايت+ للعمل المريح مع السياق. FP16 دقة كاملة: حوالي 55.6 جيجابايت، يتطلب 2x RTX 4090 أو A100 بسعة 80 جيجابايت. الأفضل لنشر محطات العمل حيث الجودة هي الأولوية.
إعداد Ollama بأمر واحد
أسرع طريق للنشر المحلي: 'ollama run qwen3.6:35b-a3b'. تحميل تلقائي للنموذج واختيار التكميم واكتشاف GPU. يدعم تسريع NVIDIA CUDA وApple Metal. الـ API المتوافق مع OpenAI على localhost:11434 يتكامل مع Claude Code وAider وContinue.dev وأدوات البرمجة الأخرى. الرؤية واستدعاء الأدوات يعملان فوراً - تحسينات عن Qwen 3.5.
خدمة إنتاجية vLLM
خدمة بمستوى إنتاجي مع تجميع مستمر وPagedAttention ونقاط نهاية API متوافقة مع OpenAI. مثالي للنشر متعدد المستخدمين والاستدلال عالي الإنتاجية على أجهزة الخوادم. يدعم التوازي الموتري لتقسيم نموذج 27B عبر عدة GPU. يتيح PagedAttention إدارة ذاكرة فعالة لطلبات السياق الطويل حتى طول السياق الكامل للنموذج.
llama.cpp وSGLang
يوفر llama.cpp استدلالاً خفيفاً بلغة C++ مع دعم CPU وGPU، مثالي للنشر الطرفي والبيئات محدودة الموارد. يوفر SGLang خدمة عالية الأداء مع RadixAttention للتخزين المؤقت الفعال للبادئات. كلاهما يدعم نماذج GGUF المكممة ويوفر نقاط نهاية API متوافقة مع OpenAI. KTransformers مدعوم أيضاً لسيناريوهات النشر المتقدمة.
الرؤية والوسائط المتعددة محلياً
كلا النموذجين 27B و35B A3B يدعمان المدخلات المرئية والوسائط المتعددة عند النشر محلياً. حلل لقطات شاشة الكود، راجع تصاميم واجهة المستخدم، فسّر مخططات البنية، وأصلح المشكلات المرئية. هذه القدرة تعمل عبر Ollama وvLLM وأطر العمل المدعومة الأخرى. تحسين كبير عن Qwen 3.5 حيث كانت الرؤية المحلية معطلة.
الخصوصية وسيادة البيانات
جميع البيانات تبقى على جهازك. لا استدعاءات API، لا اعتماد على السحابة، لا تتبع للاستخدام، لا بيانات تغادر شبكتك. مثالي لقواعد الكود الحساسة والبيانات الملكية وتطبيقات الرعاية الصحية والمالية والبيئات المعزولة حيث سيادة البيانات مطلوبة قانونياً. ترخيص Apache 2.0 يسمح بالاستخدام التجاري بدون قيود.
تحليل التكاليف مقابل API
صفر تكاليف لكل رمز بعد الاستثمار الأولي في الأجهزة. RTX 4090 واحدة (حوالي $1,600) تشغل نموذج 35B A3B بسرعة 20-40 رمز/ثانية يمكنها معالجة آلاف الطلبات يومياً. بأسعار DashScope البالغة $0.40/$2.40 لكل مليون رمز، تسترد GPU تكلفتها في أسابيع للاستخدام المكثف. للفرق التي تعالج ملايين الرموز يومياً، يوفر النشر المحلي توفيراً بمقدار 10-100 ضعف مقارنة بالوصول عبر API.
مرجع سريع
تكوينات الأجهزة وخيارات أطر العمل
المواصفات الرئيسية للنشر المحلي لـ Qwen 3.6 عبر تكوينات أجهزة وأطر استدلال مختلفة.
تكوينات 35B A3B MoE
- Q3_K_M: حوالي 17 جيجابايت VRAM - Mac M4 بذاكرة 16 جيجابايت مؤكد العمل
- Q4_K_M: حوالي 21-23 جيجابايت VRAM - RTX 4090 بسعة 24 جيجابايت موصى بها
- Q8_0: حوالي 35 جيجابايت VRAM - RTX A6000 بسعة 48 جيجابايت أو GPU مزدوجة
- BF16: حوالي 70 جيجابايت VRAM - RTX 6000 بسعة 96 جيجابايت دقة كاملة
- 20-40 رمز/ثانية على أجهزة المستهلك بـ 4 بت (معايير Unsloth)
- 3B معامل نشط لكل رمز، استدلال فعال
تكوينات 27B كثيف
- IQ4_XS GGUF: 16 جيجابايت VRAM مع ضغط ذاكرة KV (سياق 100K)
- Q4_K_M: حوالي 16 جيجابايت VRAM - RTX 4090 بسعة 24 جيجابايت مع مساحة للسياق
- FP16: حوالي 55.6 جيجابايت VRAM - 2x RTX 4090 أو A100 بسعة 80 جيجابايت
- جميع معاملات 27B نشطة لأقصى جودة
- أفضل نموذج مفتوح الأوزان للبرمجة: 77.2% SWE-bench
أطر العمل المدعومة
- Ollama: أسهل إعداد، نشر بأمر واحد، رؤية + استدعاء أدوات
- vLLM: خدمة إنتاجية، تجميع مستمر، توازي موتري
- llama.cpp: استدلال خفيف C++، CPU + GPU، نشر طرفي
- SGLang: خدمة عالية الأداء مع تخزين مؤقت RadixAttention للبادئات
- KTransformers: نشر وتحسين متقدم
- HuggingFace Transformers: Python أصلي، دعم كامل للضبط الدقيق
أدلة الإعداد
نشر محلي خطوة بخطوة لكل إطار عمل
اتبع هذه الأدلة لتشغيل Qwen 3.6 على أجهزتك في دقائق، مع نصائح تحسين خاصة بكل منصة.
ثبّت Ollama وشغّل Qwen 3.6 في أقل من 5 دقائق
أعد خدمة إنتاجية مع API متوافق مع OpenAI
استدلال خفيف مع دعم CPU وGPU
خدمة عالية الأداء مع RadixAttention
نشر حاوي لبيئات قابلة للتكرار
شغّل 35B A3B على Mac M4 بذاكرة 16 جيجابايت بتكميم Q3
التحسين
احصل على أقصى أداء من أجهزتك
اضبط التكميم وحجم الدفعة وتخصيص الذاكرة وطول السياق للأداء الأمثل على أجهزتك المحددة.
مفاضلات الجودة مقابل السرعة مقابل VRAM لكل مستوى GGUF
توازي موتري للنموذج الكثيف 27B عبر عدة GPU
إعدادات محسنة لأجهزة Mac M1/M2/M3/M4 مع Metal
أدخل 27B في 16 جيجابايت VRAM مع سياق 100K باستخدام IQ4_XS
اربط Qwen المحلي بـ Claude Code وAider وContinue.dev
منظومة Qwen
نماذج مفتوحة الأوزان مصممة للنشر المحلي - ترخيص Apache 2.0
نماذج Qwen 3.6 مفتوحة الأوزان صدرت بترخيص Apache 2.0 مع دعم كامل لستة أطر استدلال. من أجهزة Mac M4 المحمولة إلى خوادم GPU المتعددة، انشر بثقة وبدون تكاليف مستمرة.
ابدأ الآن
مستعد لتشغيل Qwen 3.6 على أجهزتك؟ ابدأ بأمر واحد
جرّب Qwen 3.6 في المتصفح أولاً، ثم انشر محلياً مع Ollama أو vLLM أو llama.cpp أو SGLang. نموذج 35B A3B يعمل على Mac M4 بذاكرة 16 جيجابايت، و27B يناسب 16 جيجابايت VRAM مع IQ4_XS. صفر تكاليف لكل رمز، خصوصية بيانات كاملة، ترخيص Apache 2.0.