تشغيل Qwen 3.6 محلياً

انشر Qwen 3.6 على أجهزتك - من Mac M4 بذاكرة 16 جيجابايت إلى خوادم الإنتاج

نماذج Qwen 3.6 مفتوحة الأوزان مصممة للنشر المحلي على مجموعة واسعة من الأجهزة. النموذج الكثيف 27B يعمل على 16 جيجابايت VRAM باستخدام IQ4_XS GGUF مع ضغط ذاكرة KV حتى سياق 100K. نموذج 35B A3B MoE يقدم 20-40 رمزاً في الثانية على أجهزة المستهلك بتكميم 4 بت. تقارير المجتمع تؤكد أن Mac M4 بذاكرة 16 جيجابايت يشغل 35B A3B بتكميم Q3. دعم كامل لـ Ollama وvLLM وllama.cpp وSGLang وKTransformers. قدرات الرؤية والوسائط المتعددة تعمل محلياً.

النشر المحلي

كل ما تحتاجه لتشغيل Qwen 3.6 على جهازك

من اختيار الأجهزة إلى ضبط التكميم، يغطي هذا الدليل كل جانب من جوانب نشر نماذج Qwen 3.6 محلياً للتطوير والاختبار والإنتاج. ستة أطر استدلال مدعومة، مع تكوينات أجهزة من أجهزة لابتوب بذاكرة 16 جيجابايت إلى محطات عمل بذاكرة 96 جيجابايت.

متطلبات الأجهزة - 35B A3B MoE

نموذج 35B A3B MoE بـ 3B معامل نشط فقط هو الخيار الأكثر ملاءمة للأجهزة. تكميم Q3_K_M: حوالي 17 جيجابايت VRAM، مؤكد العمل على Mac M4 بذاكرة 16 جيجابايت. Q4_K_M: حوالي 21-23 جيجابايت VRAM، يناسب RTX 4090 بسعة 24 جيجابايت. Q8_0: حوالي 35 جيجابايت. BF16 دقة كاملة: حوالي 70 جيجابايت، يناسب RTX 6000 بسعة 96 جيجابايت. توقع 20-40 رمزاً في الثانية على أجهزة المستهلك بتكميم 4 بت وفقاً لمعايير مجتمع Unsloth.

متطلبات الأجهزة - 27B كثيف

النموذج الكثيف 27B يقدم أعلى جودة مفتوحة الأوزان مع جميع المعاملات نشطة. IQ4_XS GGUF: يعمل على 16 جيجابايت VRAM مع ضغط ذاكرة KV، يدعم حتى 100K سياق. Q4_K_M: حوالي 16 جيجابايت، يحتاج GPU بسعة 24 جيجابايت+ للعمل المريح مع السياق. FP16 دقة كاملة: حوالي 55.6 جيجابايت، يتطلب 2x RTX 4090 أو A100 بسعة 80 جيجابايت. الأفضل لنشر محطات العمل حيث الجودة هي الأولوية.

إعداد Ollama بأمر واحد

أسرع طريق للنشر المحلي: 'ollama run qwen3.6:35b-a3b'. تحميل تلقائي للنموذج واختيار التكميم واكتشاف GPU. يدعم تسريع NVIDIA CUDA وApple Metal. الـ API المتوافق مع OpenAI على localhost:11434 يتكامل مع Claude Code وAider وContinue.dev وأدوات البرمجة الأخرى. الرؤية واستدعاء الأدوات يعملان فوراً - تحسينات عن Qwen 3.5.

خدمة إنتاجية vLLM

خدمة بمستوى إنتاجي مع تجميع مستمر وPagedAttention ونقاط نهاية API متوافقة مع OpenAI. مثالي للنشر متعدد المستخدمين والاستدلال عالي الإنتاجية على أجهزة الخوادم. يدعم التوازي الموتري لتقسيم نموذج 27B عبر عدة GPU. يتيح PagedAttention إدارة ذاكرة فعالة لطلبات السياق الطويل حتى طول السياق الكامل للنموذج.

llama.cpp وSGLang

يوفر llama.cpp استدلالاً خفيفاً بلغة C++ مع دعم CPU وGPU، مثالي للنشر الطرفي والبيئات محدودة الموارد. يوفر SGLang خدمة عالية الأداء مع RadixAttention للتخزين المؤقت الفعال للبادئات. كلاهما يدعم نماذج GGUF المكممة ويوفر نقاط نهاية API متوافقة مع OpenAI. KTransformers مدعوم أيضاً لسيناريوهات النشر المتقدمة.

الرؤية والوسائط المتعددة محلياً

كلا النموذجين 27B و35B A3B يدعمان المدخلات المرئية والوسائط المتعددة عند النشر محلياً. حلل لقطات شاشة الكود، راجع تصاميم واجهة المستخدم، فسّر مخططات البنية، وأصلح المشكلات المرئية. هذه القدرة تعمل عبر Ollama وvLLM وأطر العمل المدعومة الأخرى. تحسين كبير عن Qwen 3.5 حيث كانت الرؤية المحلية معطلة.

الخصوصية وسيادة البيانات

جميع البيانات تبقى على جهازك. لا استدعاءات API، لا اعتماد على السحابة، لا تتبع للاستخدام، لا بيانات تغادر شبكتك. مثالي لقواعد الكود الحساسة والبيانات الملكية وتطبيقات الرعاية الصحية والمالية والبيئات المعزولة حيث سيادة البيانات مطلوبة قانونياً. ترخيص Apache 2.0 يسمح بالاستخدام التجاري بدون قيود.

تحليل التكاليف مقابل API

صفر تكاليف لكل رمز بعد الاستثمار الأولي في الأجهزة. RTX 4090 واحدة (حوالي $1,600) تشغل نموذج 35B A3B بسرعة 20-40 رمز/ثانية يمكنها معالجة آلاف الطلبات يومياً. بأسعار DashScope البالغة $0.40/$2.40 لكل مليون رمز، تسترد GPU تكلفتها في أسابيع للاستخدام المكثف. للفرق التي تعالج ملايين الرموز يومياً، يوفر النشر المحلي توفيراً بمقدار 10-100 ضعف مقارنة بالوصول عبر API.

مرجع سريع

تكوينات الأجهزة وخيارات أطر العمل

المواصفات الرئيسية للنشر المحلي لـ Qwen 3.6 عبر تكوينات أجهزة وأطر استدلال مختلفة.

تكوينات 35B A3B MoE

  • Q3_K_M: حوالي 17 جيجابايت VRAM - Mac M4 بذاكرة 16 جيجابايت مؤكد العمل
  • Q4_K_M: حوالي 21-23 جيجابايت VRAM - RTX 4090 بسعة 24 جيجابايت موصى بها
  • Q8_0: حوالي 35 جيجابايت VRAM - RTX A6000 بسعة 48 جيجابايت أو GPU مزدوجة
  • BF16: حوالي 70 جيجابايت VRAM - RTX 6000 بسعة 96 جيجابايت دقة كاملة
  • 20-40 رمز/ثانية على أجهزة المستهلك بـ 4 بت (معايير Unsloth)
  • 3B معامل نشط لكل رمز، استدلال فعال

تكوينات 27B كثيف

  • IQ4_XS GGUF: 16 جيجابايت VRAM مع ضغط ذاكرة KV (سياق 100K)
  • Q4_K_M: حوالي 16 جيجابايت VRAM - RTX 4090 بسعة 24 جيجابايت مع مساحة للسياق
  • FP16: حوالي 55.6 جيجابايت VRAM - 2x RTX 4090 أو A100 بسعة 80 جيجابايت
  • جميع معاملات 27B نشطة لأقصى جودة
  • أفضل نموذج مفتوح الأوزان للبرمجة: 77.2% SWE-bench

أطر العمل المدعومة

  • Ollama: أسهل إعداد، نشر بأمر واحد، رؤية + استدعاء أدوات
  • vLLM: خدمة إنتاجية، تجميع مستمر، توازي موتري
  • llama.cpp: استدلال خفيف C++، CPU + GPU، نشر طرفي
  • SGLang: خدمة عالية الأداء مع تخزين مؤقت RadixAttention للبادئات
  • KTransformers: نشر وتحسين متقدم
  • HuggingFace Transformers: Python أصلي، دعم كامل للضبط الدقيق

منظومة Qwen

نماذج مفتوحة الأوزان مصممة للنشر المحلي - ترخيص Apache 2.0

نماذج Qwen 3.6 مفتوحة الأوزان صدرت بترخيص Apache 2.0 مع دعم كامل لستة أطر استدلال. من أجهزة Mac M4 المحمولة إلى خوادم GPU المتعددة، انشر بثقة وبدون تكاليف مستمرة.

Qwen 3.6 35B A3B

MoE، 3B معامل نشط، 20-40 رمز/ثانية على GPU استهلاكية

تحميل

Qwen 3.6 27B

كثيف، 16 جيجابايت VRAM مع IQ4_XS، أقصى جودة

تحميل

مكتبة Ollama

علامات نموذج جاهزة لإعداد بأمر واحد

تصفح

نماذج GGUF

نماذج مكممة لكل ميزانية VRAM

تحميل

وثائق vLLM

خدمة إنتاجية مع تجميع مستمر

اقرأ الوثائق

المجتمع

احصل على مساعدة من مجتمع Qwen

انضم

ابدأ الآن

مستعد لتشغيل Qwen 3.6 على أجهزتك؟ ابدأ بأمر واحد

جرّب Qwen 3.6 في المتصفح أولاً، ثم انشر محلياً مع Ollama أو vLLM أو llama.cpp أو SGLang. نموذج 35B A3B يعمل على Mac M4 بذاكرة 16 جيجابايت، و27B يناسب 16 جيجابايت VRAM مع IQ4_XS. صفر تكاليف لكل رمز، خصوصية بيانات كاملة، ترخيص Apache 2.0.