Qwen 3.6 로컬 실행
자체 하드웨어에 Qwen 3.6 배포 – Mac M4 16GB부터 프로덕션 서버까지
Qwen 3.6 오픈 웨이트 모델은 다양한 하드웨어에서의 로컬 배포를 위해 설계되었습니다. 27B 밀집 모델은 IQ4_XS GGUF와 KV 캐시 압축으로 16GB VRAM에서 최대 100K 컨텍스트를 지원합니다. 35B A3B MoE 모델은 4비트 양자화로 일반 하드웨어에서 초당 20~40 토큰을 제공합니다. 커뮤니티 보고에 따르면 Mac M4 16GB에서 Q3 양자화로 35B A3B가 동작합니다. Ollama, vLLM, llama.cpp, SGLang, KTransformers를 완전 지원합니다. 비전과 멀티모달 기능은 로컬에서 작동합니다.
로컬 배포
자체 머신에서 Qwen 3.6을 실행하는 데 필요한 모든 것
하드웨어 선택부터 양자화 튜닝까지, 이 가이드는 개발, 테스트, 프로덕션 용도의 Qwen 3.6 모델 로컬 배포의 모든 측면을 다룹니다. 6개의 추론 프레임워크를 지원하며, 16GB 노트북부터 96GB 워크스테이션까지의 하드웨어 구성에 대응합니다.
하드웨어 요구사항 – 35B A3B MoE
35B A3B MoE 모델은 활성 파라미터가 3B에 불과하여 가장 하드웨어 친화적인 옵션입니다. Q3_K_M 양자화: 약 17GB VRAM, Mac M4 16GB에서 동작 확인. Q4_K_M: 약 21~23GB VRAM, RTX 4090 24GB에 적합. Q8_0: 약 35GB. BF16 풀 정밀도: 약 70GB, RTX 6000 96GB에 적합. Unsloth 커뮤니티 벤치마크 기준 일반 하드웨어에서 4비트 양자화 시 초당 20~40 토큰이 기대됩니다.
하드웨어 요구사항 – 27B 밀집
27B 밀집 모델은 모든 파라미터가 활성화되어 오픈 웨이트 최고 품질을 제공합니다. IQ4_XS GGUF: KV 캐시 압축으로 16GB VRAM에서 동작 가능, 최대 100K 컨텍스트 길이 지원. Q4_K_M: 약 16GB, 컨텍스트와 함께 편안한 운영에는 24GB 이상 GPU 필요. FP16 풀 정밀도: 약 55.6GB, 2x RTX 4090 또는 A100 80GB 필요. 품질이 최우선인 워크스테이션 배포에 최적입니다.
Ollama 원커맨드 설정
로컬 배포의 가장 빠른 경로: 'ollama run qwen3.6:35b-a3b'. 자동 모델 다운로드, 양자화 선택, GPU 감지. NVIDIA CUDA와 Apple Metal 가속을 지원합니다. localhost:11434의 OpenAI 호환 API는 Claude Code, Aider, Continue.dev 등의 코딩 도구와 통합됩니다. 비전과 도구 호출이 바로 작동 – Qwen 3.5 대비 개선 사항입니다.
vLLM 프로덕션 서빙
연속 배칭, PagedAttention, OpenAI 호환 API 엔드포인트를 갖춘 프로덕션급 서빙. 멀티 사용자 배포와 서버 하드웨어에서의 고처리량 추론에 적합합니다. 27B 모델을 여러 GPU에 분할하는 텐서 병렬 처리를 지원합니다. PagedAttention은 모델의 전체 컨텍스트 길이까지 긴 컨텍스트 요청의 효율적인 메모리 관리를 가능하게 합니다.
llama.cpp와 SGLang
llama.cpp는 CPU와 GPU를 지원하는 경량 C++ 추론을 제공하며, 엣지 배포와 리소스 제한 환경에 적합합니다. SGLang은 효율적인 프리픽스 캐싱을 위한 RadixAttention으로 고성능 서빙을 제공합니다. 둘 다 GGUF 양자화 모델을 지원하고 OpenAI 호환 API 엔드포인트를 제공합니다. KTransformers도 고급 배포 시나리오를 위해 지원됩니다.
비전과 멀티모달 로컬 지원
27B와 35B A3B 모델 모두 로컬 배포 시 비전과 멀티모달 입력을 지원합니다. 코드 스크린샷 분석, UI 디자인 리뷰, 아키텍처 다이어그램 파싱, 시각적 문제 디버깅이 가능합니다. 이 기능은 Ollama, vLLM 및 기타 지원 프레임워크에서 작동합니다. 로컬 비전이 작동하지 않았던 Qwen 3.5 대비 큰 개선입니다.
프라이버시와 데이터 주권
모든 데이터가 사용자의 머신에 머무릅니다. API 호출 없음, 클라우드 의존성 없음, 사용 추적 없음, 네트워크 외부로 데이터 유출 없음. 민감한 코드베이스, 독점 데이터, 의료 및 금융 애플리케이션, 데이터 주권이 법적으로 요구되는 에어갭 환경에 적합합니다. Apache 2.0 라이선스는 제한 없는 상업적 사용을 허용합니다.
API 대비 비용 분석
초기 하드웨어 투자 후 토큰당 비용은 제로입니다. RTX 4090 1대(약 $1,600)로 35B A3B 모델을 20~40 토큰/초로 실행하면 하루에 수천 건의 요청을 처리할 수 있습니다. DashScope 요금 100만 토큰당 $0.40/$2.40 기준으로, 많이 사용하면 몇 주 안에 GPU 비용을 회수할 수 있습니다. 매일 수백만 토큰을 처리하는 팀에게 로컬 배포는 API 액세스 대비 10~100배의 비용 절감을 제공합니다.
빠른 참조
하드웨어 구성 및 프레임워크 옵션
다양한 하드웨어 구성과 추론 프레임워크에서의 Qwen 3.6 로컬 배포 주요 사양.
35B A3B MoE 구성
- Q3_K_M: 약 17GB VRAM – Mac M4 16GB 동작 확인
- Q4_K_M: 약 21~23GB VRAM – RTX 4090 24GB 권장
- Q8_0: 약 35GB VRAM – RTX A6000 48GB 또는 듀얼 GPU
- BF16: 약 70GB VRAM – RTX 6000 96GB 풀 정밀도
- 일반 하드웨어에서 4비트 시 20~40 토큰/초 (Unsloth 벤치마크)
- 토큰당 3B 활성 파라미터, 효율적인 추론
27B 밀집 구성
- IQ4_XS GGUF: KV 캐시 압축으로 16GB VRAM (100K 컨텍스트)
- Q4_K_M: 약 16GB VRAM – RTX 4090 24GB에서 컨텍스트 여유 있음
- FP16: 약 55.6GB VRAM – 2x RTX 4090 또는 A100 80GB
- 최대 품질을 위해 전체 27B 파라미터 활성
- 최고의 오픈 웨이트 코딩 모델: 77.2% SWE-bench
지원 프레임워크
- Ollama: 가장 쉬운 설정, 원커맨드 배포, 비전 + 도구 호출
- vLLM: 프로덕션 서빙, 연속 배칭, 텐서 병렬 처리
- llama.cpp: 경량 C++ 추론, CPU + GPU, 엣지 배포
- SGLang: RadixAttention 프리픽스 캐싱으로 고성능 서빙
- KTransformers: 고급 배포 및 최적화
- HuggingFace Transformers: 네이티브 Python, 풀 파인튜닝 지원
설정 가이드
각 프레임워크별 단계별 로컬 배포
이 가이드를 따라 플랫폼별 최적화 팁과 함께 몇 분 안에 하드웨어에서 Qwen 3.6을 실행하세요.
최적화
하드웨어 성능을 최대한 활용하기
특정 하드웨어에서 최적의 성능을 위해 양자화, 배치 크기, 메모리 할당, 컨텍스트 길이를 조정하세요.
Qwen 생태계
로컬 배포를 위해 만들어진 오픈 웨이트 모델 – Apache 2.0 라이선스
Qwen 3.6 오픈 웨이트 모델은 6개의 추론 프레임워크를 완전 지원하며 Apache 2.0 라이선스로 공개됩니다. Mac M4 노트북부터 멀티 GPU 서버까지, 자신 있게 운영 비용 없이 배포하세요.