Qwen 3.6 로컬 실행

자체 하드웨어에 Qwen 3.6 배포 – Mac M4 16GB부터 프로덕션 서버까지

Qwen 3.6 오픈 웨이트 모델은 다양한 하드웨어에서의 로컬 배포를 위해 설계되었습니다. 27B 밀집 모델은 IQ4_XS GGUF와 KV 캐시 압축으로 16GB VRAM에서 최대 100K 컨텍스트를 지원합니다. 35B A3B MoE 모델은 4비트 양자화로 일반 하드웨어에서 초당 20~40 토큰을 제공합니다. 커뮤니티 보고에 따르면 Mac M4 16GB에서 Q3 양자화로 35B A3B가 동작합니다. Ollama, vLLM, llama.cpp, SGLang, KTransformers를 완전 지원합니다. 비전과 멀티모달 기능은 로컬에서 작동합니다.

채팅 시작 하드웨어 가이드

로컬 배포

자체 머신에서 Qwen 3.6을 실행하는 데 필요한 모든 것

하드웨어 선택부터 양자화 튜닝까지, 이 가이드는 개발, 테스트, 프로덕션 용도의 Qwen 3.6 모델 로컬 배포의 모든 측면을 다룹니다. 6개의 추론 프레임워크를 지원하며, 16GB 노트북부터 96GB 워크스테이션까지의 하드웨어 구성에 대응합니다.

하드웨어 요구사항 – 35B A3B MoE

35B A3B MoE 모델은 활성 파라미터가 3B에 불과하여 가장 하드웨어 친화적인 옵션입니다. Q3_K_M 양자화: 약 17GB VRAM, Mac M4 16GB에서 동작 확인. Q4_K_M: 약 21~23GB VRAM, RTX 4090 24GB에 적합. Q8_0: 약 35GB. BF16 풀 정밀도: 약 70GB, RTX 6000 96GB에 적합. Unsloth 커뮤니티 벤치마크 기준 일반 하드웨어에서 4비트 양자화 시 초당 20~40 토큰이 기대됩니다.

하드웨어 요구사항 – 27B 밀집

27B 밀집 모델은 모든 파라미터가 활성화되어 오픈 웨이트 최고 품질을 제공합니다. IQ4_XS GGUF: KV 캐시 압축으로 16GB VRAM에서 동작 가능, 최대 100K 컨텍스트 길이 지원. Q4_K_M: 약 16GB, 컨텍스트와 함께 편안한 운영에는 24GB 이상 GPU 필요. FP16 풀 정밀도: 약 55.6GB, 2x RTX 4090 또는 A100 80GB 필요. 품질이 최우선인 워크스테이션 배포에 최적입니다.

Ollama 원커맨드 설정

로컬 배포의 가장 빠른 경로: 'ollama run qwen3.6:35b-a3b'. 자동 모델 다운로드, 양자화 선택, GPU 감지. NVIDIA CUDA와 Apple Metal 가속을 지원합니다. localhost:11434의 OpenAI 호환 API는 Claude Code, Aider, Continue.dev 등의 코딩 도구와 통합됩니다. 비전과 도구 호출이 바로 작동 – Qwen 3.5 대비 개선 사항입니다.

vLLM 프로덕션 서빙

연속 배칭, PagedAttention, OpenAI 호환 API 엔드포인트를 갖춘 프로덕션급 서빙. 멀티 사용자 배포와 서버 하드웨어에서의 고처리량 추론에 적합합니다. 27B 모델을 여러 GPU에 분할하는 텐서 병렬 처리를 지원합니다. PagedAttention은 모델의 전체 컨텍스트 길이까지 긴 컨텍스트 요청의 효율적인 메모리 관리를 가능하게 합니다.

llama.cpp와 SGLang

llama.cpp는 CPU와 GPU를 지원하는 경량 C++ 추론을 제공하며, 엣지 배포와 리소스 제한 환경에 적합합니다. SGLang은 효율적인 프리픽스 캐싱을 위한 RadixAttention으로 고성능 서빙을 제공합니다. 둘 다 GGUF 양자화 모델을 지원하고 OpenAI 호환 API 엔드포인트를 제공합니다. KTransformers도 고급 배포 시나리오를 위해 지원됩니다.

비전과 멀티모달 로컬 지원

27B와 35B A3B 모델 모두 로컬 배포 시 비전과 멀티모달 입력을 지원합니다. 코드 스크린샷 분석, UI 디자인 리뷰, 아키텍처 다이어그램 파싱, 시각적 문제 디버깅이 가능합니다. 이 기능은 Ollama, vLLM 및 기타 지원 프레임워크에서 작동합니다. 로컬 비전이 작동하지 않았던 Qwen 3.5 대비 큰 개선입니다.

프라이버시와 데이터 주권

모든 데이터가 사용자의 머신에 머무릅니다. API 호출 없음, 클라우드 의존성 없음, 사용 추적 없음, 네트워크 외부로 데이터 유출 없음. 민감한 코드베이스, 독점 데이터, 의료 및 금융 애플리케이션, 데이터 주권이 법적으로 요구되는 에어갭 환경에 적합합니다. Apache 2.0 라이선스는 제한 없는 상업적 사용을 허용합니다.

API 대비 비용 분석

초기 하드웨어 투자 후 토큰당 비용은 제로입니다. RTX 4090 1대(약 $1,600)로 35B A3B 모델을 20~40 토큰/초로 실행하면 하루에 수천 건의 요청을 처리할 수 있습니다. DashScope 요금 100만 토큰당 $0.40/$2.40 기준으로, 많이 사용하면 몇 주 안에 GPU 비용을 회수할 수 있습니다. 매일 수백만 토큰을 처리하는 팀에게 로컬 배포는 API 액세스 대비 10~100배의 비용 절감을 제공합니다.

빠른 참조

하드웨어 구성 및 프레임워크 옵션

다양한 하드웨어 구성과 추론 프레임워크에서의 Qwen 3.6 로컬 배포 주요 사양.

35B A3B MoE 구성

Q3_K_M: 약 17GB VRAM – Mac M4 16GB 동작 확인
Q4_K_M: 약 21~23GB VRAM – RTX 4090 24GB 권장
Q8_0: 약 35GB VRAM – RTX A6000 48GB 또는 듀얼 GPU
BF16: 약 70GB VRAM – RTX 6000 96GB 풀 정밀도
일반 하드웨어에서 4비트 시 20~40 토큰/초 (Unsloth 벤치마크)
토큰당 3B 활성 파라미터, 효율적인 추론

27B 밀집 구성

IQ4_XS GGUF: KV 캐시 압축으로 16GB VRAM (100K 컨텍스트)
Q4_K_M: 약 16GB VRAM – RTX 4090 24GB에서 컨텍스트 여유 있음
FP16: 약 55.6GB VRAM – 2x RTX 4090 또는 A100 80GB
최대 품질을 위해 전체 27B 파라미터 활성
최고의 오픈 웨이트 코딩 모델: 77.2% SWE-bench

지원 프레임워크

Ollama: 가장 쉬운 설정, 원커맨드 배포, 비전 + 도구 호출
vLLM: 프로덕션 서빙, 연속 배칭, 텐서 병렬 처리
llama.cpp: 경량 C++ 추론, CPU + GPU, 엣지 배포
SGLang: RadixAttention 프리픽스 캐싱으로 고성능 서빙
KTransformers: 고급 배포 및 최적화
HuggingFace Transformers: 네이티브 Python, 풀 파인튜닝 지원

채팅 시작 모델 다운로드

설정 가이드

각 프레임워크별 단계별 로컬 배포

이 가이드를 따라 플랫폼별 최적화 팁과 함께 몇 분 안에 하드웨어에서 Qwen 3.6을 실행하세요.

Ollama 빠른 시작

Ollama를 설치하고 5분 이내에 Qwen 3.6 실행

vLLM 배포

OpenAI 호환 API로 프로덕션급 서빙 설정

llama.cpp 가이드

CPU와 GPU 지원의 경량 추론

SGLang 설정

RadixAttention으로 고성능 서빙

box

Docker 설정

재현 가능한 환경을 위한 컨테이너화 배포

Mac M4 가이드

Mac M4 16GB에서 Q3 양자화로 35B A3B 실행

최적화

하드웨어 성능을 최대한 활용하기

특정 하드웨어에서 최적의 성능을 위해 양자화, 배치 크기, 메모리 할당, 컨텍스트 길이를 조정하세요.

양자화 비교

각 GGUF 레벨의 품질 vs 속도 vs VRAM 트레이드오프

멀티 GPU 설정

27B 밀집 모델의 여러 GPU 간 텐서 병렬 처리

Apple Silicon 가이드

Metal 지원 M1/M2/M3/M4 Mac 최적화 설정

KV 캐시 압축

IQ4_XS로 27B를 16GB VRAM에 100K 컨텍스트로 수용

코딩 도구 통합

로컬 Qwen을 Claude Code, Aider, Continue.dev에 연결

Qwen 생태계

로컬 배포를 위해 만들어진 오픈 웨이트 모델 – Apache 2.0 라이선스

Qwen 3.6 오픈 웨이트 모델은 6개의 추론 프레임워크를 완전 지원하며 Apache 2.0 라이선스로 공개됩니다. Mac M4 노트북부터 멀티 GPU 서버까지, 자신 있게 운영 비용 없이 배포하세요.

모든 모델 탐색 HuggingFace 컬렉션

Qwen 3.6 35B A3B

MoE, 3B 활성 파라미터, 일반 GPU에서 20~40 토큰/초

다운로드

Qwen 3.6 27B

밀집, IQ4_XS로 16GB VRAM, 최고 품질

다운로드

Ollama 라이브러리

원커맨드 설정을 위한 사전 빌드 모델 태그

둘러보기

GGUF 모델

모든 VRAM 예산에 맞는 양자화 모델

다운로드

vLLM 문서

연속 배칭으로 프로덕션 서빙

문서 읽기

커뮤니티

Qwen 커뮤니티에서 도움 받기

참여하기

시작하기

자체 하드웨어에서 Qwen 3.6을 실행할 준비가 되셨나요? 명령어 하나로 시작

먼저 브라우저에서 Qwen 3.6을 체험한 후, Ollama, vLLM, llama.cpp 또는 SGLang으로 로컬 배포하세요. 35B A3B는 Mac M4 16GB에서 동작하고, 27B는 IQ4_XS로 16GB VRAM에 적합합니다. 토큰당 비용 제로, 완전한 데이터 프라이버시, Apache 2.0 라이선스.

채팅 시작 모델 다운로드