Qwen 3.6 + Ollama
명령어 하나로 Qwen 3.6을 로컬 실행 – 설정 불필요
Ollama를 사용하면 Qwen 3.6 실행이 'ollama run qwen3.6:35b-a3b'만큼 간단합니다. 자동 GPU 감지, 모델 다운로드, 양자화 선택. 27B 밀집 모델과 35B A3B MoE 모델 모두 NVIDIA CUDA와 Apple Metal 가속을 지원합니다. 35B A3B 4비트 모델로 일반 하드웨어에서 초당 20~40 토큰이 기대됩니다. localhost:11434의 OpenAI 호환 API는 Claude Code, Aider, Continue.dev 등의 코딩 도구와 직접 통합됩니다. 비전과 멀티모달 입력을 바로 지원 – 비전과 도구 호출이 작동하지 않았던 Qwen 3.5 대비 핵심 개선 사항입니다.
Ollama 가이드
설치부터 추론까지 5분 이내
Ollama는 로컬 모델 배포의 복잡성(GPU 감지, 메모리 관리, 양자화, API 서빙)을 처리하여 모델 사용에 집중할 수 있게 합니다. Qwen 3.6은 Ollama에서 Qwen 3.5를 괴롭혔던 비전과 도구 호출 문제를 수정했습니다.
원커맨드 설정
Ollama를 설치한 후 'ollama run qwen3.6:35b-a3b'(기본 태그) 또는 'ollama run qwen3.6:27b'를 실행하세요. 자동 모델 다운로드, GPU 감지, 최적 양자화 선택. macOS(Apple Silicon + Metal), Linux(NVIDIA CUDA), Windows(WSL2 또는 네이티브)에서 작동합니다. 35B A3B는 품질과 하드웨어 요구사항의 균형으로 대부분의 사용자에게 권장되는 기본 모델입니다.
모델 태그 선택
적절한 모델 변형을 선택하세요: 'qwen3.6:35b-a3b'는 일반 GPU용(기본 태그), 'qwen3.6:27b'는 워크스테이션 하드웨어에서 최대 성능, 'qwen3.6:35b-a3b-q4_k_m'은 특정 양자화 제어, 'qwen3.6:35b-a3b-q3_k_m'은 더 적은 VRAM 예산용(약 17GB). 태그는 GGUF 양자화 레벨에 직접 대응합니다. 'ollama list'로 다운로드된 모델을 확인하고 'ollama show qwen3.6:35b-a3b'로 모델 상세 정보를 확인하세요.
VRAM 요구사항과 양자화
35B A3B 양자화 옵션: Q2_K(약 13GB, 가장 빠름, 최저 품질), Q3_K_M(약 17GB, Mac M4 16GB에 적합), Q4_K_M(약 21GB, 24GB GPU에서 균형 잡힌 품질/속도), Q5_K_M(약 25GB), Q8_0(약 35GB, 거의 무손실). 27B 밀집: Q4_K_M 약 16GB, 24GB 이상 GPU 필요. 35B A3B BF16 풀 정밀도는 약 70GB VRAM 필요. 커뮤니티 보고에 따르면 Mac M4 16GB에서 Q3 양자화로 35B A3B가 성공적으로 동작합니다.
비전 및 멀티모달 지원
Qwen 3.6 모델은 Ollama를 통해 멀티모달 입력을 지원합니다 – 비전이 작동하지 않았던 Qwen 3.5 대비 큰 개선입니다. 텍스트 프롬프트와 함께 이미지를 전달하여 코드 스크린샷 분석, UI 리뷰, 다이어그램 이해, 아키텍처 다이어그램 파싱, 시각적 디버깅 워크플로에 활용하세요. Ollama 채팅의 /image 명령어 또는 API를 통해 Base64 인코딩 이미지를 전달할 수 있습니다.
일반 하드웨어 성능 벤치마크
Unsloth 커뮤니티 벤치마크에 따르면 35B A3B 4비트 모델로 로컬 환경에서 초당 20~40 토큰을 보여줍니다. Mac M4 16GB 사용자들은 Q3 양자화로 실용적인 속도를 보고합니다. RTX 4090 24GB는 Q4_K_M을 컨텍스트 여유와 함께 처리합니다. RTX 6000 96GB는 풀 정밀도 배포가 가능합니다. 성능은 GPU 메모리 대역폭에 비례하여 확장됩니다 – 더 빠른 메모리는 더 빠른 추론을 의미합니다.
Modelfile 커스터마이징
커스텀 Modelfile을 만들어 시스템 프롬프트, 온도, 컨텍스트 길이(num_ctx), GPU 레이어 오프로딩(num_gpu), 배치 크기(num_batch), 스레드 수를 설정하세요. 긴 컨텍스트 작업에는 num_ctx를 최대 131072까지 설정 가능합니다. 코딩 어시스턴트, 기술 문서 작성, 에이전트 워크플로 등 특정 사용 사례에 맞게 채팅 템플릿을 커스터마이징할 수 있습니다. Modelfile은 일반 텍스트이며 버전 관리가 가능합니다.
도구 호출 및 함수 지원
Ollama의 Qwen 3.6은 도구 호출과 함수 실행을 지원합니다 – 도구 호출이 작동하지 않았던 Qwen 3.5 대비 또 다른 개선입니다. OpenAI 호환 형식으로 도구를 정의하면 모델이 구조화된 함수 호출을 생성합니다. 이를 통해 localhost:11434 엔드포인트를 통한 LangChain, AutoGen, CrewAI 등 에이전트 프레임워크와의 통합이 가능합니다.
코딩 도구 통합
Ollama는 localhost:11434에서 OpenAI 호환 API를 노출합니다. Claude Code(OpenAI 호환 API 경유), OpenClaw, Aider, Continue.dev, Cursor 및 커스텀 OpenAI 엔드포인트를 지원하는 기타 코딩 도구에 직접 연결하세요. 베이스 URL을 http://localhost:11434/v1로 설정하고 API 키에는 아무 문자열이나 사용하면 됩니다. Qwen 3.6 모델은 OpenAI와 동일한 채팅 컴플리션 형식을 지원합니다.
빠른 참조
Ollama 명령어, 모델 태그, 하드웨어 요구사항
다양한 플랫폼에서 Ollama로 Qwen 3.6을 실행하기 위한 필수 명령어, 설정 옵션, 하드웨어 요구사항.
필수 명령어
- ollama run qwen3.6:35b-a3b – MoE 모델 실행 (기본 태그, 일반 GPU)
- ollama run qwen3.6:27b – 밀집 모델 실행 (워크스테이션 GPU)
- ollama pull qwen3.6:35b-a3b-q3_k_m – Q3 양자화 다운로드 (약 17GB, Mac M4 호환)
- ollama pull qwen3.6:35b-a3b-q4_k_m – Q4 양자화 다운로드 (약 21GB, 균형형)
- ollama serve – localhost:11434에서 API 서버 시작
- ollama list – 다운로드된 모델과 크기 표시
- ollama show qwen3.6:35b-a3b – 모델 상세 정보와 파라미터 확인
하드웨어 요구사항
- 35B A3B Q3_K_M: 약 17GB VRAM (Mac M4 16GB 동작 확인)
- 35B A3B Q4_K_M: 약 21GB VRAM (RTX 4090 24GB 권장)
- 35B A3B BF16: 약 70GB VRAM (RTX 6000 96GB 또는 멀티 GPU)
- 27B 밀집 Q4_K_M: 약 16GB VRAM (RTX 4090 24GB 최소)
- 27B 밀집 IQ4_XS: KV 캐시 압축으로 16GB VRAM에 적합
- macOS: Apple Silicon + Metal 가속 (M1 Pro 이상 권장)
- 일반 하드웨어에서 35B A3B 4비트 20~40 토큰/초
- CPU 폴백 가능하지만 상당히 느림 (약 2~5 토큰/초)
Qwen 3.5 대비 개선 사항
- 비전/멀티모달 입력: 3.5에서 작동 불가, 3.6에서 완전 작동
- 도구 호출/함수 실행: 3.5에서 작동 불가, 3.6에서 수정
- 컨텍스트 처리 및 메모리 효율성 개선
- 낮은 비트 폭에서 양자화 품질 향상
설정 가이드
모든 플랫폼에서 Ollama로 Qwen 3.6 실행하기
Ollama 설치 및 플랫폼별 Qwen 3.6 설정을 위한 단계별 가이드. 하드웨어별 최적화 팁 포함.
Ollama를 설치하고 M1/M2/M3/M4 Mac에서 Metal 가속으로 Qwen 3.6 실행
최대 처리량을 위한 CUDA 가속 NVIDIA GPU 설정
GPU 패스스루 포함 WSL2 및 네이티브 Windows 설치
재현 가능한 배포를 위해 GPU 액세스 포함 컨테이너에서 Ollama 실행
Mac M4 16GB RAM에서 Q3 양자화로 35B A3B 실행
대형 모델을 여러 GPU에 분할하여 성능 향상
고급 설정
Qwen 3.6 성능 최적화 및 코딩 도구 통합
Modelfile, GPU 설정, 컨텍스트 설정으로 모델 성능을 미세 조정하고 개발 환경에 연결하세요.
Qwen 생태계
Ollama는 로컬 Qwen 3.6의 가장 빠른 경로 – 명령어 하나, 전체 기능
자동 GPU 감지, 모델 관리, 비전 지원, 도구 호출, localhost:11434의 OpenAI 호환 API를 갖춘 원커맨드 설정으로 Claude Code, Aider, Continue.dev 등과 원활하게 통합됩니다.