Qwen 3.6 + Ollama

명령어 하나로 Qwen 3.6을 로컬 실행 – 설정 불필요

Ollama를 사용하면 Qwen 3.6 실행이 'ollama run qwen3.6:35b-a3b'만큼 간단합니다. 자동 GPU 감지, 모델 다운로드, 양자화 선택. 27B 밀집 모델과 35B A3B MoE 모델 모두 NVIDIA CUDA와 Apple Metal 가속을 지원합니다. 35B A3B 4비트 모델로 일반 하드웨어에서 초당 20~40 토큰이 기대됩니다. localhost:11434의 OpenAI 호환 API는 Claude Code, Aider, Continue.dev 등의 코딩 도구와 직접 통합됩니다. 비전과 멀티모달 입력을 바로 지원 – 비전과 도구 호출이 작동하지 않았던 Qwen 3.5 대비 핵심 개선 사항입니다.

채팅 시작 모델 태그 보기

Ollama 가이드

설치부터 추론까지 5분 이내

Ollama는 로컬 모델 배포의 복잡성(GPU 감지, 메모리 관리, 양자화, API 서빙)을 처리하여 모델 사용에 집중할 수 있게 합니다. Qwen 3.6은 Ollama에서 Qwen 3.5를 괴롭혔던 비전과 도구 호출 문제를 수정했습니다.

원커맨드 설정

Ollama를 설치한 후 'ollama run qwen3.6:35b-a3b'(기본 태그) 또는 'ollama run qwen3.6:27b'를 실행하세요. 자동 모델 다운로드, GPU 감지, 최적 양자화 선택. macOS(Apple Silicon + Metal), Linux(NVIDIA CUDA), Windows(WSL2 또는 네이티브)에서 작동합니다. 35B A3B는 품질과 하드웨어 요구사항의 균형으로 대부분의 사용자에게 권장되는 기본 모델입니다.

모델 태그 선택

적절한 모델 변형을 선택하세요: 'qwen3.6:35b-a3b'는 일반 GPU용(기본 태그), 'qwen3.6:27b'는 워크스테이션 하드웨어에서 최대 성능, 'qwen3.6:35b-a3b-q4_k_m'은 특정 양자화 제어, 'qwen3.6:35b-a3b-q3_k_m'은 더 적은 VRAM 예산용(약 17GB). 태그는 GGUF 양자화 레벨에 직접 대응합니다. 'ollama list'로 다운로드된 모델을 확인하고 'ollama show qwen3.6:35b-a3b'로 모델 상세 정보를 확인하세요.

VRAM 요구사항과 양자화

35B A3B 양자화 옵션: Q2_K(약 13GB, 가장 빠름, 최저 품질), Q3_K_M(약 17GB, Mac M4 16GB에 적합), Q4_K_M(약 21GB, 24GB GPU에서 균형 잡힌 품질/속도), Q5_K_M(약 25GB), Q8_0(약 35GB, 거의 무손실). 27B 밀집: Q4_K_M 약 16GB, 24GB 이상 GPU 필요. 35B A3B BF16 풀 정밀도는 약 70GB VRAM 필요. 커뮤니티 보고에 따르면 Mac M4 16GB에서 Q3 양자화로 35B A3B가 성공적으로 동작합니다.

비전 및 멀티모달 지원

Qwen 3.6 모델은 Ollama를 통해 멀티모달 입력을 지원합니다 – 비전이 작동하지 않았던 Qwen 3.5 대비 큰 개선입니다. 텍스트 프롬프트와 함께 이미지를 전달하여 코드 스크린샷 분석, UI 리뷰, 다이어그램 이해, 아키텍처 다이어그램 파싱, 시각적 디버깅 워크플로에 활용하세요. Ollama 채팅의 /image 명령어 또는 API를 통해 Base64 인코딩 이미지를 전달할 수 있습니다.

일반 하드웨어 성능 벤치마크

Unsloth 커뮤니티 벤치마크에 따르면 35B A3B 4비트 모델로 로컬 환경에서 초당 20~40 토큰을 보여줍니다. Mac M4 16GB 사용자들은 Q3 양자화로 실용적인 속도를 보고합니다. RTX 4090 24GB는 Q4_K_M을 컨텍스트 여유와 함께 처리합니다. RTX 6000 96GB는 풀 정밀도 배포가 가능합니다. 성능은 GPU 메모리 대역폭에 비례하여 확장됩니다 – 더 빠른 메모리는 더 빠른 추론을 의미합니다.

Modelfile 커스터마이징

커스텀 Modelfile을 만들어 시스템 프롬프트, 온도, 컨텍스트 길이(num_ctx), GPU 레이어 오프로딩(num_gpu), 배치 크기(num_batch), 스레드 수를 설정하세요. 긴 컨텍스트 작업에는 num_ctx를 최대 131072까지 설정 가능합니다. 코딩 어시스턴트, 기술 문서 작성, 에이전트 워크플로 등 특정 사용 사례에 맞게 채팅 템플릿을 커스터마이징할 수 있습니다. Modelfile은 일반 텍스트이며 버전 관리가 가능합니다.

도구 호출 및 함수 지원

Ollama의 Qwen 3.6은 도구 호출과 함수 실행을 지원합니다 – 도구 호출이 작동하지 않았던 Qwen 3.5 대비 또 다른 개선입니다. OpenAI 호환 형식으로 도구를 정의하면 모델이 구조화된 함수 호출을 생성합니다. 이를 통해 localhost:11434 엔드포인트를 통한 LangChain, AutoGen, CrewAI 등 에이전트 프레임워크와의 통합이 가능합니다.

코딩 도구 통합

Ollama는 localhost:11434에서 OpenAI 호환 API를 노출합니다. Claude Code(OpenAI 호환 API 경유), OpenClaw, Aider, Continue.dev, Cursor 및 커스텀 OpenAI 엔드포인트를 지원하는 기타 코딩 도구에 직접 연결하세요. 베이스 URL을 http://localhost:11434/v1로 설정하고 API 키에는 아무 문자열이나 사용하면 됩니다. Qwen 3.6 모델은 OpenAI와 동일한 채팅 컴플리션 형식을 지원합니다.

빠른 참조