Qwen 3.6 + Ollama

명령어 하나로 Qwen 3.6을 로컬 실행 – 설정 불필요

Ollama를 사용하면 Qwen 3.6 실행이 'ollama run qwen3.6:35b-a3b'만큼 간단합니다. 자동 GPU 감지, 모델 다운로드, 양자화 선택. 27B 밀집 모델과 35B A3B MoE 모델 모두 NVIDIA CUDA와 Apple Metal 가속을 지원합니다. 35B A3B 4비트 모델로 일반 하드웨어에서 초당 20~40 토큰이 기대됩니다. localhost:11434의 OpenAI 호환 API는 Claude Code, Aider, Continue.dev 등의 코딩 도구와 직접 통합됩니다. 비전과 멀티모달 입력을 바로 지원 – 비전과 도구 호출이 작동하지 않았던 Qwen 3.5 대비 핵심 개선 사항입니다.

Ollama 가이드

설치부터 추론까지 5분 이내

Ollama는 로컬 모델 배포의 복잡성(GPU 감지, 메모리 관리, 양자화, API 서빙)을 처리하여 모델 사용에 집중할 수 있게 합니다. Qwen 3.6은 Ollama에서 Qwen 3.5를 괴롭혔던 비전과 도구 호출 문제를 수정했습니다.

원커맨드 설정

Ollama를 설치한 후 'ollama run qwen3.6:35b-a3b'(기본 태그) 또는 'ollama run qwen3.6:27b'를 실행하세요. 자동 모델 다운로드, GPU 감지, 최적 양자화 선택. macOS(Apple Silicon + Metal), Linux(NVIDIA CUDA), Windows(WSL2 또는 네이티브)에서 작동합니다. 35B A3B는 품질과 하드웨어 요구사항의 균형으로 대부분의 사용자에게 권장되는 기본 모델입니다.

모델 태그 선택

적절한 모델 변형을 선택하세요: 'qwen3.6:35b-a3b'는 일반 GPU용(기본 태그), 'qwen3.6:27b'는 워크스테이션 하드웨어에서 최대 성능, 'qwen3.6:35b-a3b-q4_k_m'은 특정 양자화 제어, 'qwen3.6:35b-a3b-q3_k_m'은 더 적은 VRAM 예산용(약 17GB). 태그는 GGUF 양자화 레벨에 직접 대응합니다. 'ollama list'로 다운로드된 모델을 확인하고 'ollama show qwen3.6:35b-a3b'로 모델 상세 정보를 확인하세요.

VRAM 요구사항과 양자화

35B A3B 양자화 옵션: Q2_K(약 13GB, 가장 빠름, 최저 품질), Q3_K_M(약 17GB, Mac M4 16GB에 적합), Q4_K_M(약 21GB, 24GB GPU에서 균형 잡힌 품질/속도), Q5_K_M(약 25GB), Q8_0(약 35GB, 거의 무손실). 27B 밀집: Q4_K_M 약 16GB, 24GB 이상 GPU 필요. 35B A3B BF16 풀 정밀도는 약 70GB VRAM 필요. 커뮤니티 보고에 따르면 Mac M4 16GB에서 Q3 양자화로 35B A3B가 성공적으로 동작합니다.

비전 및 멀티모달 지원

Qwen 3.6 모델은 Ollama를 통해 멀티모달 입력을 지원합니다 – 비전이 작동하지 않았던 Qwen 3.5 대비 큰 개선입니다. 텍스트 프롬프트와 함께 이미지를 전달하여 코드 스크린샷 분석, UI 리뷰, 다이어그램 이해, 아키텍처 다이어그램 파싱, 시각적 디버깅 워크플로에 활용하세요. Ollama 채팅의 /image 명령어 또는 API를 통해 Base64 인코딩 이미지를 전달할 수 있습니다.

일반 하드웨어 성능 벤치마크

Unsloth 커뮤니티 벤치마크에 따르면 35B A3B 4비트 모델로 로컬 환경에서 초당 20~40 토큰을 보여줍니다. Mac M4 16GB 사용자들은 Q3 양자화로 실용적인 속도를 보고합니다. RTX 4090 24GB는 Q4_K_M을 컨텍스트 여유와 함께 처리합니다. RTX 6000 96GB는 풀 정밀도 배포가 가능합니다. 성능은 GPU 메모리 대역폭에 비례하여 확장됩니다 – 더 빠른 메모리는 더 빠른 추론을 의미합니다.

Modelfile 커스터마이징

커스텀 Modelfile을 만들어 시스템 프롬프트, 온도, 컨텍스트 길이(num_ctx), GPU 레이어 오프로딩(num_gpu), 배치 크기(num_batch), 스레드 수를 설정하세요. 긴 컨텍스트 작업에는 num_ctx를 최대 131072까지 설정 가능합니다. 코딩 어시스턴트, 기술 문서 작성, 에이전트 워크플로 등 특정 사용 사례에 맞게 채팅 템플릿을 커스터마이징할 수 있습니다. Modelfile은 일반 텍스트이며 버전 관리가 가능합니다.

도구 호출 및 함수 지원

Ollama의 Qwen 3.6은 도구 호출과 함수 실행을 지원합니다 – 도구 호출이 작동하지 않았던 Qwen 3.5 대비 또 다른 개선입니다. OpenAI 호환 형식으로 도구를 정의하면 모델이 구조화된 함수 호출을 생성합니다. 이를 통해 localhost:11434 엔드포인트를 통한 LangChain, AutoGen, CrewAI 등 에이전트 프레임워크와의 통합이 가능합니다.

코딩 도구 통합

Ollama는 localhost:11434에서 OpenAI 호환 API를 노출합니다. Claude Code(OpenAI 호환 API 경유), OpenClaw, Aider, Continue.dev, Cursor 및 커스텀 OpenAI 엔드포인트를 지원하는 기타 코딩 도구에 직접 연결하세요. 베이스 URL을 http://localhost:11434/v1로 설정하고 API 키에는 아무 문자열이나 사용하면 됩니다. Qwen 3.6 모델은 OpenAI와 동일한 채팅 컴플리션 형식을 지원합니다.

빠른 참조

Ollama 명령어, 모델 태그, 하드웨어 요구사항

다양한 플랫폼에서 Ollama로 Qwen 3.6을 실행하기 위한 필수 명령어, 설정 옵션, 하드웨어 요구사항.

필수 명령어

  • ollama run qwen3.6:35b-a3b – MoE 모델 실행 (기본 태그, 일반 GPU)
  • ollama run qwen3.6:27b – 밀집 모델 실행 (워크스테이션 GPU)
  • ollama pull qwen3.6:35b-a3b-q3_k_m – Q3 양자화 다운로드 (약 17GB, Mac M4 호환)
  • ollama pull qwen3.6:35b-a3b-q4_k_m – Q4 양자화 다운로드 (약 21GB, 균형형)
  • ollama serve – localhost:11434에서 API 서버 시작
  • ollama list – 다운로드된 모델과 크기 표시
  • ollama show qwen3.6:35b-a3b – 모델 상세 정보와 파라미터 확인

하드웨어 요구사항

  • 35B A3B Q3_K_M: 약 17GB VRAM (Mac M4 16GB 동작 확인)
  • 35B A3B Q4_K_M: 약 21GB VRAM (RTX 4090 24GB 권장)
  • 35B A3B BF16: 약 70GB VRAM (RTX 6000 96GB 또는 멀티 GPU)
  • 27B 밀집 Q4_K_M: 약 16GB VRAM (RTX 4090 24GB 최소)
  • 27B 밀집 IQ4_XS: KV 캐시 압축으로 16GB VRAM에 적합
  • macOS: Apple Silicon + Metal 가속 (M1 Pro 이상 권장)
  • 일반 하드웨어에서 35B A3B 4비트 20~40 토큰/초
  • CPU 폴백 가능하지만 상당히 느림 (약 2~5 토큰/초)

Qwen 3.5 대비 개선 사항

  • 비전/멀티모달 입력: 3.5에서 작동 불가, 3.6에서 완전 작동
  • 도구 호출/함수 실행: 3.5에서 작동 불가, 3.6에서 수정
  • 컨텍스트 처리 및 메모리 효율성 개선
  • 낮은 비트 폭에서 양자화 품질 향상

Qwen 생태계

Ollama는 로컬 Qwen 3.6의 가장 빠른 경로 – 명령어 하나, 전체 기능

자동 GPU 감지, 모델 관리, 비전 지원, 도구 호출, localhost:11434의 OpenAI 호환 API를 갖춘 원커맨드 설정으로 Claude Code, Aider, Continue.dev 등과 원활하게 통합됩니다.

Qwen 3.6 35B A3B

MoE 모델, 일반 GPU에서 20~40 토큰/초

로컬 실행

Qwen 3.6 27B

밀집 모델, 최대 로컬 성능

로컬 실행

Ollama 라이브러리

사용 가능한 모든 Qwen 모델 태그와 양자화 둘러보기

둘러보기

Modelfile 레퍼런스

모델 동작, 컨텍스트, 파라미터 커스터마이징

문서 읽기

API 레퍼런스

localhost:11434의 OpenAI 호환 API

API 보기

커뮤니티

Ollama와 Qwen 커뮤니티에서 도움 받기

참여하기

시작하기

Ollama로 Qwen 3.6을 실행할 준비가 되셨나요? 명령어 하나면 충분합니다

먼저 브라우저에서 Qwen 3.6을 체험한 후 Ollama를 설치하여 로컬 배포하세요. 'ollama run qwen3.6:35b-a3b'로 다운로드, 설정, 채팅 시작. 일반 하드웨어에서 20~40 토큰/초. 비전, 도구 호출, 코딩 도구 통합이 바로 작동합니다.