Qwen 3.6 API
preserve_thinking 탑재 OpenAI 호환 API – Claude Opus 4.6보다 12배 저렴
OpenAI 호환 API로 Qwen 3.6 Plus, Max 및 오픈 웨이트 모델에 액세스하세요. DashScope 요금은 qwen-plus 기준 100만 입력 토큰당 $0.40, 100만 출력 토큰당 $2.40으로 Claude Opus 4.6 대비 약 12배 저렴합니다. 기존 OpenAI 통합의 드롭인 대체로, preserve_thinking 파라미터를 통해 에이전트 루프 간 추론 상태를 유지할 수 있습니다. 1M 토큰 컨텍스트 윈도우에 최대 65,536 출력 토큰. DashScope 직접 및 OpenRouter(무료 프리뷰 티어 포함)에서 이용 가능합니다.
API 가이드
최소한의 코드 변경으로 Qwen 3.6을 애플리케이션에 통합
Qwen 3.6 API는 OpenAI 채팅 컴플리션 형식을 따르므로 기존 통합의 드롭인 대체로 사용할 수 있습니다. preserve_thinking 확장은 호환성을 깨뜨리지 않으면서 에이전트 기능을 추가합니다. DashScope의 배치 처리는 실시간 요금의 50%로 이용 가능합니다.
OpenAI 호환성
메시지, 도구, 스트리밍을 지원하는 표준 채팅 컴플리션 엔드포인트. 베이스 URL과 API 키만 변경하면 OpenAI에서 전환 가능 – 코드 변경 불필요. 함수 호출, JSON 모드, 구조화된 출력, 비전/멀티모달 입력을 지원합니다. Claude Code, OpenClaw, Aider, Continue.dev 및 OpenAI API 형식을 지원하는 모든 도구와 호환됩니다. 1M 컨텍스트 윈도우는 요청당 최대 65,536 출력 토큰을 지원합니다.
DashScope 요금
Alibaba Cloud의 DashScope 플랫폼을 통한 경쟁력 있는 가격의 직접 API 액세스. qwen-plus: 100만 입력 토큰당 $0.40, 100만 출력 토큰당 $2.40 – 동등한 작업에서 Claude Opus 4.6 대비 약 12배 저렴. 데이터 처리, 평가, 대량 생성 등 지연 시간에 민감하지 않은 워크로드를 위해 실시간 요금의 50%로 배치 처리 이용 가능. dashscope.aliyuncs.com에서 API 키를 발급받으세요.
OpenRouter 통합
OpenRouter의 통합 API를 통해 200개 이상의 다른 모델과 함께 Qwen 3.6 모델에 액세스하세요. qwen/qwen3.6-plus:free로 무료 프리뷰 티어 이용 가능(신용카드 불필요). 유료 티어는 패스스루 요금에 5.5% 수수료가 추가됩니다. 자동 폴백과 로드 밸런싱이 포함된 멀티 프로바이더 액세스를 위한 단일 API 키. OpenRouter가 속도 제한을 관리하고 모든 모델 프로바이더의 사용 분석을 제공합니다.
preserve_thinking 파라미터
에이전트 루프 반복 간에 모델의 내부 추론 상태를 유지하는 업계 최초의 API 확장 기능입니다. API 요청에서 preserve_thinking: true를 설정하면 멀티스텝 워크플로에서 불필요한 재추론을 줄일 수 있습니다. 일반적인 멀티스텝 작업에서 에이전트 파이프라인의 정확도를 높이고 토큰 사용량을 15~30% 절감합니다. Claude Code, OpenClaw 및 커스텀 에이전트 프레임워크에서 안정적인 에이전트 루프를 구축하는 데 필수적입니다.
배치 처리 (50% 할인)
DashScope는 즉각적인 응답이 필요 없는 워크로드를 위해 실시간 요금의 50%로 배치 처리를 제공합니다. 요청 배치를 제출하고 결과를 비동기적으로 조회할 수 있습니다. 데이터셋 처리, 모델 평가, 콘텐츠 생성 파이프라인 및 지연 시간이 중요하지 않은 모든 워크플로에 적합합니다. 배치 작업은 실시간 요청과 동일한 API 형식을 지원합니다.
1M 컨텍스트 윈도우
Qwen 3.6 Plus는 1M 토큰 컨텍스트 윈도우를 지원합니다. 전체 코드베이스, 긴 연구 논문, 법률 문서, 장시간 멀티턴 대화를 한 번에 처리하기에 충분합니다. 최대 65,536 출력 토큰과 결합하면 완전한 파일, 상세한 분석, 포괄적인 보고서를 잘림 없이 생성할 수 있습니다. 컨텍스트 윈도우는 DashScope와 OpenRouter 모두에서 이용 가능합니다.
SDK 및 프레임워크 지원
모든 OpenAI 호환 SDK에서 작동합니다: Python(openai), Node.js(openai), Go, Rust, Java 등. LangChain, LlamaIndex, AutoGen, CrewAI, Semantic Kernel 통합이 바로 사용 가능합니다. 커스텀 SDK 불필요 – 베이스 URL만 변경하면 됩니다. DashScope Python SDK는 배치 관리 및 사용량 추적 등 추가 기능을 갖춘 네이티브 액세스도 제공합니다.
셀프 호스팅 API 옵션
완전한 데이터 제어가 필요한 팀을 위해, Qwen 3.6 오픈 웨이트 모델(27B, 35B A3B)을 vLLM, SGLang 또는 KTransformers로 배포하여 자체 OpenAI 호환 API 엔드포인트를 만들 수 있습니다. DashScope 및 OpenRouter와 동일한 API 형식이므로 애플리케이션 코드 변경 없이 작동합니다. 하드웨어 투자 후 토큰당 비용은 제로입니다.
API 레퍼런스
Qwen 3.6 API 빠른 시작
DashScope 또는 OpenRouter로 Qwen 3.6 API를 시작하기 위한 주요 엔드포인트, 요금, 파라미터 및 설정.
주요 엔드포인트 및 기능
- POST /v1/chat/completions – 채팅 컴플리션 (스트리밍 지원)
- POST /v1/embeddings – 텍스트 임베딩
- GET /v1/models – 사용 가능한 모델 목록
- preserve_thinking: true – 추론 상태 유지 활성화
- 1M 컨텍스트 윈도우, 최대 65,536 출력 토큰
- 함수 호출, JSON 모드, 구조화된 출력, 비전
요금 (DashScope)
- qwen-plus 입력: 100만 토큰당 $0.40
- qwen-plus 출력: 100만 토큰당 $2.40
- 배치 처리: 실시간 요금의 50%
- 동등 작업에서 Claude Opus 4.6 대비 약 12배 저렴
- OpenRouter 무료 티어: qwen/qwen3.6-plus:free (신용카드 불필요)
- OpenRouter 유료: 패스스루 요금 + 5.5% 수수료
사용 가능한 모델
- qwen-3.6-plus – 플래그십, 1M 컨텍스트, preserve_thinking
- qwen-3.6-max – 고급 추론, 멀티모달
- qwen-3.6-27b – 밀집 오픈 웨이트, 최고의 코딩 성능
- qwen-3.6-35b-a3b – MoE 오픈 웨이트, 비용 효율적
- vLLM, SGLang, KTransformers로 셀프 호스팅
시작하기
몇 분 만에 Qwen 3.6 API로 개발 시작
API 키를 받고 첫 번째 요청을 보내세요. OpenAI 호환 형식이므로 익숙한 도구와 SDK로 바로 시작할 수 있습니다.
고급 사용법
preserve_thinking과 도구 호출로 에이전트 워크플로 구축
preserve_thinking 파라미터, 함수 호출, 1M 컨텍스트를 활용하여 복잡한 멀티스텝 에이전트 파이프라인과 프로덕션 애플리케이션을 구축하세요.