Qwen Code
실제 GitHub Issue를 해결하고, 터미널 워크플로를 마스터하며, SkillsBench에서 Claude를 능가하는 에이전트 코딩
Qwen 3.6 패밀리는 모든 차원에서 엘리트 코딩 성능을 제공합니다. Plus 모델은 SWE-bench Verified 78.8%, Terminal-Bench 2.0 61.6을 달성합니다. 27B 밀집 모델은 SWE-bench 77.2%, SkillsBench 48.2(Claude 4.5 Opus 45.3을 능가), QwenWebBench 프론트엔드 코드 생성 1487을 달성합니다. 35B A3B MoE는 일반 GPU에서 SWE-bench 73.4%를 실현합니다. 모든 모델이 OpenAI 호환 API를 통해 Claude Code, OpenClaw, Aider, Continue.dev에서 작동합니다. preserve_thinking은 반복적 개발을 위해 에이전트 루프 이터레이션 간 추론 상태를 유지합니다.
코딩 능력
터미널에서 프로덕션까지 풀스택 코딩 – 사고 보존 기능 포함
Qwen 3.6 모델은 소프트웨어 개발 라이프사이클의 모든 단계에서 뛰어납니다. 대규모 코드베이스 이해부터 코드 생성, 디버깅, 테스트, 터미널 워크플로를 통한 배포까지. preserve_thinking 파라미터는 반복적 개발 사이클 간 추론 컨텍스트를 유지합니다.
에이전트 코딩 (SWE-bench)
실제 GitHub Issue를 엔드투엔드로 자율적으로 해결합니다. SWE-bench Verified에서 78.8%(Plus)와 77.2%(27B)는 리포지토리 탐색, 근본 원인 식별, 수정 구현, 사람의 개입 없이 작동하는 패치 제출 능력을 보여줍니다. 35B A3B는 일반 GPU에서 73.4%를 달성합니다. 이 점수는 Qwen 3.6을 자율 소프트웨어 엔지니어링 최상위 모델에 위치시킵니다.
프론트엔드 코드 생성 (QwenWebBench)
27B 모델은 QwenWebBench에서 1487, 35B A3B는 1397을 달성하여 강력한 프론트엔드 코드 생성 능력을 보여줍니다. 적절한 TypeScript 타이핑, 접근성 속성, 반응형 레이아웃, 디자인 시스템 통합을 갖춘 완전한 React, Vue, Next.js 컴포넌트를 생성합니다. CSS-in-JS, Tailwind CSS, 컴포넌트 라이브러리 패턴을 처리합니다. preserve_thinking 파라미터는 멀티 파일 프론트엔드 스캐폴딩 전반에서 디자인 컨텍스트 유지에 도움을 줍니다.
터미널 작업 (Terminal-Bench)
Terminal-Bench 2.0에서 61.6(Plus)과 59.3(27B) – 전문가 수준의 터미널 마스터리. 복잡한 멀티스텝 셸 워크플로, 시스템 관리 작업, 디버깅 세션, CI/CD 파이프라인 관리, Docker 오케스트레이션, 인프라 자동화를 처리합니다. 35B A3B는 51.5를 달성 – 일반 GPU 모델로서는 여전히 강력합니다.
SkillsBench – Claude 4.5 Opus를 능가
27B 모델은 SkillsBench에서 48.2를 달성하여 Claude 4.5 Opus의 45.3을 능가했습니다. SkillsBench는 코드 리뷰, 리팩토링, API 설계, 테스트 전략, 아키텍처 의사결정을 포함한 실용적 코딩 스킬을 평가합니다. 이 벤치마크는 단순한 코드 생성이 아닌, 실제 개발에서 중요한 세밀한 엔지니어링 판단력을 측정합니다.
리포지토리 레벨 추론 (NL2Repo)
27B 모델은 NL2Repo에서 36.2를 달성하여 자연어 설명을 완전한 리포지토리 구조로 변환하는 능력을 보여줍니다. 파일 간 의존성, 모듈 경계, 아키텍처 패턴, 전체 리포지토리의 프로젝트 규칙을 이해합니다. 1M 컨텍스트 윈도우(Plus)는 전체 코드베이스를 한 번에 처리하여 포괄적인 이해를 가능하게 합니다.
코드 생성 (LiveCodeBench)
LiveCodeBench에서 83.9(27B)와 80.4(35B A3B)의 경쟁급 코드 생성. Python, TypeScript, Rust, Go, Java, C++ 및 20개 이상의 언어에서 적절한 에러 핸들링, 문서화, 테스트 커버리지를 갖춘 깔끔하고 관용적인 코드를 생성합니다. 알고리즘 문제, 데이터 구조 구현, 시스템 설계 과제를 처리합니다.
코딩 도구 통합
OpenAI 호환 API를 통해 Claude Code, OpenClaw, Aider, Continue.dev, Qwen Code에서 작동합니다. 베이스 URL을 DashScope, OpenRouter 또는 로컬 Ollama 엔드포인트로 설정하면 바로 코딩을 시작할 수 있습니다. preserve_thinking 파라미터는 이터레이션 간 추론 상태 유지가 불필요한 재추론을 줄이고 수정 정확도를 높이는 Claude Code와 OpenClaw 에이전트 루프에서 특히 가치가 있습니다.
디버깅, 테스트, Claw-Eval
27B 모델은 Claw-Eval 평균 72.4, 35B A3B는 68.7을 달성하여 엔드투엔드 에이전트 코딩 능력을 측정합니다. 복잡한 콜 스택을 통해 버그를 추적하고, 에러 로그에서 근본 원인을 식별하며, 포괄적인 테스트 스위트를 생성합니다. 모든 주요 언어와 프레임워크에서 유닛 테스트, 통합 테스트, E2E 테스트 프레임워크, 속성 기반 테스트를 지원합니다.
코딩 벤치마크
모든 코딩 평가에서 최상위 결과
Qwen 3.6 모델은 소프트웨어 엔지니어링, 코드 생성, 터미널 작업, 실용적 코딩 스킬 벤치마크에서 일관되게 최상위에 랭크됩니다.
소프트웨어 엔지니어링 벤치마크
- SWE-bench Verified: 78.8% (Plus) / 77.2% (27B) / 73.4% (35B A3B)
- Terminal-Bench 2.0: 61.6 (Plus) / 59.3 (27B) / 51.5 (35B A3B)
- SkillsBench: 48.2 (27B) – Claude 4.5 Opus (45.3) 능가
- Claw-Eval Avg: 72.4 (27B) / 68.7 (35B A3B)
- LiveCodeBench: 83.9 (27B) / 80.4 (35B A3B)
- QwenWebBench: 1487 (27B) / 1397 (35B A3B) – 프론트엔드 생성
- NL2Repo: 36.2 (27B) – 자연어에서 리포지토리
- SWE-bench Pro: 56.6 (Plus)
도구 및 모델 옵션
- 호환 도구: Claude Code, OpenClaw, Aider, Continue.dev, Qwen Code
- 27B 밀집: 최고의 오픈 웨이트 코딩, 77.2% SWE-bench
- 35B A3B MoE: 일반 GPU(약 21GB VRAM)에서 73.4% SWE-bench
- Plus: 78.8% SWE-bench, 1M 컨텍스트, preserve_thinking
- 프론트엔드: React, Vue, Next.js(TypeScript 지원)
- preserve_thinking: 에이전트 이터레이션 간 추론 유지
시작하기
Qwen 3.6으로 코딩 시작 – 다양한 경로 이용 가능
코딩 워크플로에 맞는 모델과 도구를 선택하세요. 브라우저 채팅부터 로컬 배포, API 통합까지.
통합 가이드
Qwen Code를 개발 워크플로에 통합
Qwen 3.6을 즐겨 쓰는 개발 도구, IDE, CI/CD 파이프라인에 연결하여 원활한 AI 지원 코딩을 실현하세요.