[아이뉴스24 윤소진 기자] 알리바바그룹은 최신 추론 모델 ‘Qwen3-Max-Thinking’을 28일 공개했다.
!['Qwen3-Max-Thinking' 성능 평가 이미지. [사진=알리바바]](https://image.inews24.com/v1/c01b9aa96927f6.jpg)
이 모델은 강화학습(Reinforcement Learning)을 위해 1조 개 이상의 파라미터로 모델 규모를 대폭 확장했다. 이를 통해 사실적 지식 처리, 복합 추론, 지시 수행, 인간 선호도 정렬, 에이전트 기능 등 여러 핵심 영역에서 성능 향상을 달성했다.
알리바바에 따르면 Qwen3-Max-Thinking은 총 19개 주요 벤치마크 평가에서 Claude Opus 4.5, Gemini 3 Pro, GPT-5.2-Thinking-xhigh 등 최신 고성능 모델들과 비교해 경쟁력 있는 선도적 성능을 입증했다. 과학·수학·코딩 문제 해결은 물론, 검색 도구를 활용해 다양한 분야의 전문가급 질문을 해결하는 평가 항목에서도 높은 수준의 결과를 보였다.
Qwen3-Max-Thinking의 차별화된 성능은 두 가지 핵심 기술 혁신에서 비롯된다. 첫째는 적응형 도구 활용(Adaptive Tool-use) 기능이다. 모델이 상황에 따라 정보를 검색하고 내장된 코드 인터프리터를 필요 시 자동으로 호출해 활용함으로써, 사용자가 도구를 직접 선택하지 않아도 보다 효율적인 문제 해결이 가능하도록 설계됐다.
둘째는 고도화된 테스트 단계 확장(Test-time Scaling) 기법이다. 이를 통해 추론 성능을 크게 향상시키고 주요 추론 벤치마크에서 다른 고성능 모델들을 상회하는 결과를 기록했다.
기존에는 작업마다 사용자가 도구를 직접 선택해야 했던 반면, Qwen3-Max-Thinking은 대화 중 검색, 메모리, 코드 인터프리터를 동적으로 선택·활용한다. 이러한 기능은 도구 활용을 위한 초기 미세 조정(fine-tuning) 이후, 규칙 기반(rule-based) 및 모델 기반(model-based) 피드백을 결합한 다양한 과제 학습을 통해 구현됐다.
/윤소진 기자(sojin@inews24.com)
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기