알리바바, 최신 추론 모델 'Qwen3-Max-Thinking' 공개

[아이뉴스24 윤소진 기자] 알리바바그룹은 최신 추론 모델 ‘Qwen3-Max-Thinking’을 28일 공개했다.

'Qwen3-Max-Thinking' 성능 평가 이미지. [사진=알리바바]

이 모델은 강화학습(Reinforcement Learning)을 위해 1조 개 이상의 파라미터로 모델 규모를 대폭 확장했다. 이를 통해 사실적 지식 처리, 복합 추론, 지시 수행, 인간 선호도 정렬, 에이전트 기능 등 여러 핵심 영역에서 성능 향상을 달성했다.

알리바바에 따르면 Qwen3-Max-Thinking은 총 19개 주요 벤치마크 평가에서 Claude Opus 4.5, Gemini 3 Pro, GPT-5.2-Thinking-xhigh 등 최신 고성능 모델들과 비교해 경쟁력 있는 선도적 성능을 입증했다. 과학·수학·코딩 문제 해결은 물론, 검색 도구를 활용해 다양한 분야의 전문가급 질문을 해결하는 평가 항목에서도 높은 수준의 결과를 보였다.

Qwen3-Max-Thinking의 차별화된 성능은 두 가지 핵심 기술 혁신에서 비롯된다. 첫째는 적응형 도구 활용(Adaptive Tool-use) 기능이다. 모델이 상황에 따라 정보를 검색하고 내장된 코드 인터프리터를 필요 시 자동으로 호출해 활용함으로써, 사용자가 도구를 직접 선택하지 않아도 보다 효율적인 문제 해결이 가능하도록 설계됐다.

둘째는 고도화된 테스트 단계 확장(Test-time Scaling) 기법이다. 이를 통해 추론 성능을 크게 향상시키고 주요 추론 벤치마크에서 다른 고성능 모델들을 상회하는 결과를 기록했다.

기존에는 작업마다 사용자가 도구를 직접 선택해야 했던 반면, Qwen3-Max-Thinking은 대화 중 검색, 메모리, 코드 인터프리터를 동적으로 선택·활용한다. 이러한 기능은 도구 활용을 위한 초기 미세 조정(fine-tuning) 이후, 규칙 기반(rule-based) 및 모델 기반(model-based) 피드백을 결합한 다양한 과제 학습을 통해 구현됐다.

/윤소진 기자(sojin@inews24.com)

알리바바, 최신 추론 모델 'Qwen3-Max-Thinking' 공개

적응형 도구 활용 기능·테스트 단계 확장 기법 도입

주요뉴스

댓글 쓰기 ^제목 알리바바, 최신 추론 모델 'Qwen3-Max-Thinking' 공개

댓글-

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순

적응형 도구 활용 기능·테스트 단계 확장 기법 도입

주요뉴스새로고침

댓글 쓰기 제목 알리바바, 최신 추론 모델 'Qwen3-Max-Thinking' 공개

뉴스톡톡 인기 댓글을 확인해보세요. 정렬 인기순 최신순

주요뉴스

댓글 쓰기 ^제목 알리바바, 최신 추론 모델 'Qwen3-Max-Thinking' 공개

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순