4 minutes
2025. 1. 16.

O1, QwQ, Deepseek-R1 같은 모델들이 뛰어난 추론 능력을 선보이며 Test-Time Scaling 방법론이 최근 흥미로운 연구 분야로 주목받고 있습니다. Test-Time Scaling은 Best-of-N, Monte Carlo Tree Search, Reflective Tuning 등 다양한 접근법을 통해 구현할 수 있습니다. 이번 포스트에서는 당사의 주력 모델인 OLAF2-14B에 Test-Time Scaling 기법을 적용해 얻은 초기 연구 결과를 공유하고자 합니다.
Experimental Setup
다음의 그래프는 X 축에 평균 thought token의 수를 기록한 Deepseek의 test-time scaling 결과입니다.

Deepseek의 test-time scaling 실험은 단일 방법론을 사용한 반면, 우리는 여러 스케일링 방식을 동시에 적용하는 방법을 사용하였습니다. 이 과정에서 토큰 수를 계산하는 데 어려움-일부 토큰이 다른 토큰보다 더 높은 비용이 발생-이 있습니다. 이를 해결하기 위해 토큰 수 대신 보다 일관된 지표인 FLOPs (Floating Point Operations)를 활용하였습니다. FLOPs의 계산은 Scaling Laws for Neural Language Models 논문에서 제시된 접근법을 따랐으며, 단일 포워드 패스에 대한 FLOPs는 다음과 같이 계산할 수 있습니다:

위 수식의 각 변수들은 다음과 같은 의미를 가집니다:
n_{layer}
: 모델 레이어의 수d_{model}
: residual stream의 차원(디멘션) 수n_{ctx}
: input context의 토큰 수
당사에서 제안한 Test-Time Scaling 방법을 HRM8K의 서브셋인 GSM8K와 Omni-MATH를 통해 평가하였습니다. 두 서브셋은 다음과 같은 이유로 선택하였습니다. (향후 더 다양한 벤치마크에서의 결과를 발표 할 예정입니다.) :
난이도 다양성: GSM8K는 비교적 쉽고, 초중등 수준의 수학 문제를 다루는 반면, Omni-MATH는 올림피아드 수준의 매우 어려운 문제를 다룹니다.
간편한 평가: 두 서브셋은 모두 정답이 실수인 문제들로만 구성되어 있기 때문에 간편하게 평가를 진행할 수 있습니다.
벤치마크에 대한 세부사항이 궁금하다면, HRM8K 논문을 참고하길 바랍니다.
Evaluation Results
GSM8K와 Omni-MATH 벤치마크에서의 평가 결과는 놀랍게도 테스트 시점에서 계산 자원을 대폭 늘리는 것이 OLAF2-14B의 성능 향상에 크게 도움이 된다는 것을 보여줍니다. 그리고 이러한 성능 향상의 효율성은 계산 자원을 활용하는 방식에 크게 좌우됩니다. 이를 실험 세팅의 극한까지 확장했을 때, OLAF2-14B는 두 가지 평가 지표에서 GPT-4o를 능가하는 결과를 보여줍니다.

