4 minutes
2025. 1. 13.

OLAF v2를 소개합니다.

Hugging Face 모델 공개: https://huggingface.co/OLAResearch/OLAF2-14B
OnelineAI에서 독자적으로 개발한 Qwen2.5를 기반으로 한 한국어 언어 모델 OLAFv2를 소개합니다! OLAFv2는 14B와 1.5B 두 가지 버전으로 제공되며, 두 버전 모두 정교한 수학 및 STEM 문제를 해결하기 위한 추론 특화 모드 (Reasoning Mode)를 갖추고 있습니다. 또한, 최대 32K의 context length를 지원하여 RAG (Retrieval-Augmented Generation) 및 도구 기반 애플리케이션에 적합하도록 제작되었습니다. 모델 학습 과정에서는 반복적인 데이터 생성과 안전성 (Safety) 및 거부 (Refusal) 메커니즘에 중점을 두어 환각 (Hallucination)을 줄이고 신뢰도를 높였습니다.
Reasoning Mode

OpenAI o1의 추론 메커니즘으로 거론되는 추론 시간 스케일링 (Inference-Time Scaling)의 발전에 힘입어, OLAFv2는 Reasoning mode에서 더욱 길고 세부적인 추론 과정을 생성하도록 설계되었습니다. 학습 시점의 컴퓨팅 자원 대신 테스트 시점의 컴퓨팅 자원 확장에 주력하는 추론 시간 스케일링으로, 소형 모델도 그 잠재력을 최대한 발휘할 수 있게 됩니다. 이는 대규모 모델을 배포하기 어려운 하드웨어 제약이 걸린 환경에서 특히 유리합니다. 자세한 내용은 최근에 포스팅한 HRM8K 블로그의 “Scaling Test-Time Compute” 섹션을 참고하시기 바랍니다.

OLAFv2의 Reasoning mode는 복잡한 한국어 수학 추론 문제로 구성된 HRM8K 벤치마크에서 성능을 43.8에서 45.8로 크게 향상시켰습니다. 이 기능을 통해 소형 모델도 대형 모델에 근접한 추론 성능을 달성하면서, 자원이 제한된 소형 사내 서버 환경에서도 강력한 추론 기능을 제공하는 고품질 언어 모델을 활용할 수 있습니다.
Evaluation

Reasoning(추론), Knowledge(지식), Fluency(유창성) 이렇게 3가지의 카테고리에서 OLAF2 모델을 평가하였습니다.
Reasoning — HRM8K
→ HRM8K는 8,011개의 영어-한국어 수학 문제로 이루어진 벤치마크로, 다국어 수학적 추론 역량을 평가하기 위해 설계되었습니다. 이 벤치마크에는 영어 수학 벤치마크와 한국어 수학 경시대회 및 시험 등 다양한 출처의 문제가 포함되어 있어, 두 언어에서의 문제 해결 능력을 평가할 수 있습니다.
Knowledge — KMMLU
→ KMMLU는 한국어 언어 모델의 역량을 평가하기 위해 고안된 종합 벤치마크로, 45개 과목에 걸친 총 35,030개의 전문가 수준 객관식 문제 (Multiple-Choice Question Answering, MCQA)로 구성되어 있습니다. 이 벤치마크는 모델의 전문 분야별 추론 능력, 일반 지식 역량, 한국 문화적 지식을 중점적으로 평가합니다.
Fluency — LogicKor
→ LogicKor는 모델의 사고 능력을 측정하기 위해 설계된 한국어 다중 도메인 추론 벤치마크로, 추론, 수학, 글쓰기, 코딩, 이해, 문법의 여섯 가지 핵심 영역을 다룹니다. LLM을 심사자로 활용하는 LLM-as-a-Judge 방식을 활용하여 각 영역에서 다양한 작업을 포함한 42개의 다중 턴 (Multi-turn) 프롬프트를 평가합니다. 이를 통해 LogicKor는 복잡하고 다양한 한국어 도전 과제를 처리하는 모델의 역량을 종합적으로 평가합니다.

*은 EXAONE3.5 Techincal Report에서 발췌한 점수를 의미함
**은 LogicKor 공식 리더보드에서 발췌한 점수를 의미함
그 외의 점수는 공식 구현 코드를 사용하여 재평가한 결과
Key Takeaways
OLAFv2

(Standard Mode): Standard mode에서 OLAFv2(14B 파라미터)는 43.8점을 HRM8K에서 기록하며, 크기가 두 배 이상 큰 EXAONE-3.5-32B-Instruct(41.4)를 능가하는 성능을 보여줍니다. 이는 OLAFv2가 전용 추론 모드를 사용하지 않아도 뛰어난 추론 능력을 갖추고 있음을 시사합니다. KMMLU에서는 OLAFv2가 54.21점을 기록하며, 훨씬 더 큰 모델인 Llama-3.1-70B-Instruct(60.83) 바로 아래에 위치하면서도 EXAONE-3.5-32B-Instruct(47.63)를 크게 앞섭니다. 또한, LogicKor에서는 8.51점을 기록해 EXAONE-3.5-32B-Instruct(9.06)에 이어 두 번째로 높은 평가 결과를 거두며, OLAFv2가 상대적으로 작은 크기에도 불구하고 유창하고 일관된 출력을 생성하는 뛰어난 능력을 보여줍니다.

(Reasoning Mode): Reasoning mode에서 OLAFv2는 45.8점을 HRM8K 벤치마크에서 기록하며 Llama-3.1-70B-Instruct(45.6)와 Qwen2.5-32B-Instruct(44.4)와 같은 더 큰 모델들을 능가하는 최고 점수를 달성했습니다. 이는 Reasoning mode를 통한 추론 과정이 복잡한 추론 작업을 처리하는 데에 효과적이라는 것을 입증합니다.
OLAFv2-Mini

(Standard Mode): Standard mode에서 OLAFv2-Mini는 35.9점을 HRM8K에서 달성하며, 소형 모델임에도 불구하고 뛰어난 추론 성능을 보여줍니다. KMMLU에서는 44.77점을 기록하며, EXAONE-3.5-2.4B-Instruct(42.39)와 같은 다른 소형 모델을 능가하며 강력하고 효율적인 지식 표현 능력을 입증합니다. LogicKor(유창성)에서는 7.4점을 기록하며, 소형 모델로서 합리적인 유창성을 제공하지만, 상위 대형 모델들보다는 약간 뒤처집니다.

(Reasoning Mode): Reasoning mode에서 OLAFv2-Mini는 38.0점을 HRM8K에서 기록하며, Reasoning mode가 소형 모델에서도 효과적으로 작동하면서 강력한 성능을 보여주었습니다. 이는 Reasoning mode와 테스트 시 계산 확장 (Test-time Scaling)의 이점을 더욱 잘 보여줍니다.