4 minutes
2025. 1. 16.

새로운 한국어 추론 벤치마크 HRM8K(HAE-RAE Math 8K)와 HRMCR(HAE-RAE Multi-Step Commonsense Reasoning)을 소개합니다! 각 벤치마크는 대규모 언어 모델(LLM)의 한국어 수학 추론 (mathematical reasoning) 능력과 상식 추론 (commonsense reasoning) 능력을 평가하기 위해 설계되었습니다. 이 포스트에서는 한국어 기반 LLM의 추론 능력을 평가하는 것의 중요성과 각 벤치마크에 대한 상세한 설명과 평가 결과에서 얻은 통찰을 이야기하고자 합니다.
논문과 벤치마크 데이터셋은 다음의 링크에서 확인하실 수 있습니다:
📝 HRM8K 논문: https://arxiv.org/abs/2501.02448
📝 HRMCR 논문: https://arxiv.org/abs/2501.05712
🤗 HRM8K 데이텃셋: https://huggingface.co/datasets/HAERAE-HUB/HRM8K
🤗 HRMCR 데이터셋: https://huggingface.co/datasets/HAERAE-HUB/HRMCR
부족한 한국어 추론 평가
최근 OpenAI의 o1, Anthropic의 Claude-3.5와 같은 강력한 LLM의 발전은 이 분야에 큰 혁신을 가져오고 있습니다. 이러한 발전은 영어에만 국한되지 않고, 한국어를 포함한 다국어 언어 모델의 개발에도 기여하고 있습니다. 이에 따라 한국어를 포함한 다양한 언어 환경에서 LLM의 성능을 체계적이고 공정하게 평가할 수 있는 벤치마크의 필요성이 그 어느 때보다 중요해지고 있습니다.
이를 해결하기 위해 LLM의 한국어 능력을 평가하기 위한 다양한 벤치마크가 개발되었습니다. 아래 표에서는 LLM의 한국어 능력을 평가하는 데 자주 사용되는 벤치마크를 보여주고 있고, 이를 크게 지식, 유창성, 그리고 추론의 세 가지 주요 범주로 나누어 설명하고자 합니다.

지식: 언어 모델이 한국어와 한국 문화에 대한 이해 및 처리 능력을 평가하기 위해 설계된 벤치마크. 이 벤치마크는 사회, 역사, 법률 등 한국의 지식과 문화를 다양한 측면에서 다루는 질문 세트로 구성되어 있음: CLIcK, HAE-RAE Bench, KMMLU, Ko-H5 등
유창성: 언어 모델의 한국어 지시 수행 능력과 유창성을 평가하기 위해 설계된 벤치마크들. 이러한 벤치마크는 주로 언어 모델이 평가자로서 응답의 품질과 정확성을 판단하는 "LLM-as-a-Judge" 방식을 사용함: KoMT-Bench, LogicKor 등
추론: 언어 모델의 한국어 추론 능력을 평가하기 위해 사용되는 벤치마크. 기본적인 한국어 지식부터 전문적인 지식과 논리적 추론을 요하는 복잡한 시나리오까지 다양한 문제로 구성되어 있음. 그러나 이러한 벤치마크는 시대에 뒤떨어져 있거나 특정 분야에 국한되어 있어 모델의 복잡한 추론 능력을 제대로 평가하기 어렵다는 한계가 있음: KoBEST, KMMLU, Ko-H5, KoCommonGen v2 등
이러한 벤치마크들은 주로 언어 이해, 일반 상식, 그리고 상식 추론과 같은 태스크에 초점을 맞추고 있어, 언어 모델의 핵심 능력 중 하나인 '추론 능력'을 제대로 평가하기 어렵게 만듭니다. 더불어, 대부분의 추론 벤치마크는 상식적인 추론에 집중되어 있으며, 접근성이 제한적이라는 점도 평가 과정에서 큰 걸림돌로 작용하고 있습니다.
이 문제를 해결하기 위해, 우리는 수학적 추론에 초점을 맞춘 HRM8K와 문화적 상식 추론을 다루는 HRMCR이라는 한국어 추론 벤치마크를 새롭게 선보입니다.
HRM8K: 한국어 수학 추론 벤치마크
HRM8K는 처음으로 공개된 한국어 수학 추론 능력 평가 벤치마크입니다. 이 벤치마크는 기존 영어 벤치마크(GSM8K, MATH, Omni-MATH, MMMLU)를 번역한 데이터와 한국 수학 시험 및 경시대회에서 수집된 문제 총 8,011개로 구성되어 있습니다.
벤치마크 개요
HRM8K 벤치마크는 두 개의 하위 집합으로 구성되어 있으며, 각각 한국어와 영어 데이터로 구성되어 있습니다. 영어-한국어 이중 언어 데이터셋을 만들기 위해, 두 하위 집합의 모든 항목을 GPT-4o로 번역한 뒤, 번역된 샘플의 품질을 보장하기 위해 사람이 직접 검토를 진행했습니다:
Korean School Math (KSM): 한국의 수학 시험 및 경시대회에서 수집된 1,428개의 수학 문제로 구성되어 있습니다. 모든 문제는 대상 연령과 상관없이 수학 올림피아드나 대회 수준의 시험에서만 수집되었습니다. 따라서 초등 과정 문제라 하더라도 해결하려면 일정 수준의 논리적 사고 능력이 요구됩니다. 문제는 다음의 소스에서 수동으로 스크린샷을 캡처한 후, GPT-4o API를 이용한 OCR 처리와 검증 과정을 거쳐 확보하였습니다.
출처: KMO (한국수학올림피아드), KJMO (한국주니어수학올림피아드), CSAT (대학수학능력시험), KMS (한국대학수학경시대회), and TQ (교원임용경쟁시험).
Prior Sets: 영어 수학 벤치마크에서 수집한 6,583개의 문제로 구성되어 있습니다. MATH와 Omni-MATH 데이터셋에서는 숫자 정답을 가진 문제만 남기고, 텍스트, 수식, 또는 증명이 최종 정답인 문제는 제외하였습니다. 또한, MMMLU 데이터셋에서는 수학 관련 하위 분야 중
abstract_algebra
,college_mathematics
,high_school_mathematics
세 가지로 한정하여 문제를 수집하였습니다.
실험 세팅
입력 언어와 추론 언어에 따른 모델 성능 변화를 분석하기 위해 세 가지 다국어 설정(입력 언어-to-추론 언어)에서 모델을 평가했습니다: Korean-to-Korean(K2K), Korean-to-English(K2E), English-to-English(E2E). English-to-Korean(E2K) 시나리오는 입력이 영어로 주어졌을 때 모델이 한국어 추론을 제대로 유지하지 못하는 경우가 많아 제외했습니다.
평가에는 한국어 처리 성능이 우수한 여섯 가지 다국어 언어 모델인 Qwen2.5 Instruct 모델(1.5B, 7B, 72B 파라미터) 세 가지와 Llama3.1/2 Instruct 모델(1B, 8B, 70B 파라미터) 세 가지를 사용하였습니다. 모델 답변 생성 시에는 temperature=0.7
, top_p=0.95
로 하이퍼파라미터를 설정하였습니다.
실험 결과

위의 표는 HRM8K 벤치마크에서 Qwen2.5와 Llama3.1/2 모델이 입력 언어와 추론 언어에 따라 보이는 성능 차이를 보여줍니다. 이 결과를 다음과 같이 세 가지의 주요 관찰점을 정리할 수 있습니다:
입력 언어의 영향: 한국어 입력(K2E)에서 완전히 영어로 구성된 입력(E2E)으로 전환하면 평균적으로 성능이 11% 증가합니다. 특히, Qwen2.5-7B와 Llama-3.1-8B 모델은 한국어 입력을 처리할 때 각각 10%와 13% 성능이 감소하는 것으로 나타났습니다. 이는 입력 언어가 모델 성능에 중요한 영향을 미친다는 것을 보여줍니다.
추론 언어의 영향: 반면, K2K와 K2E를 비교했을 때 평균 성능 차이는 1%에 불과해, 한국어 입력이 이미 주어진 상황에서는 추론 과정에서 사용하는 언어가 성능에 미치는 영향이 상대적으로 적음을 시사합니다. 즉, 모델이 영어로 사고 과정을 작성하도록 설정한다고 해도, 한국어 입력으로 인해 발생한 성능 저하를 완전히 회복하지는 못합니다.
다국어 추론 격차: 한국어(K2K) 환경에서 문제를 해결하는 경우와 영어(E2E) 환경에서의 문제 해결 성능을 비교했을 때, 영어 환경에서는 평균적으로 약 11% 성능이 더 우수했습니다. 이는 다양한 연구에서 논의된 다국어 추론 격차가 HRM8K 데이터셋에서도 분명하게 나타나는 것을 보여줍니다.
결론적으로, 한국어와 영어 간의 명확한 다국어 추론 격차가 존재하며, 문제를 이해하는 모델의 역량이 매우 중요한 요소임을 확인할 수 있습니다.
HRMCR: 한국 문화 추론 벤치마크
HRMCR is benchmark consists of cultural multi-step reasoning questions automatically generated using templates and algorithms. The questions in HRMCR require LLMs to recall diverse aspects of Korean culture and perform multiple reasoning steps to solve them.
HRMCR은 템플릿과 알고리즘을 활용해 자동 생성된 문화적 다단계 추론 질문으로 구성된 벤치마크입니다. HRMCR의 질문들은 대규모 언어 모델(LLM)이 한국 문화의 다양한 측면을 기반으로 여러 단계의 추론 과정을 통해 문제를 해결하도록 합니다.
벤치마크 개요
HRMCR은 두 개의 서브셋으로 구성되어 있으며, 각 서브셋에는 다단계 추론이 필요한 50개의 질문이 포함되어 있습니다. 각 하위 집합의 세부 사항과 예시는 다음과 같습니다.
날짜(Date): 두 문장의 질문으로 구성되며, 한국의 공휴일과 날짜 표현에 대한 지식을 활용하는 추론 문제들로 구성되어 있습니다. 해당 지식을 기반으로 간단한 산술 계산을 수행하고 음력과 양력을 변환해야 합니다. 각 질문은 총 네 단계의 풀이 과정을 요구합니다.
띠(Zodiac): 10~12줄에 이르는 긴 질문으로 구성되어 있습니다. 문제 해결을 위해 한국 나이와 한국어 대화에서 사용되는 다양한 나이 표현, 존칭을 이해하고 주어진 전제를 바탕으로 논리적 추론을 해야 합니다. 또한 나이로부터 띠를 추론하기 위해 산술 계산을 수행해야 합니다. 문제 해결에는 여섯 단계의 추론 과정이 필요하며, 이로 인해 날짜(Date) 서브셋보다 난이도가 높습니다.

위의 그림은 각 서브셋의 예시 질문(왼쪽)과 솔루션(오른쪽)을 보여주며, 상단에는 "Date" 서브셋이, 하단에는 "Zodiac" 서브셋이 나타나고 있습니다. 해당 문제들은 모두 한국어로 구성되어 있으며, 이미지는 영어로 번역된 문제입니다.

각 서브셋의 모든 질문은 템플릿을 활용한 전용 알고리즘으로 생성됩니다. 이 알고리즘은 질문을 단계별로 해결하면서 동시에 생성된 정답을 제공하는 솔루션 생성기를 기본적으로 포함하고 있습니다. 이러한 HRMCR의 독특한 특성 덕분에 다른 사설 또는 공공 데이터셋에 비해 새로운 데이터를 빠르고 손쉽게 생성하여 contamination으로부터 자유롭다는 장점을 가지고 있습니다.
실험 세팅
We evaluate a total of 20 LLMs, including both proprietary (o1, GPT-4o, Claude-3.5) and open-source (Qwen2.5, Llama3, EXAONE-3.5, DeepSeek-V3) models. For evaluation process, we employ GPT-4o as an LLM-as-a-Judge. The judge reviews each question alongside the model-generated response and the gold step-by-step solution. It first provides a brief comparison with the gold solution and then assesses whether the model’s response is correct. In cases of incorrect responses, the judge pinpoints the specific step where the error occurred. All evaluations were conducted using greedy decoding.
총 20개의 Proprietary 모델(o1, GPT-4o, Claude-3.5)과 오픈소스 모델(Qwen2.5, Llama3, EXAONE-3.5, DeepSeek-V3)을 평가하였습니다. 평가 과정에서는 GPT-4o를 'LLM-as-a-Judge'로 활용하여, 각 질문에 대해 모델이 생성한 응답과 정답이 포함된 단계별 솔루션을 함께 검토하도록 하였습니다. 이 과정을 통해 Judge 모델은 먼저 정답과 모델의 응답을 간략히 비교한 후, 응답이 정확한지 평가합니다. 만약 응답이 틀린 경우, 오류가 발생한 구체적인 단계를 지적합니다. 모든 평가는 greedy decoding 방식으로 진행되었습니다.
실험 결과

위 표는 HRMCR에 대한 평가 결과를 보여주며, 각 모델 계열에서 성능이 가장 뛰어난 표시되어 있습니다. 평가 결과에서 다음과 같은 세 가지 주요 관찰점을 도출할 수 있었습니다:
HRMCR의 높은 난이도: GPT-4o, DeepSeek-V3, Claude-3.5-Sonnet과 같은 고성능 모델조차도 30% 미만의 점수를 기록했습니다. 이는 HRMCR이 전문적인 도메인 지식이 아니라 고정된 결정론적 규칙을 기반으로 설계되었음에도 불구하고 상당한 난이도인 것을 보여줍니다.
추론 단계 확장의 효과: O1 모델은 평균 점수 45를 달성하며, inference-time scaling이 이전에 경험하지 못한 도메인에도 효과적으로 일반화될 수 있음을 시사합니다.
계산 자원의 중요성: EXAONE-3.5-32B는 모델 크기에도 불구하고 HRMCR에서 거의 0에 가까운 성능을 보였습니다. 반면, 다음 그림에서 볼 수 있듯이(X축: ExaFLOP(10^18) training compute, Y축: HRMCR 성능), Qwen-2.5-14B는 상대적으로 작은 모델 크기에도 더 높은 training compute 덕분에 EXAONE-3.5-32B보다 우수한 성능을 보여주었습니다. 이는 HRMCR 문제 해결에 단순한 모델 크기뿐만 아니라 고도화된 훈련 전략과 충분한 계산 자원이 필요하다는 것을 의미합니다.

Conclusion
한국어 추론 평가 벤치마크의 부족을 해결하기 위해, 수학적 추론 평가를 위한 HRM8K와 문화적 상식 추론 평가를 위한 HRMCR을 소개합니다. 본 포스트에서는 해당 벤치마크를 활용해 다양한 모델을 평가하고, 한국어와 다국어 환경에서의 추론 능력을 분석했습니다. 이를 통해 다국어 추론 격차와 모델 성능에 있어 컴퓨팅 자원의 역할 등 여러 흥미로운 발견을 하였습니다.
이번 연구는 LLM의 한국어 추론 능력을 더욱 깊이 탐구할 수 있는 가능성을 보여줍니다. HRM8K와 HRMCR의 도입이 한국어 LLM 커뮤니티에 기여하고, 이 분야의 향후 연구에 도움이 되기를 기대합니다. 해당 벤치마크에 대해 궁금한 점이 있으시면 spthsrbwls123@yonsei.ac.kr로 언제든지 문의해 주시길 바랍니다.