4 minutes
2025. 1. 30.
"LLM-as-a-Judge & Reward Model: What They Can and Cannot Do" 논문을 기반으로 LLM의 한국어 및 한국 문화 이해 능력과 지식을 평가하는 K2-Eval에 관한 내용을 다루고 있습니다. 해당 논문은 GOOD-DATA @ AAAI 2025 학회에 게재되었습니다.
이 시리즈는 원라인에이아이 AI에서 발표한 논문을 리뷰합니다. 논문과 관련해서 궁금한 내용이 있다면 원라인에이아이 AI팀에게 문의주시기 바랍니다.
LLM-as-a-Judge & Reward Model, 신뢰해도 되는 걸까?
최근 AI 연구에서 LLM-as-a-Judge와 Reward Model이 사람 평가자를 대체하는 방법으로 주목받고 있습니다. 기존의 자동 평가 방법이 단순한 정답 여부 판단에 그쳤다면, LLM을 이용한 평가는 긴 서술형 답변의 품질을 정량화하고, 리더보드에서 모델의 성능을 측정하는 주요 도구로 활용됩니다. 특히 강화 학습을 통한 모델 정렬(Alignment)에서 중요한 역할을 하며, OpenAI의 ChatGPT나 Anthropic의 Claude 같은 대형 AI 시스템의 발전에도 영향을 미치고 있습니다.
하지만, 과연 LLM 기반 자동 평가 시스템이 완벽한 대안이 될 수 있을까요? ****OnelineAI 연구팀은 한국어와 영어로 이루어진 bilingual meta-evaluation 데이터셋인 KUDGE를 제안하며, LLM-as-a-Judge와 보상 모델이 가지는 가능성과 한계를 비영어권 언어(한국어) 평가, 사실 검증, 복잡한 추론 문제에서의 취약점을 집중적으로 탐구하였습니다. KUDGE 데이터셋에서의 분석 결과를 간략히 정리하면 다음의 그림과 같습니다:

영어 평가 능력이 다른 언어 평가에도 강한 영향을 미치며, 영어에서 잘 작동하는 평가 모델이 한국어에서도 유사한 성능을 보이는 경향이 있음.
하지만, 사실 검증과 문화적 맥락에 대한 이해가 부족하여 잘못된 정보나 편향된 내용을 제대로 걸러내지 못하는 문제가 존재함.
LLM 기반 평가 모델들은 단순한 문장 비교에는 강하지만, 복잡한 논리적 추론이 필요한 질문에서는 제대로 평가하지 못하는 한계가 있음.
본 포스팅에서는 KUDGE 데이터셋과 함께 LLM-as-a-Judge와 Reward Model의 활용성에 대해 자세하게 알아보도록 하겠습니다.
KUDGE: 자동화 평가 방법의 평가를 위한 한국어 & 영어 벤치마크
KUDGE 벤치마크는 LLM-as-a-Judge와 Reward Model 같은 자동화된 평가 방법론이 모델의 응답을 정확하고 공정하게 평가할 수 있는지를 검증하기 위해 고안된 한국어 & 영어 bilingual 벤치마크 데이터셋입니다. 대부분의 한국어 Long-form Question Answering 벤치마크 데이터셋이 MT-Bench를 기반으로 번역되어 주로 영어에 초점이 맞춰져 있었던 반면, KUDGE는 한국어 평가의 정밀도를 높이고, AI 모델의 다국어 평가 능력을 분석하는 것을 목표로 합니다. 이 벤치마크는 다음과 같이 “Original”, “Challenge” 두 가지 서브셋으로 구성되어 있습니다.
Original Subset (Korean Only)
Original Subset은 9개의 한국 지식 카테고리와 7개의 추론 능력 카테고리에 걸친 90개의 직접 제작한 한국어 질문으로 구성되어 있는 한국의 문화적 요소를 반영한 서브셋입니다. 총 31개의 LLM을 활용하여 다양한 응답을 생성하고, 15명의 사람 평가자가 직접 평가한 레이블로 구성되어 있습니다. 해당 서브셋은 다음의 두 카테고리로 나뉩니다.
Pointwise Subset
단일 언어 모델의 응답에 대해 1~5점의 Likert Scale로 절대적 평가를 수행함.
Pairwise Subset
두 언어 모델의 응답에 대해 더 나은 답변을 선택하여 상대적 평가를 수행함.
서로 다른 모델에 대해 3점 이상을 받은 응답을 chosen, 2점 이하의 응답을 rejected로 선정함.
Challenge Subset (Korean & English)
Original Subset은 대부분 문화 관련 문제들로 구성되어 STEM 계열의 문제가 부족하다는 문제점을 가지고 있습니다. 이러한 문제를 해결하기 위해 한국어와 영어 bilingual 데이터로 구성되어 있는 Challenge Subset을 제작하였습니다.
Pairwise-Easy
MMLU의
college physics
,college mathematics
,high school chemistry
,high school geography
서브셋에서 추출된 문제로 구성.EXAONE-3.0-7.8B-Instruct
가 생성한 정답 & 오답을 각각 chosen & rejected response로 사용
Pairwise-Hard
GPQA에서 추출된 문제로 구성.
gpt-4o
가 생성한 정답 & 오답을 각각 chosen & rejected response로 사용
KUDGE Experiments
KUDGE Original Subset 평가 결과

20개 모델에 대한 KUDGE Original Subset 평가 결과는 위의 표와 같습니다. 평가 결과를 통해 다음과 같은 분석 결과를 얻었습니다.
상업용 모델(GPT-4o, Claude-3.5-Sonnet)과 큰 사이즈의 모델(Llama-3.1-405B-Instruct, Mistral-Large-Instruct)은 비슷하게 준수한 성능을 보였지만, Pointwise 카테고리에서 대부분의 모델이 0.6 이하의 Pearson Correlation을 보여주면서 아직 부족한 성능을 보였음.
모델 사이즈가 성능에 중요한 영향을 미치는 것은 맞지만, 학습 데이터 퀄리티, 데이터셋 사이즈, 학습 비용 등의 요소도 중요하게 작용함.
평가 능력이 다른 언어로 전이될 수 있을까?
앞선 KUDGE Original Subset의 평가 결과를 보면, 대부분의 모델이 영어로 학습되었음에도 불구하고, 한국어 평가를 준수하게 진행하는 것을 확인할 수 있습니다. 이러한 관점에서 “평가 능력이 다른 언어로도 전이될 수 있을까?”의 의문점을 해결하기 위해 언어 모델이 영어에서 학습한 평가 능력을 한국어와 같은 전혀 다른 언어에서도 발휘할 수 있는지를 실험했습니다. 실험을 위해 KMMLU를 활용하여 모델의 한국어 성능을 평가하였고, RewardBench를 활용하여 영어 평가 능력을 평가하여 KUDGE score 간의 regression을 계산하였습니다.
Regression 계산 결과 KMMLU 점수보다 Reward Bench 점수가 더 높은 R2 value를 보여주면서 한국어 능력이 부족함에도 불구하고 영어 평가를 더 잘하는 모델이 더 좋은 KUDGE 성능을 가진다는 것을 보여줍니다. (해당 결과는 아래의 그림을 통해 확인하실 수 있습니다.)

추가적인 분석을 위해 영어 데이터로 학습된 Mistral-7B & Mixtral-8x7B 모델과 해당 모델에 대해 영어 평가 능력을 학습시킨 Prometheus2-7B & Prometheus2-8x7B 모델의 KUDGE 성능을 분석하였습니다. 두 모델군 간에는 영어 평가 학습 여부의 차이밖에 없음에도 불구하고, KUDGE 성능과 correlation, Failure case가 크게 향상되는 것을 확인할 수 있습니다. 이는 평가 능력 학습이 영어로 진행되었음에도 불구하고, 다른 언어로 확장될 수 있다는 점을 시사합니다.

LLM이 거짓 정보를 감지할 수 있을까?
앞선 분석을 통해 영어로 학습된 모델의 평가 능력이 다른 언어로도 전이된다는 점을 확인하였지만, 거짓 정보를 탐지해낼 수 있는지에 대해서는 아직 불분명합니다. 이를 확인하기 위해 human annotator가 단어, 문장, 문단 단위로 거짓 정보를 삽입한 응답에 대해서 모델이 어떻게 평가하는가를 확인하였습니다. 평가는 gpt-4o
, Claude-3.5-Sonnet
에 대해서 진행되었으며, Pointwise와 Pairwise 두 가지 방식으로 평가했습니다.
Pointwise 평가: LLM이 개별 응답을 평가하고, 피드백을 생성하여 거짓 정보를 감지하는지 확인. 두 모델 모두 거짓 정보를 탐지하는데 어려움을 겪었고, 문단 수준의 오류는 상대적으로 감지가 쉬웠으나, 단어 수준의 작은 변경은 거의 감지하지 못했음.
Pairwise 평가: 원본 응답과 거짓 정보를 포함한 응답을 비교하고 올바른 응답을 선택하는지 확인. Pointwise보다 전반적으로 나은 성능을 보여줬지만, 작은 사이즈의 Reward Model은 50% 이하의 정확도를 보여주며, 사실 확인 능력이 낮았음.

모델 평가 결과에 대한 분석은 다음과 같습니다.
LLM의 거짓 정보 탐지 능력 부족. 문장이나 문단에서는 어느 정도 정확도를 보여주지만, 단어 수준의 작은 변경은 거의 탐지하지 못했습니다. 이는 LLM이 ‘사실 검증’ 보다는 ‘논리적 일관성 평가’에 좀 더 초점을 맞추고 있기 때문으로 보입니다.
Pairwise 방식의 효과. 원본 응답과 거짓 정보를 포함한 응답을 주고 Pairwise 평가를 진행하면 거짓 정보를 탐지하는 정확도가 늘어납니다.
Reward Model의 사실 검증 부적합. Reward Model은 거짓 정보를 포함한 응답을 거의 구별하지 못하며, 이는 Reward Model이 주로 인간의 선호도를 학습하는데 최적화되어 있기 때문일 가능성이 큽니다.
LLM이 고난도 문제에 대해서도 잘 평가할 수 있을까?
일반적으로 어떤 문제의 정답이 맞는지를 평가하려면 그 문제를 해결할 수 있어야 합니다. 이러한 직관적인 가정을 바탕으로, LLM이 어려운 질문을 스스로 해결하지 못한다면 이를 정확히 평가하는 것도 어려울 것이라고 가정하며, 이를 검증하기 위해 KUDGE Challenge 데이터셋을 활용하여, 문제의 난이도가 모델의 평가 능력에 어떤 영향을 미치는지를 실험했습니다.
실험 결과 모델의 평가 성능은 질문의 난이도에 따라 큰 차이를 보이는 것을 확인하였습니다.
Easy 카테고리의 비교적 높은 정확도. 대부분 70% 이상의 성능을 보였으며, Reward Model도 LLM-as-a-Judge와 비슷한 수준의 성능을 보여줬음.
Hard 카테고리의 큰 성능 저하. 대부분의 모델이 낮은 성능을 보였고, 일부 Reward Model은 랜덤 추측(50%)보다 낮은 성능을 기록함.

결과에 대한 분석은 다음과 같습니다.
모델 자체의 문제 해결 능력 부족. 모델이 답을 평가하려면 우선 해당 문제를 해결할 수 있어야 하는데, 그러지 못하여 평가가 부정확해졌을 가능성이 있습니다.
모델 크기의 한계. 대부분의 Reward Model 크기가 LLM-as-a-Judge보다 작아서 Hard 카테고리에서 낮은 성능을 보였을 수 있습니다
LLM-as-a-Judge & Reward Model의 향후 방향성
LLM-as-a-Judge & Reward Model의 역할은 LLM의 평가 및 보정에 있어 점점 더 중요해지고 있습니다. 본 연구는 이러한 자동화된 평가 모델이 갖는 한계를 명확히 보여줍니다.
주요한 발견 중 하나는 영어로 학습된 평가 모델이 한국어에서도 일정 수준의 평가 능력을 유지한다는 점입니다. 이는 평가 능력이 특정 언어에 종속되지 않고 어느 정도 언어 불문 공통적으로 작용할 수 있음을 시사합니다. 하지만 이러한 자동화된 평가 모델들은 사실 검증, 문화적 표현의 정확성, 그리고 복잡한 논리적 질문을 평가하는 데 있어서 심각한 한계를 드러냈습니다. 특히, 모델들이 거짓 정보를 탐지하고 이에 대한 적절한 패널티를 부여하는 능력이 매우 부족하다는 점은 우려할 만한 요소입니다.
또한, 최신의 강력한 LLM들도 난이도가 높은 질문(GPQA와 같은 문제)을 제대로 평가하지 못하는 것으로 나타났습니다. 이는 단순히 모델의 크기와 연산 능력의 문제라기보다는, 현재의 평가 시스템이 더 깊은 논리적 사고를 요하는 질문을 제대로 이해하고 판별하는 데 한계를 가지고 있기 때문입니다.
결론적으로, LLM을 평가하는 자동화된 방법론이 점점 발전하고 있지만, 여전히 인간 평가자의 역할을 완전히 대체하기에는 부족함이 많습니다. 향후 연구는 평가 모델이 보다 정밀하게 사실 검증을 수행하고, 문화적 맥락을 이해하며, 난이도 높은 질문을 공정하고 정확하게 평가할 수 있도록 발전하는 방향으로 나아가야 할 것입니다.
Reference
📝 Paper: https://arxiv.org/abs/2409.11239