4 minutes
Jan 29, 2025
"K2-Eval: Harnessing the Evaluation of Linguistic Fluency and Ethnolinguistic Knowledge in Korean" 논문을 기반으로 LLM의 한국어 및 한국 문화 이해 능력과 지식을 평가하는 K2-Eval에 관한 내용을 다루고 있습니다. 해당 논문은 C3NLP @ ACL 2024 학회에 게재되었습니다.
이 시리즈는 원라인에이아이 AI에서 발표한 논문을 리뷰합니다. 논문과 관련해서 궁금한 내용이 있다면 원라인에이아이 AI팀에게 문의주시기 바랍니다.
언어적 & 문화적 모델 평가
현대 인공지능 기술이 점차 발전하면서, 다양한 언어와 문화적 맥락을 이해하고 처리할 수 있는 거대 언어 모델 (LLM)의 중요성이 강조되고 있습니다. 하지만 지식 평가, 언어 번역, 텍스트 생성 능력만으로는 언어를 온전히 이해하고 활용한다고 보기 어렵습니다. 특정 언어를 이해한다는 것은 해당 언어를 사용하는 국가의 전통, 풍습, 문화, 견해 등을 포괄적으로 이해하고 활용한다는 것이기 때문입니다.
이러한 배경에서 등장한 K2-Eval은 LLM의 언어적 유창성뿐만 아니라, 한국어를 사용하는 지역의 문화적 맥락과 언어적 지식을 얼마나 잘 반영하는지를 평가합니다. K2-Eval은 90개의 사람이 직접 작성한 지시문을 통해 한국 문화와 언어적 맥락을 깊이 이해해야만 정확히 해결할 수 있는 문제를 제시하며, 이를 통해 한국어에 특화된 언어 모델의 성능을 검증할 수 있도록 고안되었습니다.
K2-Eval: Korean Language & Korean Culture Evaluation
K2-Eval은 다른 Language Fluency 벤치마크들과 다음과 같은 차이점을 지닙니다. 영어권에서 많이 사용되는 MT-Bench와 Vicuna Instructions 80은 영어 벤치마크로 한국과 관련 없는 내용들로 구성되어 있습니다. 한국어에 대한 Language Fluency 평가를 위해 개발된 LogicKor도 한국어로는 구성되어 있으나, 한국의 문화권과 관련된 내용으로 구성되어 있지는 않습니다. 반면에 K2-Eval은 한국어로 작성되고 한국 문화와 관련된 내용의 문제들로 구성되어 있어 언어 및 문화 양면에서 종합적으로 모델을 평가할 수 있습니다.

K2-Eval은 다음의 표와 같이 9개의 Korean knowledge와 7개의 Reasoning capability에 걸친 문제로 구성되어 있으며, 한 가지 도메인에 집중하지 않고 다양한 주제와 추론 능력을 평가할 수 있도록 제작되었습니다. 각 문제에 대한 ground-truth 정답은 GPT-4와 Web search를 동반하여 제작되었으며, 모든 문제들은 정확도를 위해 human review까지 함께 진행하였습니다.

K2-Eval을 활용하여 30개의 open & closed-source 언어 모델에 대해 한국어 및 한국 문화 평가를 진행하였습니다. K2-Eval의 평가는 여타 다른 Language Fluency 벤치마크들과 마찬가지로 GPT-4를 LLM-as-a-judge로 활용하는 방식으로 평가할 수 있습니다. 하지만 보다 정확한 평가를 위해 약 5,400개의 모델 응답 결과를 human evaluator들이 직접 평가하였습니다. 모델 응답은 평가 기준에 따라 1-5 Likert scale로 평가되며, human evaluator의 편향을 방지하기 위해 하나의 모델 응답에 대해 서로 다른 평가자가 평가하여 두 annotator 간의 평균을 최종 스코어로 계산하였습니다. 최종 평가 결과는 다음의 그림과 같습니다.

평가 결과를 보면 한국어 데이터에서의 Instruction-tuning이 K2-Eval에서 효과적으로 작용한다는 것을 확인할 수 있습니다. SOLAR-10.7B-Instruct를 base model로 하는 EEVE-Korean-Instruct-10.8B와 KULLM3는 Command-R-Plus-104B와 Mixtral-8X22B-Instruct보다 훨씬 작은 사이즈임에도 불구하고 한국어 Insturction-tuning을 통해 비슷한 수준의 성능을 보여줍니다. 이는 한국어 Instruction-tuning이 확실히 사람의 선호도를 향상시킨다는 것을 시사합니다.
GPT-4, Human evlauator를 대체할 수 있을까?
대다수의 Language Fluency 평가 벤치마크는 평가의 용이함을 위해 human evaluator 대신 GPT-4와 같은 강력한 LLM을 평가자로 활용하는 LLM-as-a-Judge로 활용합니다. 하지만, GPT-4를 활용한 평가가 정말 human evaluator를 완벽하게 대체할 수 있을까요? 이를 분석하기 위해 K2-Eval에서의 사람 평가 결과와 GPT-4 평가 결과 간의 상관성을 분석하였습니다.
두 평가 결과 간의 상관성 분석 결과 0.86으로 human evaluator와 GPT-4는 높은 평가 상관성을 가지는 것을 확인하였습니다. 하지만, 다음의 표와 같이 모델 랭킹에 대해서는 큰 차이가 발생하는 것을 확인할 수 있는데, 이는 GPT-4가 human evaluator와 유사하게 socring을 하긴 하지만, 모델 간의 미묘한 차이를 파악하는데에는 어려움이 있다는 것을 보여줍니다.
