4 minutes
Oct 11, 2024

"HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models" 논문을 기반으로 한국어 언어모델의 한국 특화 지식 및 문화적 맥락을 평가하는 HAE-RAE Bench에 관한 내용을 다루고 있습니다. 해당 논문은 LREC-COLING 2024 학회에 게재되었습니다.
이 시리즈는 원라인에이아이 AI에서 발표한 논문을 리뷰합니다. 논문과 관련해서 궁금한 내용이 있다면 원라인에이아이 AI팀에게 문의주시기 바랍니다.
다국어 LLM의 등장과 다국어 벤치마크의 문제점
최근 대형 언어 모델(LLM)이 다양한 언어와 작업에서 놀라운 성능을 보여주며 많은 관심을 받고 있습니다. 그러나 이러한 모델들은 주로 영어를 기반으로 학습되어, 한국어와 같은 다른 언어에서는 그 성능이 충분히 발휘되지 않는 경우가 많습니다. 이를 따라서 다양한 다국어 LLM이 개발되기 시작하며, 이러한 다국어 LLM을 평가하기 위한 다국어 벤치마크 또한 개발되기 시작했습니다. 하지만 기존의 다국어 벤치마크는 주로 영어 평가 데이터를 번역하거나 단순 재구성하는 방식으로 이루어져, 해당 언어의 문화적 맥락이나 고유한 언어적 특성을 충분히 반영하지 못한다는 한계가 있었습니다.
“HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models” 논문에서는 이러한 기존 다국어 벤치마크의 평가 역량을 지적하면서, 한국어 특화 벤치마크인 HAE-RAE Bench를 제안했습니다. HAE-RAE Bench는 한국어에 특화된 지식과 문화적 맥락을 평가하기 위한 데이터셋으로, 어휘, 역사, 일반 상식, 독해 능력 등 6가지 작업을 포함하고 있습니다. 특히, 이 벤치마크는 기존의 한국어 평가 데이터셋들이 다루지 못했던 깊이 있는 한국 문화와 맥락을 평가할 수 있는 점에서 차별화됩니다.
HAE-RAE Bench 예시

HAE-RAE Bench를 활용한 실험에서 GPT-4와 같은 최신 다국어 언어 모델들과 비교하여, 한국어를 원어로 학습한 모델인 Polyglot-Ko가 얼마나 더 우수한 성능을 보이는지 분석하며, 다국어 모델들이 한국어와 같은 특정 언어의 문화적 지식을 제대로 학습하지 못하는 한계를 지적했습니다.
HAE-RAE Bench
다국어 LLM 개발 시에 가장 중요한 질문 중 하나는 “LLM이 특정 언어에 얼마나 깊이 있게 학습되었는가?”입니다. 많은 다국어 LLM이 다양한 언어에서 잘 작동할 수 있도록 설계되었지만, 이들이 진정으로 해당 언어의 문화적, 역사적 맥락까지 깊이 이해하는지는 아직 명확하지 않습니다. 특히 한국어와 같은 언어는 그 특유의 문법 구조와 어휘, 문화적 뉘앙스를 제대로 이해해야만 원활한 대화가 가능하기 때문에, 단순한 언어 처리 능력 이상의 평가가 필요합니다.
이러한 문제를 해결하고자, HAE-RAE Bench는 기존의 한국어 평가 도구들이 단순한 자연어 이해(NLU)나 논리적 추론 능력에만 집중한 것과 달리, 한국어 고유의 지식과 문화적 맥락을 얼마나 깊이 이해하고 있는지에 중점을 두고 평가하도록 제작되었습니다. 여기에는 한국어 어휘, 문화, 지리, 역사 등의 지식들이 포함됩니다.
HAE-RAE Bench 구성
HAE-RAE Bench는 크게 6개의 주요 작업으로 구성됩니다:
외래어: 외래어와 그에 대응하는 한국어 단어를 구분하는 능력을 평가합니다.
표준 명칭: 특정 분야에서 공식적으로 채택된 용어를 정확히 선택할 수 있는지 평가합니다.
희귀어: 잘 알려지지 않은 한국어 단어의 의미를 올바르게 이해하고 사용하는 능력을 평가합니다.
일반 상식: 한국의 전통, 법, 지리, 대중문화(K-pop, 드라마 등)에 대한 지식을 평가합니다.
역사: 한국의 역사적 사건에 대한 이해도를 평가합니다.
독해력: 주어진 텍스트를 읽고 그 내용을 이해하는 능력을 평가합니다.
HAE-RAE Bench Statistics
HAE-RAE Bench의 Fertility Rate를 분석하여 각 모델이 한국어 단어를 어떻게 처리하는지 평가했습니다. 여기서 Fertility는 단어 당 생성되는 sub-token(하위 토큰)의 평균 수를 측정한 값으로, 이 수치가 높을수록 해당 모델이 한국어 어휘를 이해하는데 어려움을 겪을 가능성이 큽니다. Polyglot-Ko, Llama-2 등의 모델의 Fertility를 비교한 결과, 한국어를 중심으로 학습된 Polyglot-Ko 모델이 Llama-2보다 더 낮은 Fertility Rate를 보이며 한국어 어휘를 더 잘 처리함을 알 수 있습니다.
HAE-RAE Bench 통계

HAE-RAE Bench Quality Check
논문의 저자들이 전체 HAE-RAE Bench 질문을 검수하여 레이블링 오류 또는 크롤링 오류를 수정했습니다. 이러한 검수 절차 덕분에 HAE-RAE Bench는 높은 신뢰성과 정확성을 보장합니다. HAE-RAE Bench의 고품질 및 목적성은 한국어 LLM의 한국어 특화 지식을 정확하게 평가하는 목적에 부합하게 사용될 수 있다는 것을 보여줍니다.
Experiments
Experimental Setup
4개의 모델 카테고리에서 총 10개의 모델을 선정하여 평가했습니다:
Korean-focused 모델: Polyglot-Ko (1.3B, 3.8B, 5.8B, 12.8B) → 한국어 텍스트만으로 학습된 한국어 특화 LLM
Multilingual 모델: UMT5-XL, UMT5-XXL → 다중 언어 데이터로 학습된 LLM
English-centric 모델: Llama-2 (7B, 13B) → 다중 언어 데이터로 학습된 LLM
State-of-the-art 모델: GPT-3.5-Turbo, GPT-4 → 상용 모델
1. HAE-RAE Bench의 난이도
Polyglot-Ko 모델이 UMT5나 Llama-2에 비해 월등히 높은 성능을 보였습니다. 특히, Polyglot-Ko의 가장 작은 모델인 1.3B 모델이 훨씬 큰 규모의 UMT5와 Llama-2 모델보다 뛰어난 성능을 보였습니다. 이는 언어별 특화 코퍼스가 모델문화적 맥락 이해에 중요한 역할을 한다는 점을 보여줍니다.
Loan Words, Standard Nomenclature, Rare Word task에 대한 평가 결과

History, General Knowledge, Reading Comprehension tasks에 대한 평가 결과

2. KoBEST와의 비교
HAE-RAE Bench는 KoBEST보다 더 높은 난이도를 가집니다. Polyglot-Ko와 UMT5, Llama-2 모델의 성능 차이는 KoBEST에서보다 HAE-RAE Bench에서 훨씬 크게 나타났습니다. 특히, 5-shot과 10-shot 세팅에서도 외국어 LLM의 성능 향상이 미미해, 한국어 문화 지식에 기반한 태스크는 in-context learning과 한국어 학습 데이터로 쉽게 해결되지 않는다는 점이 확인되었습니다.
0-shot 세팅에서 HAE-RAE Bench와 KoBEST 간의 성능 차이

5-shot 세팅에서 HAE-RAE Bench와 KoBEST 간의 성능 차이

10-shto 세팅에서 HAE-RAE Bench와 KoBEST간의 성능 차이

3. 모델의 크기와 한국어 학습 데이터의 영향
UMT5는 대량의 한국어 토큰을 사용해서 학습되었음에도 불구하고, HAE-RAE Bench에서 Llama-2보다 낮은 성능을 보여줬습니다. 또한 앞서 살펴봤듯이 in-context learning의 효과도 미미했습니다. 이러한 결과는 LLM의 language-specific 추론 능력이 pretraining에 사용된 해당 언어의 토큰 수와 연관되어 있지 않다는 것을 의미합니다.
또한 HAE-RAE Bench는 모델의 크기에 따라 선형적으로 성능이 증가하던 KoBEST와 달리 모델 크기만으로 성능을 설명할 수 없었습니다. Polyglot-Ko 모델에 대해 선형회귀를 적용했을 때, KoBEST에서는 굉장히 높은 R2 값을 보여줬지만, HAE-RAE Bench의 경우에는 굉장히 낮은 R2 값을 보여줬습니다. HAE-RAE Bench에 대한 선형회귀 및 ANOVA 분석의 낮은 통계적 유의성은 해당 벤치마크의 평가 결과가 모델 크기 뿐만 아니라 더 다양한 요인으로부터 영향을 받는다는 것을 암시합니다.
HAE-RAE Bench와 KoBEST에 대한 선형 회귀 및 ANOVA 분석 결과

4. GPT-3.5와 GPT-4의 HAE-RAE Bench 성능
GPT-3.5와 GPT-4의 경우에도 HAE-RAE Bench에서의 성능이 KoBEST에 비해 낮았습니다. GPT-4는 **67.8%**의 정확도를 기록했지만, 이는 여전히 Polyglot-Ko-12.8B 모델에 비해 낮은 성과였습니다. 이러한 결과는 영어 기반의 학습에서 얻은 지식이 한국어처럼 맥락이 중요한 언어에서 제대로 전이되지 않는다는 것을 시사합니다.
HAE-RAE Bench와 KoBEST에서 GPT-3.5-Turbo와 GPT-4의 zero-shot 성능

5. 영어로부터의 지식 전이
GPT-3.5-Turbo와 GPT-4가 영어 코퍼스로부터 얻어진 능력을 HAE-RAE Bench를 푸는데 사용할 수 있는지 실험을 진행했습니다. 이를 위해서 영어로 학습된 능력을 다른 언어로 전이시키는 prompting 방법인 XLT를 사용하여 실험을 진행한 결과, HAE-RAE Bench와 KoBEST 모두에서 성능 향상이 일어났습니다. 하지만 KoBEST에서 이 성능 향상이 더 크게 발생했는데, 이는 KoBEST가 중점적으로 다루는 언어 이해 및 추론 능력이 더욱 잘 전이된다는 것을 암시합니다. 반대로 HAE-RAE Bench는 문화적 지식 및 뉘앙스를 평가하는데, 이러한 능력들은 영어 토큰으로부터 학습되기 어렵다는 것을 알 수 있습니다.
Conclusion
HAE-RAE Bench는 한국어를 비롯한 다국어 모델 평가의 새로운 기준을 제시합니다. 기존의 다국어 평가 벤치마크는 영어 벤치마크의 번역 또는 단수 변형을 활용한 자연어 이해나 논리적 추론에 집중했지만, HAE-RAE Bench는 한국어 모델이 얼마나 깊이 있는 한국 문화적 지식을 보유하고 있는지를 평가하는 데 중점을 두고 있습니다. 이를 통해 단순히 크기나 다국어 학습 능력에 의존하지 않고, 모델의 한국어 이해력과 문화적 맥락에 대한 적응성을 평가할 수 있습니다. 특히, 한국어가 아닌 언어로 학습된 다국어 모델들에게 이 데이터셋은 상당한 도전 과제를 제시하며, 향후 연구와 개발에 중요한 방향성을 제시할 것입니다.
Reference
📝 Paper: HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models
📜 HAE-RAE-Bench-1.0: HAERAE-HUB/HAE_RAE_BENCH_1.0
📜 HAR-RAE-Bench-1.1: HAERAE-HUB/HAE_RAE_BENCH_1.1
📜 HAE-RAE-Bench-2.0: HAERAE-HUB/HAE_RAE_BENCH_2.0
🖥️ GitHub: HAE-RAE/HAE-RAE-BENCH