MTI Bench로 본 LLM의 Multi-Task Inference 능력

4 minutes

2025. 1. 9.

"Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?" 논문을 기반으로 LLM의 다중 과제 추론 방법론인 Multi-Task Inference와 LLM의 다중 추론 능력을 평가하는 MTI Bench에 관한 내용을 다루고 있습니다. 해당 논문은 ACL 2024 학회에 게재되었습니다.
이 시리즈는 원라인에이아이 AI에서 발표한 논문을 리뷰합니다. 논문과 관련해서 궁금한 내용이 있다면 원라인에이아이 AI팀에게 문의주시기 바랍니다.

거대 언어 모델 (LLM)은 다중 과제를 동시에 처리할 수 있을까?

최근 몇 년간 거대 언어 모델 (LLM)은 자연어 처리 (NLP) 분야에서 획기적인 발전을 이루며 다양한 과제를 수행하는 데 있어 놀라운 성능을 보여주고 있습니다. LLM은 단순한 텍스트 생성이나 번역을 넘어, 복잡한 명령을 이해하고 이를 기반으로 추론하는 데까지 발전하였으며, OpenAI의 GPT 및 o1 모델 시리즈와 Meta의 Llama 모델 시리즈 같은 대표적인 사례는, 특정한 지침을 따르는 작업에서 매우 우수한 성능을 발휘하며 사용자의 요구를 충족시키는 데 성공했습니다.

하지만 이러한 모델들은 대개 한 번의 추론 호출에서 단일 명령만을 처리하도록 설계되었습니다. 즉, 각 작업은 독립적으로 수행되며, 여러 작업을 처리하려면 여러 번의 호출이 필요합니다. 이러한 한계는 모델의 활용도를 제한할 뿐만 아니라, 처리 시간이 증가하고 자원 효율성이 떨어지는 결과를 초래할 수 있습니다. 그렇다면, 하나의 추론 호출에서 다중 과제 (Multi-Task)를 동시에 처리할 수 있다면 어떨까요? 이는 LLM의 효율성을 극대화하고, 더 복잡한 작업 환경에서도 활용할 수 있는 가능성을 열어줍니다.

“Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?” 논문에서는 모델의 multi-task 수행 능력을 평가하기 위해 MTI Bench (Multi-Task Inference Benchmark)라는 평가 벤치마크를 소개합니다. 이 문제들을 통해 LLM이 단일 호출로 여러 명령을 수행할 수 있는지, 그리고 성능과 속도에서 어떤 이점을 제공하는지를 중점적으로 분석합니다.

MTI Bench: LLM의 다중 작업 수행 능력을 측정하다

MTI Bench(Multi-Task Inference Benchmark)는 LLM의 다중 작업 수행(Multi-Task Inference) 능력을 테스트하기 위해 설계된 평가 벤치마크로, 25개의 task에 걸쳐서, 총 5,000개의 데이터 인스턴스로 구성되어 있습니다. 각 task는 2~3개의 하위 task로 구성되어 있어 모델이 task 간의 의존성을 어떻게 처리하는지 평가할 수 있습니다.

[Task Formulation: MTI Bench의 구성 요소]

MTI Bench는 위 그림과 같이 각 task의 정확성과 중간 수행 단계를 평가하기 위한 Multi-Step & Multi-Part 두 가지 주요 하위 집합으로 구성되어 있습니다:

Multi-Step(이미지 왼쪽): 순차적으로 상호 의존적인 작업들을 다루며 모델이 상호 의존적인 task를 올바르게 수행하는가를 측정합니다. 즉, 이전 작업의 답변이 추후의 작업에 사용되면서 최종적으로 올바른 정답을 도출하기 위한 중간 수행 단계의 정확도를 평가하며, 모델의 multi-step 추론 과정을 중점적으로 평가합니다.
Multi-Part(이미지 오른쪽): 작업 간 의존성이 없는 상호 독립적인 작업들을 다루며 모델이 상호 독립적인 task를 올바르게 수행하는가를 측정합니다. 즉, 문맥적으로 어느 정도 상통하지만, 완전히 독립적인 task를 모델이 능숙하게 수행할 수 있는가를 평가합니다.

[Dataset Construction: MTI Bench는 어떻게 만들어졌는가?]

MTI Bench의 데이터셋은 기존 NLP 벤치마크로부터 다양한 작업을 선별해 조합함으로써 제작되었습니다. 데이터셋 구축 과정의 주요 단계는 다음과 같습니다:

Task source 선정: 주요 데이터셋으로는 Quoref, SNLI, MMLU, MATH 등이 사용되었습니다. 선택 기준은 (1) 데이터의 품질 관리 프로세스가 잘 정의되어 있는가? (2) 더 복잡한 작업으로 통합할 가능성이 있는가? 를 기준으로 선정하였습니다.
Task 조합과 필터링: 데이터셋은 2개의 그룹으로 나뉘어 task를 조합한 후, 낮은 품질이거나 정보성이 떨어지는 조합은 제거했습니다. 초기 32개의 작업 조합 중 7개가 제외되어, 최종적으로 25개의 고품질 task가 선정되었습니다.
샘플링 및 데모 작성: 각 task에 대해 Chain-of-Thought 방식으로 하위 task를 순차적으로 해결하는 데모를 생성하였습니다.

LLM의 다중 작업 추론 능력 평가

[Baseline Inference Methods]

MTI Bench 평가 결과 비교를 위한 baseline으로 다음과 같이 3가지 평가 방식을 고려하였습니다. 위 이미지는 3개의 하위 task를 포함하고 있는 2개의 task에 대한 각 평가 방식의 예시입니다:

Single-Task Inference (이미지 상단): 하위 작업을 하나씩 순차적으로 수행하는 방식. 각 하위 task에 대해 모두 일일이 처리해야 하므로 총 6번의 추론 과정이 필요합니다.
Batch Prompting (이미지 중단): 동일한 하위 작업을 묶어 한 번에 처리하는 방식. 하위 task끼리 묶어서 추론하므로 총 3번의 추론 과정이 필요합니다.
Multi-Task Inference (이미지 하단): 논문에서 제안하는 방식으로, 하나의 프롬프트에 여러 하위 작업을 포함하여 한 번에 처리하는 방식. 각 하위 task를 모두 묶어서 큰 task 하나를 추론하므로 총 2번의 추론 과정이 필요합니다.

[Experiment Results]

Multi-Task Inference의 성능: Multi-Task Inference는 Single-Task Inference 및 Batch Prompting과 비교했을 때 일관되게 높은 성능을 보여주었습니다. 또한 실험 결과는 모델의 크기와 성능 간에 강한 상관관계를 보이며 모델의 크기가 커질수록 강력한 Multi-Task Inference 성능을 보여줬습니다.
Multi-Step vs. Multi-Part 작업 종속성 영향: Multi-Step의 경우 모델이 상호 의존적인 문제에 대해 순차적으로 문제 해결을 해야 하므로 성능이 전반적으로 떨어집니다. 반면에 Multi-Part는 작업 간에 의존성이 없으므로 더 높은 성능을 보이는 것을 확인할 수 있습니다.
Multi-Task Inference와 Single-Task Inference의 차이 분석: Multi-Task Inference는 Single-Task Inference에 비해 평균적으로 7.3~12.4% 높은 정확도를 보여주는데, 이는 하위 task 간의 연관성이 높은 Multi-Step에서는 크게 나타나지만 하위 task 간의 연관성이 낮은 Multi-Part에서는 상대적으로 성능 차이가 작게 나타나는 것을 확인할 수 있습니다. Single-Task Inference는 첫 번째 task만을 해결한 후 다음 task로 넘어가는 방식인 반면, Multi-Task Inference는 모든 task의 정보를 한 번에 제공하여, 이로 인해 다음 task의 정보를 미리 참조 (look-ahead)하여 초기 작업을 더 잘 수행하는 경향이 다음의 표를 통해 확인되었습니다.
Multi-Task Inference의 효율성: Multi-Task Inference는 Single-Task Inference 대비 평균적으로 1.46배 더 빠른 처리 속도를 기록했습니다. 이는 하위 task마다 별도의 추론 단계를 거치지 않고 한 번의 프롬프트로 작업을 처리하기 때문입니다. 반면에 Batch Prompting은 Single-Task Inference 대비 평균적으로 2.1배 더 빠른 처리 속도를 기록하며 가장 빠른 추론 속도를 보였지만, Multi-Task Inference에 비해 현저히 떨어지는 다중 작업 처리 능력을 보여주면서 Multi-Task Inference의 성능 및 효율성을 입증하였습니다.

Multi-Task 추론 분석: LLM의 새로운 가능성

현대의 대규모 언어 모델(LLMs)은 단일 지시문을 기반으로 작업을 수행하는 데 강점을 보여왔습니다. 하지만 여러 개의 지시문을 한 번에 처리하는 Multi-Task Inference에 대한 가능성은 여전히 미지수로 남아 있었습니다. “Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?” 논문에서는 이 질문을 중심으로 LLM이 동시에 여러 지시문을 효과적으로 처리할 수 있는지, 그리고 이러한 접근법이 어떤 이점을 제공하는지를 심도 있게 분석하였습니다.

LLM의 다중 작업 추론 능력을 평가하기 위해 제안된 MTI Bench에서의 평가 결과는 Multi-Task Inference 방식이 성능 형상, 추론 시간 단축 등의 이점을 보여주었습니다. 이러한 결과는 LLM이 단일 작업 수행을 넘어 다중 과제를 동시에 처리할 수 있는 잠재력을 시사합니다. 다중 과제 추론은 성능, 효율성, 그리고 모델의 응용 가능성 측면에서 새로운 기준을 제시하며 향후 AI 연구와 활용의 새로운 가능성을 제시합니다.

Reference

📝 Paper: Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?
🖥️ Code: guijinSON/MTI-Bench