저자: Peng Wang, Ruihan Tao, Qiguang Chen, Mengkang Hu, Libo Qin | 날짜: 2025 | DOI: arXiv:2505.15372v1
영어 환경과 다국어 환경에서 GPT-4o의 성능 비교: 다국어 환경에서 20% 이상 성능 저하 발생
본 논문은 대규모 언어모델(LLM) 기반 에이전트의 다국어 성능을 평가하기 위해 14개 언어, 2,800개의 지시문, 589,946개의 상품을 포함한 X-WebAgentBench 벤치마크를 제시한다. 기존 에이전트 벤치마크들이 영어 중심이었던 반면, 이 연구는 다국어 지시문과 다국어 환경을 동시에 포함한 최초의 종합적인 다국어 에이전트 평가 벤치마크를 구축하였다.
X-WebAgentBench 구축의 4단계: (a) 데이터 준비, (b) 다국어 지시문 구성, (c) 다국어 환경 구성, (d) 품질 검증
X-WebAgentBench의 언어 분포(15개 언어, 청색=영어 영역, 녹색=다국어 영역) 및 상품 카테고리 분포
총평: X-WebAgentBench는 다국어 에이전트 연구의 중요한 공백을 채운 첫 번째 종합적 벤치마크로서 학술적·실무적 가치가 높으며, 체계적인 품질 관리 방식이 돋보인다. 다만 전자상거래 도메인 중심, 상대적으로 작은 지시문 규모, 자동 번역의 근본적 한계 등으로 인해 추가 확장과 개선 여지가 있다.