Crosslingual capabilities and knowledge barriers in multilingual large language models

Essence

그림 1: 다국어 LLM은 기계번역과 같은 명시적 작업에서는 강한 교차언어 능력을 보이나, 모델 가중치에 암묵적으로 저장된 지식을 활용하는 지식 집약적 작업에서는 언어 간 격차를 해소하지 못함을 보여줌.

본 논문은 다국어 대규모 언어 모델(LLM)이 명시적 교차언어 작업(기계번역)에서는 우수한 성능을 보이나, 매개변수 지식의 암묵적 교차언어 활용에서는 심각한 성능 저하를 경험하는 '교차언어 지식 장벽(crosslingual knowledge barrier)'을 처음으로 체계적으로 규명하는 연구이다.

Motivation

Known: 현대 LLM은 대규모 다국어 코퍼스로 훈련되어 여러 언어에서 경쟁력 있는 성능을 보이며, 기계번역 같은 명시적 교차언어 작업에 강함.
Gap: 인간은 다언어성이 자연스럽게 교차언어성(서로 다른 언어의 대응 개념을 연관짓는 능력)을 내포하지만, LLM의 훈련 과정이 통상적으로 불명확하고 실제 지식의 교차언어 활용 능력은 미검증 상태.
Why: LLM이 한 언어로 학습한 매개변수 지식을 다른 언어의 질문에 답할 때 활용할 수 있는지 여부는 일반 지식과 도메인 특화 지식 모두에서 중요한 실용적 의제.
Approach: 기계번역 성능 평가(§2.1), 임베딩 공간 분석(§2.2), 교차언어 QA 작업(§3)을 통해 다차원적으로 검증한 후, 혼합언어 미세조정 전략을 제안(§4).

Achievement

그림 2: 영문 텍스트와 혼합언어 번역 텍스트의 임베딩이 기준선보다 더 잘 정렬됨을 시각화함.

교차언어 능력의 이중성 규명: 15개 모델, 16개 언어, 3개 데이터셋을 통해 LLM이 기계번역(COMET 점수 87점대, Google Translate와 경쟁 수준)과 임베딩 유사성 측면에서는 강한 명시적 교차언어 능력을 보유하나, 사실상의 지식 활용 단계에서는 현저한 성능 저하를 경험함을 입증.
교차언어 지식 장벽의 체계적 발견: MMLU 벤치마크(일반 지식), Harry Potter 퀴즈, TOFU 벤치마크(도메인 특화 지식)에서 영문으로 학습된 지식을 타언어 질문으로 접근할 때 유의미한 성능 격차 발생을 최초로 문헌화. 사전학습(§3.1)과 미세조정(§3.2) 단계 모두에서 장벽 존재 확인.
혼합언어 미세조정의 효과성: 단순 프롬프트 엔지니어링(§4.1)보다 혼합언어 데이터에 대한 미세조정(§4.2)이 장벽을 효과적으로 완화하며, (1) 도메인 외(out-of-domain) WikiText 같은 데이터셋에서도 효과적이고 (2) 미세조정에 포함되지 않은 언어로의 일반화 능력도 향상됨을 실증.

How

그림 4: MMLU 혼합언어 MCQ 평가에서 16개 언어 전반에 걸친 교차언어 지식 장벽을 시각화함.

교차언어 능력 측정: (K, C, O) 튜플 정의를 통해 다언어성(같은 언어 내에서의 평균 성능)과 교차언어성(K_ℓ, C_ℓ', O_ℓ''에서 언어가 다른 경우)을 명확히 구분.
REPEAT → 번역 → 암묵적 지식 QA로의 계층적 분석: 문맥에서 소스 텍스트를 제공하는 명시적 작업에서 성공하지만, 매개변수에 암묵적으로 저장된 지식의 교차언어 추론 단계에서 성능 급락.
기계번역 성능 평가: FloRes-101 벤치마크에서 개방형 모델 4종류와 독점 모델 2종류, 그리고 감독된 기준선(NLLB-3.3B, Google Translate) 비교. 특히 X→en 방향이 en→X 방향보다 우수(영어 선호 현상).
임베딩 유사도 분석: WikiText-103에서 1,000개 예제를 추출하여 원본 영문과 혼합언어 번역 텍스트(각 단어 16% 확률로 {en, fr, de, es, it} 중 한 언어로 번역) 간의 임베딩 거리를 비교. 무작위 토큰 대체/삭제 기준선과 통계적 검정(p<0.05).
교차언어 QA 작업 설계: MMLU(4지선다형, 14k 테스트, 57개 과목), Harry Potter 도메인(사실 기반), TOFU 벤치마크(도메인 외 세부 정보) 활용.
혼합언어 미세조정 전략: 다언어 데이터(기존 WikiText 포함)로 미세조정하여 언어 간 매개변수 공유 및 대응 관계 학습 강화.

Originality

최초 체계적 규명: 다국어 LLM의 명시적 교차언어 능력과 암묵적 지식 활용 능력 간의 괴리를 정량화하고 "교차언어 지식 장벽"이라는 개념을 처음 문헌화한 연구.
광범위한 실증 범위: 15개 모델, 16개 언어, 3개 벤치마크(사전학습 및 미세조정 단계 모두)를 포함한 대규모 실험 설계로 현상의 보편성 입증.
이중 해석 접근: 기계번역 성능, 임베딩 분석, 지식 QA를 순차적으로 평가함으로써 어느 단계에서 장벽이 발생하는지 정밀 규명.
실질적 완화 전략: 추론 시간 완화(프롬프트 엔지니어링)의 한계를 보이고, 도메인 외 데이터를 이용한 혼합언어 미세조정이 장벽 극복에 효과적임을 실증적으로 입증.

Limitation & Further Study

언어 선택 제한: 주로 5개 광범위 사용 언어(영문, 프랑스어, 독일어, 스페인어, 이탈리아어)에 집중하여 저자원 언어나 언어족(language family)이 크게 상이한 언어의 교차언어 장벽 특성은 미검토.
미세조정 데이터 규모 및 구성의 심화 분석 부족: 혼합언어 데이터의 최적 비율, 각 언어별 데이터량, 언어 쌍의 특성이 장벽 극복에 미치는 영향에 대한 세밀한 분석 필요.
메커니즘 수준의 분석 부재: 왜 매개변수 지식이 교차언어 추론에서 활용되지 않는지에 대한 신경망 수준의 해석 가능성(interpretability) 분석 부재(예: 특정 뉴런 또는 어텐션 헤드의 역할).
다중 언어쌍 간 전이 특성: 미세조정에 포함되지 않은 언어로의 일반화가 언어 간 거리, 문법적 유사성 등과 어떤 상관관계를 갖는지에 대한 후속 연구 필요.
계산 효율성: 혼합언어 미세조정의 계산 비용 및 메모리 요구사항, 실무 환경에서의 확장성 평가 필요.

Evaluation

총평: 본 논문은 다국어 LLM이 표면적 교차언어 능력은 갖추었으나 깊이 있는 지식 활용에서는 현저한 장벽을 경험한다는 중요한 발견을 체계적으로 입증하며, 혼합언어 미세조정을 통한 실질적 완화 방안을 제시한 의미 있는 연구이다. 다만 저자원 언어 확대와 신경망 수준의 해석 분석이 후속 과제로 남아있다.

같이 보면 좋은 논문

기반 연구

Rule-based, neural and llm back-translation: Comparative insights from a variant of ladin

교차언어 번역의 기초 연구에서 다국어 LLM의 지식 전이 한계 분석으로의 발전 과정을 이해할 수 있다

기반 연구

A smack of all neighbouring languages: How multilingual is scholarly communication? arXiv preprint arXiv:2504.21100, 2025.

다국어 모델의 언어 간 능력이 학술 커뮤니케이션 언어 분석의 기술적 기반을 제공함

다른 접근

Unsupervised Crosslingual Representation Learning at Scale

비지도 교차언어 표현학습과 다국어 LLM의 지식 장벽이라는 서로 다른 다국어 AI 연구 관점을 비교할 수 있다

후속 연구

Unsupervised Crosslingual Representation Learning at Scale

대규모 다언어 표현학습이 멀티모달 다언어 모델에서 언어 간 지식 장벽 문제로 확장됩니다.

후속 연구

Rule-based, neural and llm back-translation: Comparative insights from a variant of ladin

저자원 언어 번역을 다국어 LLM의 교차언어 능력과 지식 장벽 분석으로 확장하여 포괄적으로 다룬다.

응용 사례

SimAlign: High quality word alignments without parallel training data using static and contextualized embeddings

교차언어 정렬의 구체적 기술이 다국어 지식 전이 문제 해결에 어떻게 적용될 수 있는지 보여준다