저자: Samuel Frontull, Georg Moser | 날짜: 2024 | DOI: N/A
저자원(low-resource) 언어인 라딘어(Ladin)의 Val Badia 방언에 대해 규칙 기반(RBMT), 신경망(NMT), 대규모 언어모델(LLM) 기반의 세 가지 역번역(back-translation) 기법을 비교 분석하여, 저자원 시나리오에서는 역번역 모델 선택이 최종 성능에 유의미한 영향을 미치지 않음을 실증했다.
| 데이터셋 | 문장 수 | 특징 |
|---|---|---|
| **병렬 데이터** | 18,139 | 라딘-이탈리아 사전의 예시 문장 |
| **단일언어 데이터** | 274,665 | 신문 'La Usc di Ladins' (2012년 이후) |
| **테스트셋 1** | 424 | 법률/공식 용어 (재단 규정) |
| **테스트셋 2** | 833 | 역사·행정·법률 혼합 텍스트 |
| **테스트셋 3** | 1,563 | 문학 텍스트 (피노키오, 문체·관용표현 도전) |
1) 신경망 기반 (N1)
2) 규칙 기반 (RBMT)
3) LLM 기반
한계:
후속 연구:
총평: 본 논문은 라딘어라는 미개척 저자원 언어에 대해 규칙, 신경망, LLM 세 가지 역번역 기법을 처음으로 비교 분석하여 흥미로운 실증 결과를 제공했으며, 공개 자원과 벤치마크를 통해 향후 연구 기반을 마련한 점에서 의의가 있으나, 제한된 데이터와 단일 언어 쌍에 대한 초기 탐색 연구로서 일반화 가능성은 아직 미지수다.