저자: Masoud Jalili Sabet, Philipp Dufter, François Yvon, Hinrich Schütze | 날짜: 2021 | DOI: arXiv:2004.08728
다양한 언어 쌍과 혼합 문장에 대한 병렬 학습 데이터 없이 단어 정렬을 수행하는 방법
본 논문은 병렬 학습 데이터 없이 다국어 단어 임베딩(정적 및 문맥화된)을 활용하여 고품질의 단어 정렬을 수행하는 SimAlign 방법을 제안한다. 전통적인 통계적 정렬기(efloral 등)와 비교해서도 우수한 성능을 보인다.
IterMax 알고리즘: 반복적으로 유사도 행렬을 수정하면서 정렬을 추출
서브단어 수준 정렬을 단어 수준으로 변환하는 프로세스
총평: SimAlign은 다국어 임베딩의 유사도 행렬에서 단어 정렬을 추출하는 창의적이고 실용적인 방법을 제안하여, 병렬 학습 데이터의 의존성을 제거하면서도 전통적 통계 정렬기를 능가하는 성능을 달성했다는 점에서 의의가 있다. 다만 하이퍼파라미터 최적화와 더 광범위한 언어 커버리지 개선이 향후 과제이다.