저자: Jan A. Botha, Manaal Faruqui, John Alex, Jason Baldridge, Dipanjan Das | 날짜: 2018 | DOI: N/A
위키피디아 편집 이력에서 추출한 문장 분할-재표현(split-and-rephrase) 예시. 원본 문장이 두 개의 더 단순한 문장으로 분해되며, 삭제된 단어(노랑)와 추가된 단어(파랑)를 표시함.
본 논문은 위키피디아 편집 이력을 마이닝하여 문장 분할-재표현(split-and-rephrase) 작업을 위한 100만 개 규모의 대규모 자연 데이터셋 WikiSplit을 구축하고, 이를 활용하여 기존 방법 대비 32 BLEU 포인트 향상을 달성했다.
WebSplit과 WikiSplit의 코퍼스 통계 비교. WikiSplit은 복잡 문장 수, 단순 문장 수, 토큰 다양성 모두에서 훨씬 더 큰 규모와 다양성을 제공함.
다양한 학습 데이터 조합에 따른 WebSplit 테스트 셋 성능. WikiSplit만 사용했을 때 60.4 BLEU, WebSplit과 결합했을 때 62.4 BLEU 달성.
총평: 본 논문은 위키피디아 편집 이력이라는 풍부한 자연 자원을 효과적으로 활용하여 기존 소규모 합성 데이터셋의 한계를 극복한 우수한 데이터셋 논문이다. 비록 추출 방법론이 단순하고 노이즈가 존재하나, 공개된 대규모 자연 데이터와 입증된 성능 향상의 실용성이 충분히 가치 있으며, 텍스트 단순화 분야에서 중요한 기초 자원으로 널리 활용될 수 있다.