저자: Takumi Ito, Tatsuki Kuribayashi, Hayato Kobayashi, Ana Brassard, Masato Hagiwara, Jun Suzuki, Kentaro Inui | 날짜: 2019 | DOI: arXiv:1910.09180
쓰기 과정의 4단계(초안 작성→수정→편집→교정)와 본 연구의 초점
비모국어 부정확한 초안 문장을 유창하고 완성된 학술 문장으로 자동 변환하는 문장 수준 수정(Sentence-level Revision, SentRev) 작업을 제안하고, 이를 위한 SMITH 데이터셋을 구축하여 기준선 성능을 설정한다.
SMITH 데이터셋 생성 절차: (i) 학술 논문에서 최종 문장 추출 → (ii) 일본어 번역 → (iii) 크라우드소싱으로 영어 재번역 → (iv) 품질 관리
크라우드소싱 프로토콜의 4단계
데이터셋 생성 방법론:
오류 유형:
총평: 학술 쓰기 보조의 미개척 영역인 초안 수정 단계를 새로운 작업으로 정의하고, 창의적인 크라우드소싱 방법론으로 자연스러운 오류 데이터셋을 구축했다는 점에서 중요한 기여이다. 다만 신경망 기반 모델 개발과 실제 적용 평가가 미흡하며, 향후 다양한 언어와 규모의 데이터 확장이 필요하다.