저자: Nianlong Gu, Richard H. R. Hahnloser | 날짜: 2022 | DOI: arXiv:2211.07066
언어 모델을 이용한 인용 문장 생성 워크플로우: 지도 학습 미세조정 후 PPO를 통한 제어 가능성 최적화
본 논문은 저자가 인용 의도(citation intent)와 핵심 키워드를 명시적으로 지정하여 인용 문장 생성을 제어할 수 있는 언어 모델 기반 접근법을 제안한다. 지도 학습 미세조정과 강화학습(PPO)을 결합하여 생성 품질과 제어 가능성을 동시에 향상시킨다.
제안 방법의 전체 워크플로우: 지도 학습과 강화학습 단계
Galactica-6.7B 모델의 비제어 모드에서 생성한 인용 문장 예시
총평: 본 논문은 인용 문장 생성에 사용자 제어 기능을 도입하는 실용적이고 창의적인 접근을 제시하며, 구조화된 프롬프트 템플릿과 다중 메트릭 기반 강화학습을 통해 기존 자동화 방식의 한계를 효과적으로 보완한다. 다만 평가 메트릭의 일부 신뢰도와 데이터셋의 도메인 한계 측면에서는 추가 검증이 필요하다.