저자: Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen | 날짜: 2023 | DOI: 미제공
ScienceQA 데이터 예시: 인간 주석 CoT와 LLM 생성 CoT 비교. LLM 생성 CoT가 더 많은 외부 지식을 포함함
본 논문은 대형 언어 모델(LLM)이 생성한 연쇄적 사고(Chain-of-Thought, CoT) 신호를 혼합하여 과학 문제 해결 능력을 갖춘 소규모 학생 모델을 학습하는 T-SciQ 프레임워크를 제안한다. 인간 주석의 비용 문제와 정보 손실을 극복하기 위해 두 가지 유형의 자동 생성 교수 신호를 결합하는 혁신적인 데이터 혼합 전략을 도입한다.
T-SciQ 프레임워크의 3단계: (i) 교수 데이터 생성, (ii) 데이터 혼합, (iii) 미세조정
총평: T-SciQ는 간단하면서도 효과적인 데이터 혼합 전략을 통해 멀티모달 과학 추론에서 획기적 성능을 달성했으며, 특히 값비싼 인간 주석을 완전히 제거하면서도 정보 풍부한 LLM 신호로 우수한 학생 모델을 양성한 점이 실무적 가치가 높다. 다만 계산 비용 분석과 다양한 도메인으로의 확장 가능성 검증이 향후 보완되어야 한다.