저자: Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, Jie Tang | 날짜: 2024 | DOI: arXiv:2401.07950
다양한 파라미터 크기의 LLM들에 대한 SciGLM의 성능 개선 효과
SciGLM은 자기 성찰적(self-reflective) 주석 생성 프레임워크를 통해 고품질의 과학 지시 데이터를 자동으로 큐레이션하고, 이를 이용해 여러 언어 모델을 파인튜닝함으로써 대학 수준의 과학 추론 능력을 갖춘 과학 언어 모델을 구축한다. GPT-3.5와 GPT-4 같은 고급 LLM도 기본적인 과학 문제에서 28.52%의 낮은 정확도를 보이는 문제를 해결하기 위해, 물리, 화학, 수학, 형식적 증명(Lean)을 포함하는 254,051개의 고품질 과학 지시문을 포함한 SciInstruct 데이터셋을 구축했다.
다양한 소스로부터 데이터 수집, 자기 성찰적 주석, 필터링을 거쳐 고품질 지시문 생성
3단계 반복 과정을 통한 단계별 정확한 추론 과정 생성의 예시
데이터 수집 및 큐레이션:
자기 성찰적 주석 생성 프레임워크 (3단계 반복):
오류 분류 및 자동 필터링:
모델 파인튜닝:
후속 연구 방향:
총평: SciGLM은 과학 도메인 LLM 훈련을 위한 자동화된 고품질 데이터셋 구축이라는 실질적 문제를 해결하며, 자기 성찰적 비판-개선 프레임워크는 데이터 부족 분야의 확장성 있는 솔루션을 제시한다. 다만 절대 정확도 수준은 여전히 GPT-4에 미치지 못하고, 도메인 간 균형 개선과 더 복잡한 과학 문제 포