Sciglm: Training scientific language models with self-reflective instruction annotation and tuning

저자: Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, Jie Tang | 날짜: 2024 | DOI: arXiv:2401.07950


Essence

Figure 3: 다양한 LLM의 과학 벤치마크 평균 정확도

다양한 파라미터 크기의 LLM들에 대한 SciGLM의 성능 개선 효과

SciGLM은 자기 성찰적(self-reflective) 주석 생성 프레임워크를 통해 고품질의 과학 지시 데이터를 자동으로 큐레이션하고, 이를 이용해 여러 언어 모델을 파인튜닝함으로써 대학 수준의 과학 추론 능력을 갖춘 과학 언어 모델을 구축한다. GPT-3.5와 GPT-4 같은 고급 LLM도 기본적인 과학 문제에서 28.52%의 낮은 정확도를 보이는 문제를 해결하기 위해, 물리, 화학, 수학, 형식적 증명(Lean)을 포함하는 254,051개의 고품질 과학 지시문을 포함한 SciInstruct 데이터셋을 구축했다.

Motivation

Achievement

Figure 4: SciInstruct 구축 파이프라인

다양한 소스로부터 데이터 수집, 자기 성찰적 주석, 필터링을 거쳐 고품질 지시문 생성

Figure 5: 자기 성찰적 주석 생성 프레임워크의 워크플로우

3단계 반복 과정을 통한 단계별 정확한 추론 과정 생성의 예시

  1. 포괄적 과학 지시 데이터셋 구축: 물리학, 화학, 수학, 형식적 증명(Lean)을 포함하는 254,051개의 검증된 고품질 지시문으로 구성된 SciInstruct 데이터셋 완성. 도메인별 비중은 물리&화학 48.8%, 수학 35.4%, 형식적 증명 15.8%이며, 질문 유형은 채우기형(33.2%), 선택형(32.0%), 복잡한 풀이형(20.1%), 간단한 풀이형(14.6%)으로 다양화.
  2. 성능 향상 검증: ChatGLM3 6B 모델에서 4.87%, 32B 모델에서 2.67% 정확도 개선 달성. 동일 파라미터 크기의 선행 모델들(Galactica, MAmmoTH)을 능가하며, GPT-4와의 격차를 축소. 과학 벤치마크(CEval-Sci, Sci-Eval, SciBench, MATH, SAT-Math)에서 평균 정확도 향상을 보임.
  3. 일반 언어 능력 보존: 지시 튜닝을 통한 성능 향상이 기본 모델의 일반 언어 이해 및 코딩 능력을 손상시키지 않음을 검증. SciGLM이 인간-AI 상호작용 및 과학 도메인 전문 지식 모두에 적합한 균형잡힌 모델임을 입증.

How

Figure 1: 도메인 비중
Figure 2: 질문 유형 비중

데이터 수집 및 큐레이션:

자기 성찰적 주석 생성 프레임워크 (3단계 반복):

오류 분류 및 자동 필터링:

모델 파인튜닝:

Originality

Limitation & Further Study

후속 연구 방향:

Evaluation

총평: SciGLM은 과학 도메인 LLM 훈련을 위한 자동화된 고품질 데이터셋 구축이라는 실질적 문제를 해결하며, 자기 성찰적 비판-개선 프레임워크는 데이터 부족 분야의 확장성 있는 솔루션을 제시한다. 다만 절대 정확도 수준은 여전히 GPT-4에 미치지 못하고, 도메인 간 균형 개선과 더 복잡한 과학 문제 포

같이 보면 좋은 논문

기반 연구
과학 지시 데이터 큐레이션 방법론이 LLM 기반 과학 공식 발견의 기초 학습 데이터를 제공한다.
다른 접근
과학 언어모델 구축을 자기 성찰적 데이터 생성 vs 화학 특화 강화학습으로 다른 도메인과 방법으로 접근한다.
다른 접근
도메인 특화 모델을 화학 강화학습 vs 다영역 자기 성찰적 학습으로 다른 접근 방식을 사용한다.
← 목록으로 돌아가기