Galactica: A Large Language Model for Science

저자: Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic | 날짜: 2022-11-16 | DOI: 10.48550/arXiv.2211.09085


Essence

Galactica는 48백만 편의 논문과 과학 자료로 학습된 대규모 언어모델(LLM)로, 과학 지식을 저장·조합·추론하여 정보 과잉 시대의 과학 연구를 지원하는 새로운 인터페이스를 제시한다. 일반 LLM과 달리 엄격히 선별된 과학 코퍼스를 활용하여 LaTeX 방정식, 화학식(SMILES), 단백질 서열 등 다양한 양식을 처리할 수 있다.

Motivation

Achievement

Figure 1: 다양한 과학 양식 통합. 단백질 서열이 문서 맥락 내에서 주석과 함께 나타남

표 1: 과학 데이터의 토큰화 - 텍스트, LaTeX, 코드, SMILES, 아미노산 서열, DNA 서열 등을 통합

  1. 기술 지식 작업 우수성
    • LaTeX 방정식: 68.2% (vs GPT-3 49.0%)
    • 화학 반응 및 IUPAC 이름 예측 우수
  2. 추론 작업 성능
    • 수학 MMLU: 41.3% (vs Chinchilla 35.7%)
    • MATH: 20.4% (120B 모델, vs PaLM 540B 8.8%, 매개변수 18배 적음)
  3. 하위 작업(downstream task) 최신 기술(SOTA)
    • PubMedQA: 77.6%
    • MedMCQA dev: 52.9%
    • BIG-bench: 일반 코퍼스 미학습에도 BLOOM, OPT-175B 초과
  4. 새로운 능력 시연
    • 인용 예측이 스케일에 따라 매끄럽게 증가, 희소/밀집 검색 방식 초과
    • 약감시 학습(weakly-supervised)으로 약물 발견 작업 수행
    • 자감시 학습으로 기능 그룹(functional groups) 같은 해석 가능한 속성 학습

How

Figure 2: 작업 맥락에서 "43, 29, 51, 13의 평균은?" 같은 질문에 대해 인간이 내부/외부 작업 메모리를 사용할 수 있음
Figure 3: 모델-기계 공생. <work> 작업 메모리 토큰이 있는 답변 예시

Originality

Limitation & Further Study

Evaluation

총평: Galactica는 과학 지식 처리를 위해 큐레이션된 데이터와 특화된 인터페이스를 결합한 야심 찬 프로젝트로, 과학 LLM의 가능성을 실질적으로 입증했다. 특히 일반 LLM 대비 기술 지식에서의 우수성과 미리 학습된 프롬프트를 통한 조합 능력은 주목할 만하나, 추론 절대 성능의 한계와 할루시네이션 위험이 실제 과학 커뮤니티 채택의 걸림돌이 될 수 있다. 추후 검색 증강 및 신뢰도 검증 메커니즘과의 결합이 필수적이다.

← 목록으로 돌아가기