Large Language Models are Zero Shot Hypothesis Proposers

Essence

그림 1: 미세조정된 65B LLaMA 모델이 생성한 가설의 예시로, 기존 문헌의 발견과 유사한 결과를 도출함

대규모언어모델(LLM)이 학습되지 않은 과학 가설을 제시할 수 있으며, 생성된 가설이 실제 출판된 문헌과 일치하는 검증 가능한 내용임을 입증하는 연구이다. 특히 불확실성 증가가 영점 학습(zero-shot) 가설 생성 능력을 향상시킨다는 발견을 제시한다.

Motivation

Known:
- 과학 문헌과 데이터의 폭증으로 인해 정보 장벽이 형성되어 과학 발견의 속도가 저하됨
- 가설 형성은 과학적 발견 프로세스의 핵심 단계임
- LLM은 광범위한 학제간 지식을 보유하고 있음
Gap:
- LLM이 과학 가설을 제시할 수 있는지에 대한 형식적인 연구가 부재
- 영점 학습(zero-shot) 조건에서 새로운 가설을 생성할 수 있는지 검증된 바 없음
- 가설 생성 능력을 평가할 체계적인 메트릭이 없음
Why:
- 정보 장벽을 해소하고 학제 간 교차 수분(cross-pollination)을 촉진하기 위해 LLM의 지식 통합 능력이 필요
- 자동화된 가설 생성은 과학 발견의 속도와 효율성을 획기적으로 향상시킬 수 있음
Approach:
- 2000년 1월부터 2023년 9월까지의 생의학 문헌에서 배경지식-가설 쌍 데이터셋 구성
- 발행 날짜를 기준으로 시간 기반 분할 (훈련: 2023년 1월 이전, 테스트: 2023년 8월 이후)
- 다양한 LLM 모델의 영점, 소수샷(few-shot), 미세조정 성능 평가
- 다중 에이전트 협업 프레임워크 도입

Achievement

그림 2: 과학 발견의 반복적 순환 고리 - 데이터 분석, 가설 생성, 실험 설계, 실행, 관찰 축적

영점 학습 가설 생성의 검증: LLM이 훈련 데이터에 노출되지 않은 2023년 8월 논문의 가설을 성공적으로 생성했으며, 이는 실제 발표된 논문과 일치하는 검증 가능한 가설임을 입증
불확실성 증가의 긍정적 영향: 불확실성 수준을 높임으로써 후보 생성의 다양성이 증가하고, 이것이 영점 학습 조건에서 가설 생성 능력을 향상시킴을 발견 (예: 협업 기반 접근이 소수샷 또는 도구 활용보다 더 효과적)
고계 추론 능력의 발견: LLM이 단순한 패턴 매칭을 넘어 기초적이지만 고계 지식 추론 능력을 보유하고 있음을 실증

How

그림 3: 데이터 분할 파이프라인 - 2023년 1월 기준으로 훈련/테스트 데이터 분리

데이터셋 구성:
- PubMed에서 10,000개 의학 논문 수집
- 배경지식-가설 쌍의 형태로 구조화
- 발행 날짜 기반 시간적 분할로 데이터 누출 방지
- 8월 2023 논문을 "보지 못한(unseen)" 테스트 셋으로 지정
문제 정의:
- 텍스트 완성 작업(text completion task)으로 형식화
- 명령 I, 배경지식 X를 입력으로 하여 가설 Y 생성: M(I, X) = Y
- 확률 기반 목적함수: arg max의 곱 P(y_t|y_{1,...,t-1}, I, X)
평가 방법론:
- ChatGPT 기반 자동 평가와 인간 평가 결합
- 4개 차원의 평가 메트릭 설계 (타당성, 참신성, 명확성, 관련성 등 유추)
- 자동 평가와 인간 평가 간 상관계수 계산
다중 에이전트 협업 프레임워크:
- 역할 기반 설계 (예: 연구자, 평가자 역할)
- 외부 도구 통합 (검색 도구, 문헌 조회 등)
- 다양한 모델 간 협업을 통한 불확실성 증가
모델 평가 대상:
- 폐쇄형 모델: ChatGPT, GPT-4
- 오픈소스: LLaMA 65B 등
- 영점, 소수샷, 미세조정 설정 전반 검토

Originality

최초 형식적 연구: LLM의 영점 학습 가설 생성 능력을 엄격한 실험 설계로 검증한 첫 연구로, 기존의 비공식적 탐색과 차별화
시간 기반 데이터셋 분할: 모델 훈련 날짜 기준으로 데이터를 분할하여 실제 새로운 문헌에 대한 영점 일반화 능력을 측정하는 혁신적 방법론
역설적 발견: 불확실성 증가가 가설 생성을 향상시킨다는 통합력 있는 통찰 - "확실하지 않을 때 모든 것이 가능하다"는 명제의 실증적 검증
다차원 평가 체계: 자동 평가와 인간 평가를 결합한 포괄적 메트릭 설계로 LLM 평가의 객관성 강화
다중 에이전트 시스템: 역할 기반 협업과 도구 활용을 통해 가설 생성 메커니즘을 체계적으로 분석하는 프레임워크 제시

Limitation & Further Study

데이터셋 규모 및 도메인: 생의학 분야에 한정되어 있으며, 다른 과학 분야(물리학, 화학, 천문학 등)에의 확장성이 미지수
평가 메트릭의 명확성: 제시된 4개 차원의 평가 메트릭이 구체적으로 정의되지 않아, 메트릭의 신뢰성과 일관성에 대한 검증 필요
소수샷 및 미세조정의 역설: 추가 학습이 성능을 감소시킨다는 역설적 결과의 메커니즘에 대한 심화 분석 부족
가설의 과학적 유효성: 생성된 가설이 실제로 과학적으로 타당하고 새로운 발견으로 이어질 수 있는지에 대한 장기적 검증 필요
후속 연구 방향:
- 다양한 과학 분야로 확장하여 도메인 일반화 능력 검증
- 가설 평가 메트릭의 엄밀한 정의 및 검증
- LLM 생성 가설의 실제 실험 검증 파이프라인 구축
- 불확실성과 성능의 관계를 정량화하는 이론적 모델 개발

Evaluation

총평: 본 논문은 LLM의 과학적 가설 생성 능력을 형식적으로 검증하는 선구적 연구로, 시간 기반 데이터셋 분할과 불확실성의 긍정적 역할이라는 흥미로운 발견을 제시한다. 그러나 평가 메트릭의 정의 부족, 생의학 도메인 한정, 그리고 실제 과학적 유효성 검증의 미흡함으로 인해 기술적 완성도가 다소 낮으며, 추가적인 실험과 엄밀한 분석이 필요하다.

같이 보면 좋은 논문

기반 연구

Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models

지식 그래프를 활용한 과학적 가설 생성 개선이 본 논문의 LLM 가설 생성 능력을 구조화된 지식으로 보강하는 방법론을 제공한다.

기반 연구

Scientific Hypothesis Generation and Validation: Methods, Datasets, and Future Directions

LLM의 제로샷 가설 제안 능력에 대한 기초 연구가 본 논문의 가설 생성 방법론 체계화에 핵심적인 실증적 근거를 제공한다.

후속 연구

Toward reliable biomedical hypothesis generation: Evaluating truthfulness and hallucination in large language models

LLM의 제로샷 가설 제안 능력을 생의학 분야에서 진실성과 근거성 측면으로 확장 평가했다.

후속 연구

Scientific Hypothesis Generation and Validation: Methods, Datasets, and Future Directions

과학적 가설 생성과 검증에 대한 체계적 방법론 조사가 본 논문의 제로샷 가설 생성 능력을 더 포괄적인 연구 프레임워크로 확장한다.

응용 사례

Moose-chem3: Toward experiment-guided hypothesis ranking via simulated experimental feedback

실험 유도 가설 순위화를 향한 화학 연구가 본 논문의 가설 생성 능력을 실제 과학 연구 검증 과정에 적용한 사례이다.