Quantifying large language model usage in scientific papers

Essence

Figure 1. The overall structure of our experiments. GPT4 was previously trained on data on a large fraction of the text

GPT-4를 사용하여 유방암 치료를 위한 신약 조합을 가설로 생성하고 실험실에서 검증한 결과, 12개 중 3개의 조합이 양성 대조군을 초과하는 시너지 효과를 보였으며, 반복 실험에서 4개 중 3개가 추가로 확인되었다.

Known: 대규모 언어 모델(LLM)은 다양한 과학 작업에 성공적으로 적용되어 왔으나, 과학적 가설 생성에서의 효과는 충분히 검증되지 않았다. 유방암 치료에서 약물 조합의 시너지 효과 탐색은 미흡한 상태이다.
Gap: LLM이 생성한 '할루시네이션(hallucination)'이 새로운 과학적 가설로 활용될 수 있는 가능성과 그 실험적 검증 방법이 명확하지 않았다. 특히 암 치료 약물 조합 발굴에서 LLM의 실제 성능이 미지수였다.
Why: AI 기반 과학 발견 방법론의 타당성을 입증함으로써 신약 개발 효율을 높일 수 있으며, 인간이 놓칠 수 있는 치료법 조합을 발굴할 수 있기 때문이다.
Approach: GPT-4에 MCF7 유방암 세포주와 MCF10A 정상 세포주를 구분하는 신약 조합을 제안하도록 프롬프팅한 후, SynergyFinder 3.0으로 시너지 점수(HSA)를 계산하여 검증하는 반복적 가설-실험 사이클을 수행했다.

1차 반복 성공률: 12개의 GPT-4 생성 가설 중 3개 조합(이트라코나졸+아테놀롤, 심바스타틴+디설피람, 디피리다몰+메벤다졸)이 양성 대조군(독소루비신+사이클로포스파미드)을 초과하는 시너지 효과 입증
2차 반복 성공률: GPT-4가 초기 결과를 반영하여 생성한 4개 신규 조합 중 3개가 양성 시너지 점수 달성
특이성 확보: 12개 가설 중 8개가 MCF7에서 MCF10A 대비 높은 HSA 점수로 종양세포 선택성 입증
문헌 지원: 시너지 점수를 보인 6개 조합 중 3개가 기존 문헌에서 개별 약물의 항암 특성으로 지원됨
신규성 확인: 생성된 약물 조합 전체가 암 문헌에서 미발견된 조합으로 확인

Figure 1. The overall structure of our experiments. GPT4 was previously trained on data on a large fraction of the text

LLM의 할루시네이션을 '버그'가 아닌 과학적 가설 생성의 '장점'으로 재해석하여 실험적 검증 가능한 새로운 가설로 활용", 'GPT-4 기반 약물 조합 가설과 실험실 검증의 첫 대규모 통합 연구
이전에 시도되지 않은 FDA 승인 비암치료약 조합의 암 치료 시너지 발굴
반복 학습 루프: 초기 결과를 LLM에 피드백하여 2차 가설 개선 시도
AI-human-experiment 삼각형 파이프라인의 구체적 구현

샘플 크기: 12개 가설만 검증하여 통계적 유의성 판단 제한
대조군 선택: GPT-4가 대조군까지 제안하도록 한 선택이 편향 가능성 존재
세포주 제한: MCF7 단일 암세포주만 사용하여 다른 유방암 아형에 대한 일반화 부족
시너지 메커니즘 미해명: HSA 점수 높음만 확인되고 생물학적 메커니즘 규명 부재
임상 근거: 실험실 검증에 그쳐 임상 전 단계 동물 모델 및 인체 적용성 검증 필요
후속 연구: (1) 더 많은 약물 조합 및 암세포주 확대, (2) 약물 상호작용 메커니즘 연구, (3) 동물 모델 임상 전 시험, (4) LLM 프롬프팅 최적화 연구

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 LLM의 할루시네이션을 과학적 창의성의 원천으로 재정의하고 실험적 검증으로 입증한 혁신적 연구이다. 신약 개발의 AI-인간-실험 협업 모델을 제시하며, 재현 가능성과 확장성 강화가 필요하다.

응용 사례

LLM을 활용한 과학 연구에서 타당성과 재현성을 확보하기 위한 구체적인 가이드라인을 제시한다.

반론/비판

AI 생성 가설의 실험 검증 성공률과 기존 연구의 재현 실패율을 비교하여 연구 방법론의 효과성을 평가할 수 있다.

반론/비판

기존 연구의 낮은 재현율에 비해 AI 생성 가설의 높은 실험 성공률은 연구 방법론의 혁신 가능성을 시사한다.