The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

Motivation

Known: 최신 LLM들(GPT-4, Claude, Gemini 등)은 개별 연구 작업(논문 작성, 코딩, 아이디어 브레인스토밍)에서 인간 과학자의 보조 역할로 우수한 성능을 보이고 있음
Gap: 그러나 기존 연구는 과학 연구 프로세스의 일부분만 자동화하였으며, 아이디어 생성부터 논문 작성까지 전체 연구 사이클을 완전 자동화한 사례는 없음. 기존 자동화 연구도 사전에 정의된 탐색 공간에 제한됨
Why: 1970년대부터 과학 발견의 자동화를 목표로 해온 학문적 전통이 있으며, 최근 LLM의 코딩 능력 향상(Aider 등)이 이를 가능하게 함
Approach:
1. LLM의 체인-오브-싱킹(chain-of-thought)과 자기성찰(self-reflection) 활용
2. 자동화 코딩 어시스턴트(Aider)를 통한 실험 구현
3. 진화 연산과 개방형 탐색(open-endedness) 원칙 적용
4. 자동 논문 리뷰 시스템을 통한 품질 평가

Figure 2: ICLR 2022 OpenReview 데이터를 사용한 자동 리뷰 시스템의 성능 평가

완전 자동화 파이프라인 구현: 아이디어 생성→실험 설계→코드 작성→실험 실행→논문 작성→자동 리뷰까지 인간 개입 없이 전체 프로세스를 자동화
고품질 자동 리뷰 시스템: ICLR 2022 데이터 기반 평가에서 65% vs 66% 균형잡힌 정확도(balanced accuracy)로 인간 리뷰어와 유사한 성능 달성
비용 효율성: 논문 1편당 $15 미만의 저비용으로 수백 편의 중간 품질 논문을 일주일 내에 생성 가능
실제 논문 생성: 확산 모델(diffusion modeling), 언어모델(language modeling), 그로킹(grokking) 등 3개 분야에서 실제 학회 수용 기준을 초과하는 논문 생성 달성

Figure 3: AI Scientist가 자동으로 생성한 "Adaptive Dual-Scale Denoising" 논문의 미리보기

3단계 주요 프로세스:

기본 코드 템플릿에서 출발하여 다양한 연구 방향을 반복 생성
진화 연산 원칙에 따라 아이디어 아카이브를 누적
각 아이디어: 설명(description), 실험 계획(experiment plan), 재미(interestingness)/참신성(novelty)/실행가능성(feasibility) 점수 포함
Semantic Scholar API를 통한 문헌 검색으로 참신성 검증

최초 성과: 기존 연구는 하이퍼파라미터 탐색, 아키텍처 검색 등 특정 부분만 자동화하였으나, 본 논문은 아이디어 생성부터 논문 작성까지 전체 과학 연구 사이클의 완전 자동화 달성
LLM 에이전트 프레임워크의 혁신적 활용: 체인-오브-싱킹, 자기성찰, 자동화 코딩(Aider)을 통합하여 과학적 창의성과 실행 능력을 동시에 구현
진화적 아이디어 아카이브: 과거 연구 결과를 바탕으로 새로운 아이디어를 조건부로 생성하는 개방형 탐색 방식으로, 인간 과학 공동체의 누적 발전 프로세스를 모방
자동 리�뷰 시스템의 검증: 실제 학회 데이터(ICLR 2022)로 자동 리뷰의 신뢰성을 입증 (인간 수준 성능)
실용적 적용 가능성: 단순한 개념 증명이 아닌, 실제 작동하는 시스템으로 다수의 논문 생성

실험 규모의 제한: 계산 효율성을 위해 소규모 실험에 제한되어 있으나, 원칙적으로는 대규모 실험으로 확장 가능
도메인 의존성: 현재 기계학습 분야에만 적용되었으며, 실험 자동 실행이 어려운 분야(실험 생물학, 재료 과학 등)의 확장에는 별도 기술 필요
논문 품질의 편차: 수백 편의 논문 중 유의미한 기여도를 가진 논문의 비율, 완전히 새로운 발견의 정도에 대한 상세 분석 부재
자동 리뷰의 한계: ICLR과 같은 특정 학회 데이터로 훈련되어 다른 분야나 학회 리뷰 기준으로의 일반화 가능성 불명확
윤리적 고려사항: 대규모 자동 논문 생성으로 인한 학술출판 시스템 부담, 저작권, 과학적 엄밀성 기준에 대한 충분한 논의 필요
향후 연구 방향:
- 다양한 과학 분야로의 확장 (생물학, 물리학, 화학 등)
- 인간 과학자와의 협업 시스템 개발
- 자동 논문의 학술 출판 가능성 검증
- 다단계 검증 메커니즘 강화