저자: Patrick Tser Jern Kon, Jiachen Liu, Qi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen | 날짜: 2025 | DOI: N/A
Figure 1. Curie overview.
본 논문은 대규모 언어 모델(LLM) 기반 AI 에이전트를 활용하여 엄밀하고 자동화된 과학 실험 수행을 가능하게 하는 프레임워크 Curie를 제안한다. 신뢰성(reliability), 방법론적 통제(methodical control), 해석가능성(interpretability)을 갖춘 세 가지 핵심 모듈을 통해 실험 과정에 엄밀함을 내재화하고, 기존 베이스라인 대비 3.4배 향상된 성능을 달성한다.
Figure 2. Case Study. Curie는 반복 샘플링의 이점에 관한 기존 연구를 검증, 확장, 비판할 수 있다.
Figure 3. Curie workflow with an example task in LLM reasoning. Architect는 고수준 계획 설계와 발견 사항 반영을 담당하고, Technician은 계획에 따른 실험 구현 및 실행을 담당한다.
Figure 4. Intra-ARM setup validation high-level workflow.
Figure 5. Errors detected by two of Intra-ARM's many validators.
총평: Curie는 LLM 기반 과학 실험 자동화에서 체계적 엄밀성 강제라는 중요한 공백을 최초로 해결하며, 세 가지 모듈의 통합 설계와 현실 기반 벤치마크 구성으로 상당한 기술적 기여를 제시한다. 다만 도메인 확장성과 인간-AI 협업 메커니즘 고도화가 실제 과학 연구 적용의 열쇠가 될 것으로 보인다.