저자: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou | 날짜: 2025 | DOI: arXiv:2503.21248v2
본 논문은 과학적 발견 과정에서 LLM의 역량을 평가하기 위한 첫 번째 대규모 벤치마크 ResearchBench를 제시한다. 영감 검색(inspiration retrieval), 가설 구성(hypothesis composition), 가설 순위 결정(hypothesis ranking)의 세 가지 하위 작업으로 과학 발견 과정을 분해하고, 12개 분야의 1,386편 논문(2024년 발행)으로부터 자동 추출 프레임워크를 통해 벤치마크를 구축했다.
영감 검색 프레임워크: 논문에서 추출된 잠재적 영감을 필요성 검증(Necessary Checker)과 충분성 검증(Sufficient Checker)을 거쳐 확정
총평: ResearchBench는 과학 발견에서 LLM의 역량을 평가하는 첫 번째 체계적이고 대규모의 벤치마크로서, 영감 검색의 OOD 능력 발견과 자동 추출 프레임워크의 설계에서 상당한 원창성을 보유하고 있다. 다만, 추출 정확도의 한계, "영감"의 철학적 정의 부재, 생성 가설의 과학적 타당성 검증 부재 등이 미해결 과제로 남아 있으며, 이들이 해소될 경우 과학 발견 자동화 연구의 중요한 기반이 될 수 있을 것으로 판단된다.