저자: Taolin Han, Shuang Wu, Jinghang Wang, Yuhao Zhou, Renquan Lv, Bing Zhao, Wei Hu | 날짜: 2026-03-26 | DOI: N/A
분자 구조 해석을 제약 만족 문제(CSP)로 표현
본 논문은 화학 구조 해석 작업을 동적 다중 턴 에이전트 평가 벤치마크로 재정의한 MolQuest를 제안한다. 정적 QA 형식의 기존 과학 벤치마크의 한계를 극복하기 위해, 실제 화학 문헌 데이터 기반의 상호작용적 환경에서 LLM의 귀추적 추론(abductive reasoning) 및 전략적 의사결정 능력을 평가한다.
MolQuest 벤치마크의 핵심 특성(동적 상호작용, 실데이터 기반, 다차원 평가)
데이터 처리 파이프라인: LLM 자동화와 전문가 검증의 인루프 결합
총평: MolQuest는 기존의 정적 QA 기반 과학 벤치마크의 근본적 한계를 인식하고, 실제 과학 연구의 동적·상호작용적 특성을 충실히 반영한 혁신적 평가 프레임워크를 제시한다. 특히 인루프 데이터 구성과 실제 문헌 기반 데이터 활용으로 높은 신뢰성을 확보했으며, SOTA 모델들의 심각한 성능 격차 발견은 AI for Science 연구의 중요한 방향을 제시한다. 다만 저성능의 원인 분석 심화와 벤치마크 규모에 대한 상세 기술이 추가되면 더욱 완성도 높은 논문이 될 것으로 예상된다.