MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation

저자: Taolin Han, Shuang Wu, Jinghang Wang, Yuhao Zhou, Renquan Lv, Bing Zhao, Wei Hu | 날짜: 2026-03-26 | DOI: N/A


Essence

Figure 1

분자 구조 해석을 제약 만족 문제(CSP)로 표현

본 논문은 화학 구조 해석 작업을 동적 다중 턴 에이전트 평가 벤치마크로 재정의한 MolQuest를 제안한다. 정적 QA 형식의 기존 과학 벤치마크의 한계를 극복하기 위해, 실제 화학 문헌 데이터 기반의 상호작용적 환경에서 LLM의 귀추적 추론(abductive reasoning) 및 전략적 의사결정 능력을 평가한다.

Motivation

Achievement

Figure 2

MolQuest 벤치마크의 핵심 특성(동적 상호작용, 실데이터 기반, 다차원 평가)

  1. 혁신적 평가 패러다임: 정적 QA에서 동적 순차적 의사결정(sequential decision-making) 문제로의 재정의로, 실제 실험실 워크플로우를 반영한 "계획-요청-추론" 루프 구현
  2. 고품질 실데이터셋 구성: 2025년 이후 발표된 화학 문헌에서 추출한 데이터로 50% 이상의 테스트 케이스 확보, 학습 데이터 오염 위험 최소화
  3. 심각한 성능 격차 발견: SOTA 모델도 약 50% 정도의 정확도만 달성하며, 대부분 모델은 30% 이하의 성능을 보임. 이는 LLM의 전략적 과학적 추론 능력의 심각한 부족을 입증
  4. 포괄적 평가 프레임워크: 12개 SOTA LLM에 대한 광범위한 평가 수행, 최종 답변 정확도를 넘어 의사결정 로직과 추론 과정 평가

How

Figure 3

데이터 처리 파이프라인: LLM 자동화와 전문가 검증의 인루프 결합

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.3/5

총평: MolQuest는 기존의 정적 QA 기반 과학 벤치마크의 근본적 한계를 인식하고, 실제 과학 연구의 동적·상호작용적 특성을 충실히 반영한 혁신적 평가 프레임워크를 제시한다. 특히 인루프 데이터 구성과 실제 문헌 기반 데이터 활용으로 높은 신뢰성을 확보했으며, SOTA 모델들의 심각한 성능 격차 발견은 AI for Science 연구의 중요한 방향을 제시한다. 다만 저성능의 원인 분석 심화와 벤치마크 규모에 대한 상세 기술이 추가되면 더욱 완성도 높은 논문이 될 것으로 예상된다.

같이 보면 좋은 논문

기반 연구
과학 지식의 다층 평가 체계가 화학 구조 해석에서 귀추적 추론 능력 평가의 기반을 제공한다.
기반 연구
다층적 과학 지식 평가 체계가 화학 구조 해석에서 귀추적 추론 능력을 체계적으로 진단하는 기반을 제공한다.
다른 접근
둘 다 생물학적 추론을 다루지만 MolQuest는 화학 구조 해석, BioMaze는 생물학적 경로 추론에 특화되어 있다.
다른 접근
둘 다 생물학적 시스템 추론을 다루지만 경로 추론과 분자 구조 해석이라는 서로 다른 생물학적 문제에 집중한다.
후속 연구
과학자 큐레이션 코딩 벤치마크가 화학 구조 해석의 동적 평가 방법론을 코딩 문제 해결로 확장했다.
← 목록으로 돌아가기