SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

저자: Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He (King's College London, The Alan Turing Institute) | 날짜: 2025 | DOI: 10.48550/arXiv.2504.00255


Essence

본 논문은 최근 NLP 논문들의 알고리즘 설명으로부터 코드를 생성하는 대형언어모델(LLM)의 능력을 평가하는 SciReplicate-Bench 벤치마크를 제안한다. 2024년 발표된 36개 NLP 논문의 100개 작업으로 구성되며, 알고리즘 이해와 코드 구현 두 가지 핵심 역량을 평가하는 신규 평가지표(reasoning graph accuracy)를 도입한다.

Motivation

Achievement

  1. SciReplicate-Bench 구축: 2024년 발표 36개 NLP 논문에서 추출한 100개의 알고리즘 재현 작업. 상세한 주석(reasoning graph annotations), 포괄적 테스트 케이스, 의존성 명시
  2. Reasoning Graph Accuracy 지표 제안: 알고리즘 이해 정도를 정량화. 생성된 추론 그래프와 참조 그래프 간 유사도 계산 (각 노드는 코드 주석, 엣지는 데이터 흐름 관계)
  3. Sci-Reproducer 프레임워크: Paper Agent가 문헌에서 알고리즘 개념 해석, Code Agent가 저장소에서 의존성 검색 및 구현 수행
  4. 포괄적 실증 분석:
    • 최고 성능 LLM도 39% execution accuracy에 불과 (극도로 어려운 벤치마크)
    • Reasoning 모델의 "overthinking" 현상 발견 (도구 사용 회피)
    • LLM은 알고리즘 이해는 강하나 실제 구현에서 약함
    • 재현 실패의 주요 원인: 논문의 불완전하거나 불일치하는 설명 → Sci-Reproducer가 효과적으로 해결

How

SciReplicate-Bench 작업 구성:

Sci-Reproducer 이중 에이전트 작동:

평가 지표:

Originality

Limitation & Further Study

Evaluation

총평: SciReplicate-Bench는 과학 논문 기반 알고리즘 재현이라는 중요하면서도 미탐사 영역에 첫 벤치마크를 제시하여 의의 있으나, reasoning graph 검증 방법론의 엄밀성 강화와 벤치마크 규모 확대가 필요하다.

← 목록으로 돌아가기