SciCode: A Research Coding Benchmark Curated by Scientists

저자: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng | 날짜: 2024-07-18 | DOI: 10.48550/arXiv.2407.13168


Essence

과학자들이 직접 큐레이션한 과학 연구 문제 중심의 코딩 벤치마크를 제시하여, 언어 모델(LM)의 실제 과학 보조 능력을 평가할 수 있는 고품질 평가 도구를 개발하였다.

Motivation

Achievement

Figure 1

Figure 1: SciCode 주요 문제가 여러 개의 더 작고 쉬운 부분 문제로 분해되는 구조

  1. 포괄적 벤치마크 구성: 80개 주요 문제로부터 338개 부분 문제로 구성된 대규모 벤치마크 개발 (16개 과학 분야, 50개 개발 세트, 288개 테스트 세트)
  2. 높은 난이도 수준: 최고 성능 모델인 Claude3.5-Sonnet이 가장 현실적인 설정에서 4.6% 문제 해결, 배경 정보 제공 시에도 12.3%에 불과 (GPT-4o는 1.5%, Deepseek-Coder-v2는 3.1%)
  3. 고품질 주석: 각 문제마다 2명 이상의 박사급 이상 연구자가 검증·개정한 과학 배경 정보, 표준 솔루션, 테스트 케이스 제공

How

Figure 2

Figure 2: (a) 주요 문제 분포 및 (b) 부분 문제 분포 (물리 46%, 재료과학 16%, 수학 18%)

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 과학 분야 코딩 능력 평가에 대한 중요한 공백을 채우면서, 과학자들의 직접 참여로 벤치마크의 현실성과 신뢰성을 확보한 우수한 자원 논문이다. 현존 최고 성능 모델들도 4.6%의 저조한 성능을 보여주며 향후 과학 AI 개발의 명확한 목표와 평가 기준을 제시한다.

같이 보면 좋은 논문

기반 연구
코드 생성 모델의 함수형 정확성 평가가 과학 연구 코딩 벤치마크 설계의 기초가 된다
기반 연구
AutoML 벤치마킹 방법론이 과학 코딩 능력 평가 프레임워크 설계에 기초를 제공한다
기반 연구
언어모델 에이전트의 과학적 분석 능력 평가가 과학 코딩 벤치마크 설계의 기초가 된다
기반 연구
과학자가 큐레이션한 연구 코딩 벤치마크로 자동 코드 변환의 품질을 평가하는 기준을 제공합니다.
다른 접근
과학 코딩 능력과 데이터 분석 능력이라는 상호보완적인 과학적 AI 평가 접근법이다
후속 연구
일반적인 코드 생성 평가를 과학자들이 직접 큐레이션한 연구 중심 코딩 작업으로 특화했다
후속 연구
과학자가 큐레이션한 코딩 벤치마크가 Code Llama의 과학 연구 분야 적용 성능을 평가하고 개선한다.
후속 연구
과학자 큐레이션 코딩 벤치마크가 화학 구조 해석의 동적 평가 방법론을 코딩 문제 해결로 확장했다.
응용 사례
과학 코딩 벤치마크를 AutoML과 LLM 통합 시스템의 성능 평가에 적용할 수 있다
응용 사례
다국어 코드 생성 능력을 과학 연구 코딩이라는 특화된 작업에 적용하여 평가한다
← 목록으로 돌아가기