저자: Ken Gu, Ruoxi Shang, Ren Jiang, Keying Kuang, Ren Lin, Donghao Lyu, Yue Mao, Yiwei Pan, Teng Wu, Jiaqian Yu, Yikun Zhang, Tianmai M. Zhang, Lin Zhu, Mike A. Merrill, Jeffrey Heer, Tim Althoff | 날짜: 2024 | DOI: arXiv:2408.09667
BLADE 벤치마크는 데이터 기반 과학 분석을 위한 언어 모델 에이전트의 다면적 의사결정 과정을 자동으로 평가한다.
이 논문은 데이터 기반 과학 발견(data-driven scientific discovery)을 위해 언어 모델(LM) 에이전트의 분석 능력을 평가하는 첫 번째 벤치마크 BLADE를 제시한다. 12개의 실제 데이터셋과 연구 질문에 대해 전문가 데이터 과학자들의 다중 분석을 수집하고, 에이전트의 생성 분석을 자동으로 평가할 수 있는 프레임워크를 개발했다.
변환을 코드와 열 데이터 흐름(column data flow)으로 표현하여 유연한 세분화된 매칭을 가능하게 한다.
각 언어 모델과 ReAct 에이전트의 정밀도(top row)와 커버리지(bottom row) 비교: 통계 모델 형성에서 특히 낮은 성능을 보임.
총평: 이 논문은 언어 모델 에이전트의 데이터 기반 과학 분석 능력을 평가하는 첫 번째 체계적이고 자동화된 벤치마크를 제시함으로써, AI 기반 과학 발견 도구 개발에 중요한 기초를 마련했다. 다층 의사결정 구조와 자동 평가 프레임워크의 설계가 뛰어나며, 현 언어 모델의 한계를 명확히 규명했다는 점에서 학술적, 실용적 의의가 크다. 다만 벤치마크 규모 확대 및 평가 신뢰성 강화가 필요하다.