InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

저자: Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Qianli Ma, Guoyin Wang, Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Jiwei Li, Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu | 날짜: 2024 | DOI: arXiv:2401.05507


Essence

Figure 1

LLM 기반 에이전트가 CSV 파일을 입력받아 ReAct 방식으로 코드를 작성, 실행하고 결과를 도출하는 데이터 분석 태스크의 평가 프로세스

본 논문은 LLM 기반 에이전트의 데이터 분석 능력을 평가하기 위한 최초의 종합 벤치마크 InfiAgent-DABench를 제안한다. 257개의 폐쇄형(closed-form) 데이터 분석 질문과 52개의 CSV 파일로 구성된 DAEval 데이터셋과, 이를 평가하기 위한 에이전트 프레임워크를 제공한다.

Motivation

Achievement

Figure 2

DAEval 구성 워크플로우: CSV 파일 수집 → 설명 생성 → 개념 기반 질문 생성 → 제약조건 및 포맷 요구사항 생성 → 인간 검증

  1. 최초의 데이터 분석 벤치마크: 257개 질문, 52개 CSV 파일, 다양한 도메인과 18개 데이터 분석 핵심 개념 포함
  2. 광범위한 평가: 34개 최신 LLM 평가를 통해 현재 LLM의 데이터 분석 능력의 한계 규명
  3. 개선된 오픈소스 에이전트: DAInstruct 명령어 튜닝 데이터셋을 기반으로 학습한 DAAgent-34B가 GPT-3.5를 3.9% 상회하는 성능 달성

How

Figure 2

데이터 분석 개념, CSV 파일 설명, 제약조건을 통한 폐쇄형 질문 생성 프로세스

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LLM 기반 에이전트의 데이터 분석 능력을 평가하기 위한 최초의 종합 벤치마크를 제시하며, 포맷 프롬팅을 통한 폐쇄형 평가 방법론이 실용적이고 창의적이다. 광범위한 LLM 벤치마킹과 오픈소스 DAAgent 개발로 실제 임팩트를 제공하지만, 평가 방식의 표현 한계와 데이터셋 규모 제약이 개선될 필요가 있다.

같이 보면 좋은 논문

다른 접근
데이터 분석 에이전트 평가에서 종합 벤치마크와 케이스 기반 추론의 서로 다른 접근법을 제시한다.
다른 접근
데이터 과학 자동화에서 케이스 기반 추론과 종합 평가 벤치마크의 서로 다른 접근법이다.
후속 연구
머신러닝 에이전트 평가 벤치마크가 InfiAgent-DABench의 데이터 분석 평가 개념을 확장한다.
응용 사례
데이터 과학을 위한 LLM 에이전트가 InfiAgent-DABench의 평가 프레임워크를 실제 적용한 사례이다.
← 목록으로 돌아가기