저자: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao | 날짜: 2025 | DOI: 미제공
그림 1: DeepResearch Bench에서의 에이전트 성능 개요. 좌측: 평가 차원별 생성된 보고서 품질 점수, 우측: 에이전트 인용 정확도 및 평균 효과적 인용 수
본 논문은 대규모 언어모델 기반 깊이 있는 연구 에이전트(Deep Research Agents, DRAs)를 체계적으로 평가하기 위한 최초의 종합 벤치마크 DeepResearch Bench를 제시한다. 22개 분야의 박사 수준 연구 과제 100개와 두 가지 혁신적인 평가 방법론(RACE, FACT)을 통해 DRA의 보고서 생성 품질과 정보 검색 능력을 정량적으로 평가한다.
그림 2: DeepResearch Bench 개요. (a) 분포 분석 및 데이터 수집 파이프라인, (b) RACE 프레임워크 개요, (c) FACT 프레임워크 개요
그림 3: 44,019개 필터링된 깊이 있는 연구 과제의 주제 분포
총평: 본 논문은 빠르게 발전하는 LLM 기반 에이전트 분야에서 Deep Research Agents를 체계적으로 평가하기 위한 첫 번째 종합 벤치마크를 제시하며, 실제 사용자 데이터 기반 설계와 인간 판단과 일치하는 평가 프레임워크를 통해 높은 실용성과 신뢰성을 확보했다. 다만 평가 방법론의 일부가 기존 기법에 의존하고, 더 광범위한 언어 및 도메인 확장이 필요한 점이 보완되어야 한다.