ScholarSearch: Benchmarking Scholar Searching Ability of LLMs

저자: Junting Zhou, Wang Li, Yiyan Liao, Nengyuan Zhang, Tingjia Miao, Zhihui Qi, Yuhan Wu, Tong Yang (Peking University) | 날짜: 2025 | DOI: 10.48550/arXiv.2506.13784


Essence

Figure 1

ScholarSearch의 데이터 수집 파이프라인: 학생들이 수집한 데이터를 여러 LLM으로 필터링한 후 전문 검토팀이 유일성, 출처 접근성, 학술적 정확성을 검증

본 논문은 LLM의 복잡한 학술 정보 검색 능력을 평가하기 위한 첫 번째 전문 벤치마크인 ScholarSearch를 제시한다. 기존의 학술 벤치마크(MMLU, GPQA)나 일반 웹 검색 벤치마크(BrowseComp)로는 충분하지 않은 깊이 있는 학술 연구 검색 능력을 측정한다.

Motivation

Achievement

Figure 2

15개 이상의 학문 분야에 걸친 ScholarSearch의 균형잡힌 분포

  1. 223개의 고품질 학술 질문 데이터셋:
    • 15개 이상의 학문 분야를 포함
    • 각 질문이 평균 3회 이상의 깊이 검색 필요
    • Grok DeepSearch와 Gemini Deep Research도 해결 불가능한 수준의 난이도
  2. 엄격한 데이터 수집 및 검증 메커니즘:
    • 학부/대학원 학생 및 전문 검토팀의 다단계 검증
    • 유일성(uniqueness), 출처 접근성(source accessibility), 학술 정확성(academic correctness) 검증
    • 기존 벤치마크 대비 더 높은 투명성과 추적 가능성

How

Figure 3

ScholarSearch 데이터셋의 구조: 질문, 답변, 설명, 학문 분야

데이터 수집 프로세스:

평가 프레임워크:

Originality

Limitation & Further Study

Evaluation

총평: ScholarSearch는 LLM의 학술 정보 검색 능력을 평가하기 위한 실질적이고 도전적인 벤치마크로서, 기존 벤치마크의 공백을 효과적으로 메운다. 데이터 수집의 엄격성과 학문 분야의 다양성이 강점이나, 규모 확장과 평가 메커니즘의 정교화를 통해 더욱 강력한 평가 도구로 발전할 수 있는 잠재력을 보유하고 있다.

← 목록으로 돌아가기