PaSa: An LLM Agent for Comprehensive Academic Paper Search

저자: Yichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E | 날짜: 2025 | DOI: N/A


Essence

Figure 1

PaSa 시스템 아키텍처: Crawler와 Selector 두 개의 LLM 에이전트로 구성

PaSa는 복잡한 학술 논문 검색을 자동으로 수행하는 LLM 기반 에이전트로, 검색 도구 활용, 논문 읽기, 인용 네트워크 탐색을 통해 종합적이고 정확한 검색 결과를 제공한다. 합성 데이터(AutoScholarQuery)로 학습했음에도 실제 환경(RealScholarQuery)에서 Google Scholar 및 GPT-4o 기반 방법들을 크게 능가한다.

Motivation

Achievement

Figure 2

PaSa 워크플로우 예시: Crawler의 다양한 [Search] 실행과 인용 네트워크 탐색

  1. 성능 우수성: PaSa-7B는 AutoScholarQuery 테스트 셋에서 Google+GPT-4o 대비 Recall@20에서 34.05%, Recall@50에서 39.36% 향상. RealScholarQuery에서는 Recall@20 37.78%, Recall@50 39.90% 향상. PaSa-GPT-4o 대비 30.36% 재현율 향상.
  2. 합성 데이터의 효과성: 합성 데이터(AutoScholarQuery, 33.5k 쿼리-논문 쌍)로만 학습했음에도 실제 환경에서 우수한 성능 달성, 도메인 전이(domain transfer) 가능성 입증.
  3. 고품질 벤치마크 구축: 실제 연구자 50명의 쿼리로 구성된 RealScholarQuery 벤치마크 개발으로 현실적 평가 환경 제공.

How

Originality

Limitation & Further Study

Evaluation

총평: PaSa는 LLM 에이전트를 활용한 학술 논문 검색 문제의 창의적인 해법이며, 합성 데이터로의 학습이 실제 환경에서 우수한 성능을 달성하는 점이 주목할 만하다. 다만 데이터의 도메인 편향성과 평가 규모의 제한이 일반화 가능성에 대한 의문을 남긴다.

같이 보면 좋은 논문

기반 연구
LLM을 이용한 문헌 리뷰 자동화 연구가 복잡한 학술 논문 검색 에이전트 개발의 기초적 방법론을 제공한다.
다른 접근
학술 검색에서 종합적 논문 검색과 검색 증강 생성 기반 과학 질의응답이라는 서로 다른 접근법을 사용한다.
후속 연구
LLM 가이드 탐색 프레임워크가 PaSa의 학술 논문 검색을 더 넓은 지식 탐색으로 확장했다.
후속 연구
문헌 리뷰 자동화를 복잡한 학술 논문 검색으로 확장하여 더 포괄적인 문헌 조사 에이전트를 구현했다.
응용 사례
학술 논문 검색의 구체적 응용 사례로서 일반화된 EM 알고리즘 기반 검색 프레임워크를 보여준다.
← 목록으로 돌아가기