Iterative self-incentivization empowers large language models as agentic searchers

저자: Zhengliang Shi, Lingyong Yan, Dawei Yin, Suzan Verberne, Maarten de Rijke, Zhaochun Ren | 날짜: 2025 | DOI: arXiv:2505.20128


Essence

Figure 2

그림 2: EXSEARCH의 Expectation-Maximization 프로세스 개요. E-step에서는 탐색 궤적을 샘플링하고 가중치를 할당하며, M-step에서는 재가중치 손실함수로 LLM을 학습시킨다.

본 논문은 대규모 언어모델(LLM)을 정보 검색 에이전트로 자동 개선하는 자기-인센티브화 기반 탐색 프레임워크(EXSEARCH)를 제안한다. 일반화 EM 알고리즘을 통해 검색 궤적을 잠재변수로 취급하고, LLM이 생성한 데이터로부터 반복적으로 학습하는 자기 루프를 형성한다.

Motivation

Achievement

Figure 1

그림 1: HotpotQA 데이터셋에서 다양한 LLM에 EXSEARCH를 적용한 성능. 여러 모델과 스케일에서 안정적인 수렴을 보임.

  1. 성능 향상: 4개 지식 집약적 벤치마크에서 강력한 베이스라인 대비 정확 일치도(Exact Match) 7.8% 향상 달성
  2. 수렴 이론 보장: 자기-인센티브화 훈련 프로세스의 수렴성을 이론적으로 증명하여 안정성 보장
  3. 확장성 검증: EXSEARCH-Zoo를 통해 다양한 백본 LLM(LLaMA, Qwen, Mistral) 및 모델 규모(3B~24B)에서 일관된 효과 입증
  4. 통합 프레임워크: 동적 문서 검색, 증거 추출, 답변 생성을 단일 LLM으로 통합하여 end-to-end 최적화 실현

How

Figure 2

핵심 방법론:

$$p(z | x; \theta) = \prod_{i=1}^{|z|} p(x_i | x, z_{

$$w(z) \propto p(y | x, z; \theta_t)$$

(궤적이 정답을 얼마나 잘 지원하는지 반영)

$$\max_\theta \mathbb{E}_{z \sim p(z|x;\theta_t)} [w(z) \log p(z|x;\theta) + w(z) \log p(y|x,z;\theta)]$$

여기서 첫 항은 검색 학습(L_R), 두 번째 항은 답변 생성 학습(L_A)을 담당

Originality

Limitation & Further Study

Evaluation

총평: EXSEARCH는 LLM 기반 정보 검색 에이전트를 자기-인센티브화된 자기 개선 루프로 학습하는 이론적으로 견고한 프레임워크를 제시하며, 지식 집약적 작업에서 일관된 성능 향상을 보여준다. 다만 계산 효율성 개선과 더 광범위한 작업 영역 검증이 이루어진다면 더 강력한 기여가 될 수 있다.

같이 보면 좋은 논문

기반 연구
반복적 자기 인센티브화 LLM 연구가 LEO의 엘리티즘 기반 탐색 전략의 이론적 기반을 제공한다.
기반 연구
정보 검색 에이전트의 반복적 자기 개선 원리를 웹 환경의 구체적 구현으로 발전시킨다.
기반 연구
검색 엔진 활용 자동화의 기본 원리를 강화학습 기반으로 구현한 방법론적 기초다.
기반 연구
정보 검색 에이전트의 자기 개선 원리를 웹 환경에서의 자율적 탐색으로 구현한 기초 방법론이다.
다른 접근
LLM이 검색을 활용하는 방법에서 자기-인센티브화 vs 강화학습 기반의 다른 학습 전략을 제시한다.
다른 접근
대규모 언어모델의 자기 인센티브화를 통한 다른 반복적 추론 개선 접근법을 제시한다
후속 연구
정보 검색 에이전트의 자기 개선을 웹 환경에서의 종단간 다중턴 학습으로 발전시킨다.
후속 연구
정보 검색 에이전트의 자기 개선을 웹 탐색과 실시간 보고서 작성으로 확장한 구현체다.
후속 연구
정보 검색 에이전트의 자기 개선을 언제 어떻게 검색할지 자동 학습하는 고도화된 형태로 발전시킨다.
후속 연구
강화학습 기반 자기개선의 확장된 적용
응용 사례
학술 논문 검색의 구체적 응용 사례로서 일반화된 EM 알고리즘 기반 검색 프레임워크를 보여준다.
← 목록으로 돌아가기