저자: Zhengliang Shi, Lingyong Yan, Dawei Yin, Suzan Verberne, Maarten de Rijke, Zhaochun Ren | 날짜: 2025 | DOI: arXiv:2505.20128
그림 2: EXSEARCH의 Expectation-Maximization 프로세스 개요. E-step에서는 탐색 궤적을 샘플링하고 가중치를 할당하며, M-step에서는 재가중치 손실함수로 LLM을 학습시킨다.
본 논문은 대규모 언어모델(LLM)을 정보 검색 에이전트로 자동 개선하는 자기-인센티브화 기반 탐색 프레임워크(EXSEARCH)를 제안한다. 일반화 EM 알고리즘을 통해 검색 궤적을 잠재변수로 취급하고, LLM이 생성한 데이터로부터 반복적으로 학습하는 자기 루프를 형성한다.
그림 1: HotpotQA 데이터셋에서 다양한 LLM에 EXSEARCH를 적용한 성능. 여러 모델과 스케일에서 안정적인 수렴을 보임.
핵심 방법론:
$$p(z | x; \theta) = \prod_{i=1}^{|z|} p(x_i | x, z_{
$$w(z) \propto p(y | x, z; \theta_t)$$
(궤적이 정답을 얼마나 잘 지원하는지 반영)
$$\max_\theta \mathbb{E}_{z \sim p(z|x;\theta_t)} [w(z) \log p(z|x;\theta) + w(z) \log p(y|x,z;\theta)]$$
여기서 첫 항은 검색 학습(L_R), 두 번째 항은 답변 생성 학습(L_A)을 담당
총평: EXSEARCH는 LLM 기반 정보 검색 에이전트를 자기-인센티브화된 자기 개선 루프로 학습하는 이론적으로 견고한 프레임워크를 제시하며, 지식 집약적 작업에서 일관된 성능 향상을 보여준다. 다만 계산 효율성 개선과 더 광범위한 작업 영역 검증이 이루어진다면 더 강력한 기여가 될 수 있다.