Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

저자: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani | 날짜: 2025 | DOI: 10.48550/arXiv.2503.09516


Essence

강화학습(RL)을 통해 대언어모델(LLM)이 추론 과정 중 검색 엔진을 자동으로 호출하고 활용하는 방법을 학습하는 프레임워크 Search-R1을 제안하며, 기존 RAG 대비 최대 41%의 성능 향상을 달성한다.

Motivation

Achievement

Figure 1

Figure 1: PPO와 GRPO에서 검색 엔진을 활용한 훈련 과정. 롤아웃 중 LLM은 검색 엔진과 다중 턴 상호작용 수행

  1. 성능 향상: Qwen2.5-7B에서 기존 RAG 대비 평균 41% 상대 개선, Qwen2.5-3B에서 20% 개선 (7개 QA 데이터셋 평가)
  2. 안정적 훈련: 검색된 토큰의 손실 마스킹으로 RL 최적화 안정성 확보
  3. 해석 가능성: RL 방법 선택, LLM 모델 차이, 응답 길이 동역학에 대한 실증적 통찰 제공

How

Figure 2

Figure 2: PPO vs GRPO 수렴 비교

RL 객체 함수 (검색 엔진 통합):

핵심 기술:

```

J_PPO(θ) = min(πθ/π_old · A, clip(πθ/π_old, 1-ε, 1+ε) · A)

```

Figure 3

Figure 3: 검색된 토큰 손실 마스킹 연구

Originality

Limitation & Further Study

후속 연구:

Evaluation

총평: Search-R1은 검색 엔진 호출을 RL 최적화에 체계적으로 통합한 실용적 프레임워크로, 강력한 실험 결과와 구현 상세함이 강점이나, 이론적 깊이와 계산 효율성에 대한 추가 분석이 요구된다.

같이 보면 좋은 논문

기반 연구
검색 엔진 활용 자동화의 기본 원리를 강화학습 기반으로 구현한 방법론적 기초다.
다른 접근
LLM의 검색 활용 학습에서 추론-검색 통합 vs 다중 홉 질문 답변의 다른 접근 방식을 제시한다.
다른 접근
LLM이 검색을 활용하는 방법에서 자기-인센티브화 vs 강화학습 기반의 다른 학습 전략을 제시한다.
다른 접근
LLM의 검색 통합에서 다중 홉 질문 답변 vs 추론 과정 중 자동 검색의 서로 다른 활용 방식이다.
후속 연구
검색 증강 생성의 기본 개념을 LLM이 자동으로 검색 시점을 결정하는 고도화된 형태로 발전시킨다.
← 목록으로 돌아가기