저자: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani | 날짜: 2025 | DOI: 10.48550/arXiv.2503.09516
강화학습(RL)을 통해 대언어모델(LLM)이 추론 과정 중 검색 엔진을 자동으로 호출하고 활용하는 방법을 학습하는 프레임워크 Search-R1을 제안하며, 기존 RAG 대비 최대 41%의 성능 향상을 달성한다.
Figure 1: PPO와 GRPO에서 검색 엔진을 활용한 훈련 과정. 롤아웃 중 LLM은 검색 엔진과 다중 턴 상호작용 수행
Figure 2: PPO vs GRPO 수렴 비교
RL 객체 함수 (검색 엔진 통합):
핵심 기술:
```
J_PPO(θ) = min(πθ/π_old · A, clip(πθ/π_old, 1-ε, 1+ε) · A)
```
로 검색 쿼리, 으로 검색 결과, 로 추론, 로 최종 답변 감싸기
Figure 3: 검색된 토큰 손실 마스킹 연구
후속 연구:
총평: Search-R1은 검색 엔진 호출을 RL 최적화에 체계적으로 통합한 실용적 프레임워크로, 강력한 실험 결과와 구현 상세함이 강점이나, 이론적 깊이와 계산 효율성에 대한 추가 분석이 요구된다.