저자: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu | 날짜: 2025 | DOI: 10.48550/arXiv.2504.21776
그림 2: RAG 패러다임 비교: (a) 표준 RAG, (b) 사전 정의된 워크플로우가 있는 고급 RAG, (c) WebThinker의 자율적 도구 호출
대규모 추론 모델(LRM)의 정적 지식 의존성을 극복하기 위해, 웹 탐색과 정보 수집을 추론 과정에 통합하는 자율 딥 리서치 에이전트를 제시한다. WebThinker는 LRM이 웹 페이지를 동적으로 탐색하고 실시간으로 보고서를 작성할 수 있도록 지원한다.
그림 1: 두 가지 작업에서 WebThinker와 다른 모델의 전체 성능 비교: 복잡한 문제 해결(좌측)과 과학 보고서 생성(우측)
그림 3: WebThinker 프레임워크 개요. (1) 문제 해결 모드는 Deep Web Explorer로 웹 탐색을 가능하게 하고, (2) 보고서 생성 모드는 사고-검색-작성을 동시에 수행
총평: WebThinker는 LRM의 추론 능력과 웹 정보 탐색을 효과적으로 결합하여 복잡한 지식 집약적 작업에서 뛰어난 성과를 보여준다. 특히 온라인 DPO 기반의 end-to-end 최적화와 실시간 Think-Search-and-Draft 전략은 고도로 독창적이며, 광범위한 벤치마크에서 proprietary 시스템을 능가하는 실증적 성과는 중요하다. 다만 계산 비용과 웹 신뢰성 문제는 실제 배포 시 고려해야 할 과제이다.