WebThinker: Empowering Large Reasoning Models with Deep Research Capability

저자: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu | 날짜: 2025 | DOI: 10.48550/arXiv.2504.21776


Essence

Figure 2

그림 2: RAG 패러다임 비교: (a) 표준 RAG, (b) 사전 정의된 워크플로우가 있는 고급 RAG, (c) WebThinker의 자율적 도구 호출

대규모 추론 모델(LRM)의 정적 지식 의존성을 극복하기 위해, 웹 탐색과 정보 수집을 추론 과정에 통합하는 자율 딥 리서치 에이전트를 제시한다. WebThinker는 LRM이 웹 페이지를 동적으로 탐색하고 실시간으로 보고서를 작성할 수 있도록 지원한다.

Motivation

Achievement

Figure 1

그림 1: 두 가지 작업에서 WebThinker와 다른 모델의 전체 성능 비교: 복잡한 문제 해결(좌측)과 과학 보고서 생성(우측)

  1. 복잡한 추론 벤치마크 성능: GPQA(64.6%), GAIA(48.5%), WebWalkerQA(46.5%), HLE(15.8%)에서 강력한 결과를 달성. Search-o1-32B 대비 GAIA에서 21.9%, HLE에서 36.2% 우월.
  2. 과학 보고서 생성: Glaive 데이터셋에서 Grok3 DeeperSearch, Gemini 2.0 Deep Research를 능가. 종합성(Comprehensive) 8.3, 철저성(Thorough) 8.4, 사실성(Factuality) 7.7 달성.
  3. 스케일링 효율성: DeepSeek-R1 기반 모델에서 7B부터 32B까지 일관된 성능 향상 입증.

How

Figure 3

그림 3: WebThinker 프레임워크 개요. (1) 문제 해결 모드는 Deep Web Explorer로 웹 탐색을 가능하게 하고, (2) 보고서 생성 모드는 사고-검색-작성을 동시에 수행

문제 해결 모드 (Problem-Solving Mode)

보고서 생성 모드 (Report Generation Mode)

훈련 전략

형식화

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5

총평: WebThinker는 LRM의 추론 능력과 웹 정보 탐색을 효과적으로 결합하여 복잡한 지식 집약적 작업에서 뛰어난 성과를 보여준다. 특히 온라인 DPO 기반의 end-to-end 최적화와 실시간 Think-Search-and-Draft 전략은 고도로 독창적이며, 광범위한 벤치마크에서 proprietary 시스템을 능가하는 실증적 성과는 중요하다. 다만 계산 비용과 웹 신뢰성 문제는 실제 배포 시 고려해야 할 과제이다.

같이 보면 좋은 논문

기반 연구
검색 증강 생성 기반의 과학적 질의응답 시스템의 기초 방법론을 활용한다.
다른 접근
웹 기반 정보 탐색에서 딥 리서치 vs 자율적 탐색 에이전시의 다른 접근 방식을 보인다.
후속 연구
정보 검색 에이전트의 자기 개선을 웹 탐색과 실시간 보고서 작성으로 확장한 구현체다.
← 목록으로 돌아가기