Webdancer: Towards autonomous information seeking agency

저자: Jing Wu, Baixuan Li, Runnan Fang, Weihua Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Xi Zhang, Gang Fu, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou | 날짜: 2025 | DOI: 10.48550/arXiv.2505.22648


Essence

Figure 1

그림 1: CRAWLQA와 E2HQA 두 가지 웹 데이터 생성 파이프라인. CRAWLQA는 웹 페이지 크롤링을 통해 깊이 있는 질문을 구성하고, E2HQA는 간단한 질문을 반복적으로 복잡하게 변환하여 멀티스텝 추론을 요구하는 QA 쌍을 생성한다.

본 논문은 웹 환경에서 자율적 정보 탐색을 수행하는 에이전트(WebDancer)를 구축하기 위한 체계적 파이프라인을 제시한다. 데이터 중심의 관점에서 고품질 탐색 데이터와 궤적(trajectory)을 생성하고, 감독학습(SFT)과 강화학습(RL)을 순차적으로 적용하여 멀티스텝 정보 탐색 능력을 갖춘 에이전트를 학습시킨다.

Motivation

Achievement

Figure 2

그림 2: 제안된 훈련 프레임워크 개요. SFT 단계에서는 재포맷된 궤적으로 콜드 스타트를 수행하고, RL 단계에서는 DAPO 알고리즘으로 에이전트의 의사결정과 일반화 능력을 최적화한다.

Figure 4

그림 4: GAIA 벤치마크에서 Pass@1, Pass@3, Cons@3 지표를 사용한 상세한 평가 결과. WebDancer는 강력한 성능을 달성한다.

  1. 멀티스텝 정보 탐색 데이터셋 구축: CRAWLQA와 E2HQA를 통해 기존 데이터셋보다 깊이 있는 멀티홉 추론을 요구하는 QA 쌍을 대규모로 생성. CRAWLQA는 실제 웹 환경의 구조를 반영하고, E2HQA는 단순 질문을 점진적으로 복잡화하여 약에서 강 에이전트로의 학습 경로를 제공.
  2. 체계적 훈련 파이프라인의 효과성: GAIA와 WebWalkerQA 벤치마크에서 강력한 성능 달성. 데이터 효율성 분석을 통해 제안된 방법의 우월성을 입증하였으며, RL 단계에서의 DAPO 알고리즘이 SFT 단계에서 미활용된 QA 쌍을 효과적으로 활용.
  3. 에이전트 학습에 대한 체계적 분석: 짧은 CoT(Short-CoT)와 긴 CoT(Long-CoT)의 역할, 거절 샘플링의 효과, RL 알고리즘의 영향 등에 대한 상세한 분석을 제시하여 향후 에이전트 개발을 위한 실행 가능한 지침 제공.

How

Figure 1

1단계: 심층 정보 탐색 데이터셋 합성

CRAWLQA

E2HQA

2단계: 에이전트 궤적 거절 샘플링

ReAct 기반 에이전트 설정

Short CoT & Long CoT 구성

3단계: 감독 미세조정(SFT)을 통한 콜드 스타트

4단계: 강화학습(RL)을 통한 일반화 향상

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 3/5

같이 보면 좋은 논문

기반 연구
정보 검색 에이전트의 자기 개선 원리를 웹 환경에서의 자율적 탐색으로 구현한 기초 방법론이다.
다른 접근
웹 정보 탐색에서 자율적 에이전시 vs 종단간 다중턴 RL의 서로 다른 학습 및 실행 방식이다.
다른 접근
웹 기반 정보 탐색에서 딥 리서치 vs 자율적 탐색 에이전시의 다른 접근 방식을 보인다.
다른 접근
웹 에이전트 학습에서 종단간 다중턴 RL vs 자율적 정보 탐색의 서로 다른 훈련 방식을 보인다.
후속 연구
검색 증강 생성을 웹 환경에서의 체계적 정보 탐색 파이프라인으로 확장한 발전된 형태다.
후속 연구
웹 에이전트의 다국어 확장 버전
← 목록으로 돌아가기