WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

저자: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu | 날짜: 2025 | DOI: 10.48550/arXiv.2505.16421


Essence

웹 에이전트(Web Agent) 학습을 위한 종단 간(End-to-End) 다중턴 강화학습 프레임워크를 제안하며, 동적 컨텍스트 압축과 병렬 궤적 생성을 통해 실제 웹 환경에서의 장기 의사결정을 효과적으로 수행하도록 훈련한다.

Motivation

Achievement

Figure 1: Comparison between existing methods and our WEBAGENT-R1 on the WebArena-Lite benchmark.

WebArena-Lite 벤치마크에서 기존 방법 대비 WebAgent-R1의 성능 비교

  1. 성능 향상: Qwen-2.5-3B를 6.1%에서 33.9%로, Llama-3.1-8B를 8.5%에서 44.8%로 성공률 향상. GPT-4o, OpenAI o3 등 강력한 프롬프팅 기반 모델을 능가한다.
  2. 확장성: 다양한 모델 크기(3B~32B)에서 일관되게 우수한 성과를 입증하며, 온폴리 방식으로 외부 감독(예: GPT-4 기반 보상 모델) 없이 자체적으로 완성된 학습이 가능하다.

How

Figure 2: Overview of the end-to-end multi-turn RL training framework used in WEBAGENT-R1.

WebAgent-R1의 종단 간 다중턴 RL 훈련 프레임워크 개요

핵심 메커니즘

상호작용 형식

```

Web: [Task] + [HTML content]

Agent: reasoning do('Action')

Web: [Updated HTML]

...반복...

Agent: exit(message='Task Completed')

```

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 웹 에이전트 학습의 실무적 과제(메모리, 외부 감독)를 창의적으로 해결하여 상당한 성능 향상을 달성했으며, 온폴리 강화학습의 다중턴 상호작용 환경으로의 확장을 성공적으로 입증한 의미 있는 기여이다.

같이 보면 좋은 논문

기반 연구
정보 검색 에이전트의 반복적 자기 개선 원리를 웹 환경의 구체적 구현으로 발전시킨다.
다른 접근
웹 에이전트 학습에서 종단간 다중턴 RL vs 자율적 정보 탐색의 서로 다른 훈련 방식을 보인다.
다른 접근
웹 정보 탐색에서 자율적 에이전시 vs 종단간 다중턴 RL의 서로 다른 학습 및 실행 방식이다.
후속 연구
일반 GUI에서 웹 에이전트로 특화된 확장
후속 연구
다국어 웹 벤치마크로 확장하여 웹 에이전트의 범용성을 평가할 수 있는 기준을 제공한다.
후속 연구
정보 검색 에이전트의 자기 개선을 웹 환경에서의 종단간 다중턴 학습으로 발전시킨다.
← 목록으로 돌아가기