저자: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu | 날짜: 2025 | DOI: 10.48550/arXiv.2505.16421
웹 에이전트(Web Agent) 학습을 위한 종단 간(End-to-End) 다중턴 강화학습 프레임워크를 제안하며, 동적 컨텍스트 압축과 병렬 궤적 생성을 통해 실제 웹 환경에서의 장기 의사결정을 효과적으로 수행하도록 훈련한다.
WebArena-Lite 벤치마크에서 기존 방법 대비 WebAgent-R1의 성능 비교
WebAgent-R1의 종단 간 다중턴 RL 훈련 프레임워크 개요
```
Web: [Task] + [HTML content]
Agent:
Web: [Updated HTML]
...반복...
Agent: exit(message='Task Completed')
```
총평: 본 논문은 웹 에이전트 학습의 실무적 과제(메모리, 외부 감독)를 창의적으로 해결하여 상당한 성능 향상을 달성했으며, 온폴리 강화학습의 다중턴 상호작용 환경으로의 확장을 성공적으로 입증한 의미 있는 기여이다.