저자: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang | 날짜: 2025 | DOI: 10.48550/arXiv.2508.05748
VL 추론 에이전트의 비교: WebWatcher는 순수 시각 추론이나 검색 기반 에이전트를 개별적으로 이길 수 없는 GAIA 사례를 해결하며, 다중 도구 통합과 심층 추론의 강점을 입증
WebWatcher는 비전-언어(Vision-Language, VL) 통합 추론 능력을 갖춘 멀티모달 심층 연구 에이전트로, 합성 멀티모달 궤적(synthetic multimodal trajectories)을 통한 효율적인 학습, 다양한 도구의 활용, 강화학습을 통한 일반화로 웹 검색, 이미지 분석, 웹페이지 탐색 등 복잡한 정보 추구 작업을 수행한다.
4개 벤치마크에서 WebWatcher의 전체 성능 비교: Humanity's Last Exam-VL에서 13.6점, BrowseComp-VL에서 27.0점, LiveVQA에서 58.7점, MMSearch에서 55.3점으로 GPT-4o, Gemini, Claude 등 폐쇄형 모델과 오픈소스 에이전트들을 능가
데이터 생성 파이프라인: Level 1과 Level 2의 2단계 프레임워크로 구성되며, QA 생성에서 이미지 검색, 그래프 생성, 검증을 거쳐 최종 VQA 쌍 생성
총평: WebWatcher는 텍스트 중심 web agent를 멀티모달 영역으로 성공적으로 확장한 의미 있는 연구로, 자동화된 데이터 생성 파이프라인과 다중 도구 통합이 핵심 강점이며, BrowseComp-VL