저자: Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang | 날짜: 2025 | DOI: 10.48550/arXiv.2501.12326
UI-TARS가 항공편 검색을 돕는 데모 사례
스크린샷만을 입력으로 받아 마우스, 키보드 조작 등 인간 같은 상호작용을 수행하는 네이티브 GUI 에이전트 모델로, 상용 모델(GPT-4o)에 기반한 프레임워크들을 뛰어넘는 엔드-투-엔드(end-to-end) 성능을 달성했다.
GUI 에이전트의 진화 경로
핵심 역량 및 평가 개요
UI-TARS의 아키텍처 개요 및 핵심 역량
지각 및 그라운딩 데이터 예시
총평: UI-TARS는 GUI 에이전트 분야의 패러다임 전환을 제시하는 중요한 논문으로, 엔드-투-엔드 네이티브 모델이 모듈식 프레임워크를 실제로 능가할 수 있음을 보여주었으며, 특히 자동화된 데이터 수집과 반성 기반 학습 메커니즘은 향후 유사한 구체화(embodied) AI 분야의 발전에 중요한 기여를 할 것으로 기대된다.