UI-TARS: Pioneering Automated GUI Interaction with Native Agents

저자: Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang | 날짜: 2025 | DOI: 10.48550/arXiv.2501.12326


Essence

Figure 1

UI-TARS가 항공편 검색을 돕는 데모 사례

스크린샷만을 입력으로 받아 마우스, 키보드 조작 등 인간 같은 상호작용을 수행하는 네이티브 GUI 에이전트 모델로, 상용 모델(GPT-4o)에 기반한 프레임워크들을 뛰어넘는 엔드-투-엔드(end-to-end) 성능을 달성했다.

Motivation

Achievement

Figure 2

GUI 에이전트의 진화 경로

Figure 3

핵심 역량 및 평가 개요

  1. 벤치마크 우수 성능: OSWorld에서 50스텝 기준 24.6점(Claude 22.0 초과), AndroidWorld에서 46.6점(GPT-4o 34.5 초과) 달성, 10개 이상의 GUI 에이전트 벤치마크에서 SOTA(State-of-the-Art) 성능 달성
  2. 통합 아키텍처: 지각, 행동 모델링, System-2 추론, 메모리를 하나의 엔드-투-엔드 모델로 통합하여 모듈식 프레임워크보다 우수한 성능 달성
  3. 자동 데이터 수집 및 정제: 수백 대의 가상 머신을 활용한 자동 궤적(trace) 수집 및 다단계 필터링으로 대규모 고품질 데이터 생성

How

Figure 4

UI-TARS의 아키텍처 개요 및 핵심 역량

Figure 5

지각 및 그라운딩 데이터 예시

Originality

Limitation & Further Study

Evaluation

총평: UI-TARS는 GUI 에이전트 분야의 패러다임 전환을 제시하는 중요한 논문으로, 엔드-투-엔드 네이티브 모델이 모듈식 프레임워크를 실제로 능가할 수 있음을 보여주었으며, 특히 자동화된 데이터 수집과 반성 기반 학습 메커니즘은 향후 유사한 구체화(embodied) AI 분야의 발전에 중요한 기여를 할 것으로 기대된다.

같이 보면 좋은 논문

다른 접근
GUI 자동화를 위한 다른 네이티브 에이전트 접근 방식
후속 연구
소프트웨어 개발 에이전트의 개념을 GUI 상호작용까지 확장하여 더 포괄적인 사용자 인터페이스 자동화를 달성할 수 있습니다.
← 목록으로 돌아가기