저자: Almir Aljović, Zuwan Lin, Wenbo Wang, Xinhe Zhang, Arnau Marin-Llobet | 날짜: 2025 | DOI: 10.1101/2025.05.15.653585
그림 1: BehaveAgent 아키텍처. (a) 현재 행동 분석 방법론과 (b) BehaveAgent의 자동화된 워크플로우 비교
멀티모달 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 통합한 자율 AI 에이전트 BehaveAgent는 재학습이나 수동 개입 없이 비디오에서 동물 행동을 보편적으로 분석할 수 있다. 식물부터 인간까지 다양한 종과 실험 패러다임에서 제로샷(zero-shot) 시각 추론을 통해 행동 분석을 자동화한다.
그림 2: 제로샷 행동 패러다임 감지 및 목표 설정. BehaveAgent가 생성된 비디오에서 자동으로 행동 유형을 인식하고 맞춤형 분석 목표를 설정함
그림 3: 목표 지향적 피처 감지 및 추론 기반 추적
그림 4: 비디오 객체 분할 및 VLM 안내 의미론적 라벨링을 통한 피처 클러스터링
그림 5: 맥락 인식 행동 시간적 분할
총평: BehaveAgent는 멀티모달 LLM 기반 자율 에이전트로서 행동 분석 분야에 혁신적 접근법을 제시하며 종 간 보편적 일반화 능력이 뛰어나나, 실제 행동 비디오 데이터에 대한 광범위한 정량적 검증과 성능 벤치마킹이 필요하다.