An autonomous AI agent for universal behavior analysis

저자: Almir Aljović, Zuwan Lin, Wenbo Wang, Xinhe Zhang, Arnau Marin-Llobet | 날짜: 2025 | DOI: 10.1101/2025.05.15.653585


Essence

Figure 1

그림 1: BehaveAgent 아키텍처. (a) 현재 행동 분석 방법론과 (b) BehaveAgent의 자동화된 워크플로우 비교

멀티모달 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 통합한 자율 AI 에이전트 BehaveAgent는 재학습이나 수동 개입 없이 비디오에서 동물 행동을 보편적으로 분석할 수 있다. 식물부터 인간까지 다양한 종과 실험 패러다임에서 제로샷(zero-shot) 시각 추론을 통해 행동 분석을 자동화한다.

Motivation

Achievement

Figure 2

그림 2: 제로샷 행동 패러다임 감지 및 목표 설정. BehaveAgent가 생성된 비디오에서 자동으로 행동 유형을 인식하고 맞춤형 분석 목표를 설정함

  1. 제로샷 행동 패러다임 감지: OpenAI의 Sora로 생성된 비디오에서 추가 맥락 정보 없이 Morris Water Maze(쥐의 공간 학습), Corvid 문제해결(조류 인지), Primate 객체 조작, 얼굴 표정 분석 등 서로 다른 4가지 행동 패러다임을 자동 식별하고 전문화된 분석 목표 설정.
  2. 종 간 보편적 적용 가능성: 식물, 곤충, 설치류, 영장류, 인간에 이르는 다양한 생물 대상에서 추가 학습이나 미세조정 없이 행동 분석 수행 가능. 자동화된 피처 추적, 행동 수열 식별, 해석적 추론 제공.
  3. 포괄적 연구 보고서 생성: 행동 발견을 과학 문헌과 통합하여 목표, 방법론, 발견, 함의 및 참고문헌을 포함한 완전한 연구 문서 자동 생성.

How

Figure 3

그림 3: 목표 지향적 피처 감지 및 추론 기반 추적

Figure 4

그림 4: 비디오 객체 분할 및 VLM 안내 의미론적 라벨링을 통한 피처 클러스터링

Figure 5

그림 5: 맥락 인식 행동 시간적 분할

Originality

Limitation & Further Study

Evaluation

총평: BehaveAgent는 멀티모달 LLM 기반 자율 에이전트로서 행동 분석 분야에 혁신적 접근법을 제시하며 종 간 보편적 일반화 능력이 뛰어나나, 실제 행동 비디오 데이터에 대한 광범위한 정량적 검증과 성능 벤치마킹이 필요하다.

같이 보면 좋은 논문

다른 접근
생물정보학 분야에서 자연어 기반 자동 분석의 다른 접근법을 제시한다
다른 접근
행동 분석과 다른 생물정보학 자동 분석의 접근법을 제시한다
후속 연구
공간 생물학 분야로 자율 AI 에이전트의 행동 분석 능력을 확장한다
응용 사례
행동신경과학 발견에 인컨텍스트 학습을 적용한 실제 사례를 보여준다
← 목록으로 돌아가기