An autonomous AI agent for universal behavior analysis

Essence

그림 1: BehaveAgent 아키텍처. (a) 현재 행동 분석 방법론과 (b) BehaveAgent의 자동화된 워크플로우 비교

멀티모달 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 통합한 자율 AI 에이전트 BehaveAgent는 재학습이나 수동 개입 없이 비디오에서 동물 행동을 보편적으로 분석할 수 있다. 식물부터 인간까지 다양한 종과 실험 패러다임에서 제로샷(zero-shot) 시각 추론을 통해 행동 분석을 자동화한다.

Motivation

Known: 전통적 행동 분석 방법은 전문가의 수동 라벨링, 모델 미세조정, 각 맥락별 재학습이 필요하며 시간이 많이 소요되고 주관성이 높음. 현대의 포즈 추정(pose estimation) 도구들도 특정 종이나 실험 설정에 맞춰진 후에는 새로운 환경으로의 일반화에 실패함.
Gap: 기존 계산 방법들은 행동 데이터를 자율적으로 인지하고 추론하며 독립적으로 행동할 수 있는 적응형 에이전트 능력이 부족함. 인간 분석가처럼 맥락에 기반한 유연한 가설 생성, 패턴 인식, 실시간 분석 조정이 불가능함.
Why: 멀티모달 LLM과 VLM의 부상으로 복잡한 시각 데이터를 이해하고 추론할 수 있는 새로운 가능성이 열림. 이들 모델은 광대한 데이터셋에 학습되어 제로샷/퓨샷(few-shot) 일반화 능력이 뛰어남.
Approach: 다양한 AI 컴포넌트(LLM, VLM, 시각 그라운딩 모델, SAM2 분할 모델)를 멀티모달 컨텍스트 메모리와 목표 지향적 주의 메커니즘으로 통합한 자율 에이전트 개발.

Achievement

그림 2: 제로샷 행동 패러다임 감지 및 목표 설정. BehaveAgent가 생성된 비디오에서 자동으로 행동 유형을 인식하고 맞춤형 분석 목표를 설정함

제로샷 행동 패러다임 감지: OpenAI의 Sora로 생성된 비디오에서 추가 맥락 정보 없이 Morris Water Maze(쥐의 공간 학습), Corvid 문제해결(조류 인지), Primate 객체 조작, 얼굴 표정 분석 등 서로 다른 4가지 행동 패러다임을 자동 식별하고 전문화된 분석 목표 설정.
종 간 보편적 적용 가능성: 식물, 곤충, 설치류, 영장류, 인간에 이르는 다양한 생물 대상에서 추가 학습이나 미세조정 없이 행동 분석 수행 가능. 자동화된 피처 추적, 행동 수열 식별, 해석적 추론 제공.
포괄적 연구 보고서 생성: 행동 발견을 과학 문헌과 통합하여 목표, 방법론, 발견, 함의 및 참고문헌을 포함한 완전한 연구 문서 자동 생성.

How

그림 3: 목표 지향적 피처 감지 및 추론 기반 추적

그림 4: 비디오 객체 분할 및 VLM 안내 의미론적 라벨링을 통한 피처 클러스터링

그림 5: 맥락 인식 행동 시간적 분할

아키텍처 구성: GPT-4o, Claude-3.7-Sonnet, Gemini-2.5-Pro-Preview 등 멀티모달 LLM을 추론 및 계획 핵심으로 사용. Molmo 등 대규모 시각 그라운딩 모델로 자연어 지시를 통한 정확한 객체 위치 파악.
적응형 코어(Adaptive Core): 입력 비디오에서 행동 패러다임을 제로샷 감지하고 자동으로 목표 설정. VLM을 통해 실험 설정, 피사체, 행동 패턴 인식 (도메인별 미세조정 불필요).
다단계 워크플로우: (i) 행동 패러다임 및 목표 식별 → (ii) 적절한 분석 접근법 결정 → (iii) 맥락 인식 피처 추적, 분할, 시간적 행동 분할 → (iv) 시각 분석과 과학 문헌 통합 보고서 생성.
동적 코드 생성: Python 코드 자동 생성 및 실행으로 분석별 요구사항 충족 (수동 프로그래밍 제거).
문헌 통합: Google Scholar, SerpApi 등을 통해 관련 과학 논문 자동 검색 및 해석에 통합.
인간-AI 협력 모드: 자율 모드 외에 연구자의 특정 질문 해결, 행동의 작동적 정의, 분석 설계 및 실행 지원.

Originality

첫 번째 종합적 자율 에이전트: 행동 분석을 위한 완전 자율 멀티모달 AI 에이전트의 첫 개발. 기존 연구는 특정 피처 추적이나 분할만 다룸.
보편적 일반화: 재학습 없이 식물부터 인간까지 모든 종에서 작동하는 제로샷 능력. 기존 방법들은 종/패러다임별 미세조정 필요.
설명 가능한 추론: 에이전트의 의사결정 과정을 투명하게 노출하여 연구자가 결론 검증 가능 (블랙박스 모델과 대비).
엔드-투-엔드 자동화: 행동 정의부터 보고서 생성까지 전체 분석 파이프라인 자동화. 기존은 단편적 자동화만 제공.
문헌 통합 분석: 행동 결과를 자동으로 과학 문헌과 연결하여 생물학적 맥락 해석 및 향후 실험 제안 제시.

Limitation & Further Study

평가 범위 제한: 제시된 결과는 주로 AI 생성 비디오(Sora)에 기반하며, 실제 실험 비디오에서의 성능 검증 필요. 실제 동물 행동의 다양한 노이즈와 복잡성에 대한 강건성 미흡할 가능성.
정량적 검증 부족: 행동 인식 정확도, 추적 오류율, 보고서의 과학적 정합성 등에 대한 정량적 벤치마크 및 전문가 평가 부재.
계산 비용: 멀티모달 LLM 및 VLM의 API 호출 기반 구성으로 인한 높은 계산 비용과 지연 시간. 온-프레미스(on-premise) 배포 가능성 미검토.
할루시네이션(Hallucination) 위험: LLM의 거짓 생성 가능성으로 인한 잘못된 행동 해석이나 문헌 오인용 가능성.
후속 연구: (1) 실제 행동 영상 대규모 검증 데이터셋 구축 및 정량적 평가, (2) 전문가 라벨과의 비교 검증, (3) 엣지 케이스(edge case)와 예외 상황 처리 개선, (4) 계산 효율 최적화 및 경량화 모델 통합, (5) 행동 분석의 재현성(reproducibility) 확보를 위한 표준화 프로토콜 개발.

Evaluation

총평: BehaveAgent는 멀티모달 LLM 기반 자율 에이전트로서 행동 분석 분야에 혁신적 접근법을 제시하며 종 간 보편적 일반화 능력이 뛰어나나, 실제 행동 비디오 데이터에 대한 광범위한 정량적 검증과 성능 벤치마킹이 필요하다.

같이 보면 좋은 논문

다른 접근

BioInformatics Agent (BIA): Unleashing the Power of Large Language Models to Reshape Bioinformatics Workflow

생물정보학 분야에서 자연어 기반 자동 분석의 다른 접근법을 제시한다

다른 접근

BioInformatics Agent (BIA): Unleashing the Power of Large Language Models to Reshape Bioinformatics Workflow

행동 분석과 다른 생물정보학 자동 분석의 접근법을 제시한다

후속 연구

SpatialAgent: An autonomous AI agent for spatial biology

공간 생물학 분야로 자율 AI 에이전트의 행동 분석 능력을 확장한다

응용 사례

Transforming Behavioral Neuroscience Discovery with In-Context Learning and AI-Enhanced Tensor Methods

행동신경과학 발견에 인컨텍스트 학습을 적용한 실제 사례를 보여준다