저자: Ruikun Li, Yan Lu*, Shixiang Tang, Biqing Qi, Wanli Ouyang | 날짜: 2025 | 소속: Shanghai Artificial Intelligence Laboratory | DOI: 미기재
그림 1: 제안된 비디오 방정식 추론 프레임워크의 전체 파이프라인. 고차원 관측 데이터로부터 물리 좌표계 발견과 지배 방정식 추론을 수행한다.
본 논문은 멀티모달 대규모 언어 모델(MLLM)을 활용하여 고차원 동영상 데이터로부터 저차원 물리 좌표계와 지배 방정식을 자동으로 발견하는 Video Equation Reasoning (VER) 프레임워크를 제안한다. 향상된 시각적 프롬프트와 가설-평가-반복 추론 체인을 통해 종래 방법 대비 외삽 정확도를 약 26.96% 향상시킨다.
그림 2: 픽셀 좌표 시스템의 추론 결과. 파란색은 그라운드 트루스, 녹색과 회색 점선은 제안 방법의 궤적
그림 3: 잠재 좌표 시스템의 추론 결과
본 논문은 멀티모달 대규모 언어 모델의 시각 인식 능력과 사전학습 지식을 물리 방정식 발견이라는 도전적인 문제에 창의적으로 적용한 우수한 연구이다. 향상된 시각적 프롬프트(특히 Spatial Measurement, Regional Amplifier)는 MLLM의 공간 인식 한계를 극복하는 실용적 해법을 제시한다. 다만 계산 비용 분석, 노이즈 강건성, 더 복잡한 동역학 시스템으로의 확장이 필요하며, 절대 성능 수치와 알고리즘 세부사항의 명확한 기술이 추가되면 더욱 강화될 수 있다.