MLLM-based discovery of intrinsic coordinates and governing equations from high-dimensional data

저자: Ruikun Li, Yan Lu*, Shixiang Tang, Biqing Qi, Wanli Ouyang | 날짜: 2025 | 소속: Shanghai Artificial Intelligence Laboratory | DOI: 미기재


Essence

Figure 1

그림 1: 제안된 비디오 방정식 추론 프레임워크의 전체 파이프라인. 고차원 관측 데이터로부터 물리 좌표계 발견과 지배 방정식 추론을 수행한다.

본 논문은 멀티모달 대규모 언어 모델(MLLM)을 활용하여 고차원 동영상 데이터로부터 저차원 물리 좌표계와 지배 방정식을 자동으로 발견하는 Video Equation Reasoning (VER) 프레임워크를 제안한다. 향상된 시각적 프롬프트와 가설-평가-반복 추론 체인을 통해 종래 방법 대비 외삽 정확도를 약 26.96% 향상시킨다.

Motivation

Achievement

Figure 2

그림 2: 픽셀 좌표 시스템의 추론 결과. 파란색은 그라운드 트루스, 녹색과 회색 점선은 제안 방법의 궤적

Figure 3

그림 3: 잠재 좌표 시스템의 추론 결과

  1. 물리 좌표 자동 발견: 세 가지 향상된 시각적 프롬프트 도구(Spatial Measurement, Regional Amplifier, Plot Replayer)를 설계하여 MLLM의 공간 인식 능력 강화. 픽셀 좌표와 잠재 좌표 두 유형 모두에 대응 가능.
  2. 방정식 추론 성능 향상: 가설-평가-반복(hypothesis-assessment-iteration) 추론 체인을 통해 MLLM의 사전학습 지식을 방정식 탐색에 활용. 기존 symbolic regression 방법 대비 외삽 정확도 26.96% 향상 달성.
  3. 실제 데이터 검증: 시뮬레이션 데이터뿐만 아니라 Kármán vortex street 등 실험 데이터에서도 효과성 입증.

How

Originality

Limitation & Further Study

Evaluation

총평

본 논문은 멀티모달 대규모 언어 모델의 시각 인식 능력과 사전학습 지식을 물리 방정식 발견이라는 도전적인 문제에 창의적으로 적용한 우수한 연구이다. 향상된 시각적 프롬프트(특히 Spatial Measurement, Regional Amplifier)는 MLLM의 공간 인식 한계를 극복하는 실용적 해법을 제시한다. 다만 계산 비용 분석, 노이즈 강건성, 더 복잡한 동역학 시스템으로의 확장이 필요하며, 절대 성능 수치와 알고리즘 세부사항의 명확한 기술이 추가되면 더욱 강화될 수 있다.

같이 보면 좋은 논문

기반 연구
PDE 해결을 위한 신경 연산자의 수학적 기반이 동영상에서 물리 방정식을 발견하는 MLLM 접근의 이론적 토대가 된다.
기반 연구
고차원 데이터에서 저차원 물리 좌표 발견이 전자기 역산란 문제에서 물질 특성 매개변수화의 이론적 기반이 된다.
기반 연구
전자기 역산란에서 물질 특성 추론이 동영상 데이터에서 물리 법칙 발견의 역문제 해결 접근법에 이론적 기반을 제공한다.
다른 접근
멀티모달 LLM의 과학적 추론에서 위치 논문의 이론적 관점과 동영상 기반 물리 발견의 실증적 접근이라는 상호 보완적 시각이다.
후속 연구
동영상에서 물리 좌표계 발견 기법이 열관리 시스템의 다목적 설계에서 최적 매개변수 공간 탐색으로 확장될 수 있다.
후속 연구
열관리 시스템 설계에서 개발된 다목적 최적화 기법이 동영상 데이터의 물리 좌표계 발견에서 다중 목표 달성으로 확장될 수 있다.
응용 사례
멀티모달 LLM을 이용한 물리 방정식 발견이 신경 연산자 이론의 실제 동영상 데이터에 대한 구체적 적용 사례이다.
← 목록으로 돌아가기