TheoremExplainAgent: Towards Video-based Multimodal Explanations for LLM Theorem Understanding

저자: Max Ku, C.P. Chong, Jonathan Leung, Krish Shah, Ai‐Ming Yu, Wenhu Chen | 날짜: 2025 | DOI: 미제공


Essence

Figure 1

아리스토텔레스의 인용구와 함께 시각화 설명의 중요성을 강조하는 그림. 버블 정렬 예시로 텍스트 설명과 시각적 설명의 이해도 차이를 보여줌

정리(Theorem) 이해를 위해 LLM이 5분 이상의 긴 형식 설명 비디오를 에이전트 기반으로 생성하는 새로운 접근법을 제시하며, 다중 모드 설명이 텍스트 기반 평가보다 더 깊은 추론 오류를 드러낼 수 있음을 입증한다.

Motivation

Achievement

Figure 2

다중 모드 정리 설명 프레임워크 개요. 정리 입력부터 정확도/심화도, 시각적 관련성, 논리적 흐름, 요소 레이아웃, 시각적 일관성 등 5개 평가 지표 산출까지의 파이프라인

Figure 3

TheoremExplainAgent의 두 에이전트 구조. 플래너 에이전트가 비전, 스토리보드, 애니메이션·나레이션, 기술 구현 계획을 생성하고, 코딩 에이전트가 에이전트 RAG를 통해 Manim 코드를 생성 및 디버깅함. IEEE 변환 예시에서 TypeError 해결 과정 표시

  1. 장시간 비디오 생성 성공: 기존 에이전트 미사용 방식(약 20초)과 대비하여 최대 10분 이상의 일관성 있는 설명 비디오 생성에 성공. 이는 장기 계획 및 실행 능력의 중요성을 입증.
  2. 높은 성공률과 품질: o3-mini 모델이 93.8% 성공률(video generation success rate)과 0.77의 종합 점수 달성. 정리의 난이도(쉬움/중간/어려움) 전반에 걸쳐 견고한 성능 유지.
  3. 다중 학문 분야 확장성: 수학, 물리, 화학, 컴퓨터과학 4개 STEM 분야에 걸쳐 240개 정리의 비디오 설명 생성으로 범용성 입증.
  4. 숨겨진 추론 오류 노출: 다중 모드 설명이 텍스트 기반 평가에서 놓치는 더 깊은 추론 오류를 드러냄. 모델이 표면적 단서를 활용하지 못하고 구조적 정확성을 명시적으로 증명해야 하므로 오류가 더 명확해짐.

How

Figure 4

TheoremExplainBench가 포함하는 컴퓨터과학, 화학, 수학, 물리의 세부 분야. 각 분야별 14-32개 하위 주제 카테고리 포함

시스템 아키텍처:

평가 메트릭 (5개 차원):

벤치마크 구성:

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

기반 연구
과학 통신의 왜곡 분석 연구가 정리 설명 비디오에서 발생할 수 있는 오해나 왜곡을 사전에 방지하는 기준을 제공한다.
후속 연구
과학적 가설 생성을 정리 설명을 위한 다중 모드 비디오 생성으로 확장하여 교육적 응용 가능성을 보여준다.
응용 사례
LLM 해석가능성 연구를 통해 정리 설명 에이전트의 추론 과정을 분석하고 설명 품질을 향상시킬 수 있다.
← 목록으로 돌아가기