저자: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Luoxuan Weng, Yingchaojie Feng, Haozhe Feng, Minfeng Zhu, Bo Zhang, Wei Chen | 날짜: 2025 | DOI: 미공개
Figure 2: Multimodal DeepResearcher의 프레임워크 - 4단계(조사, 예시 보고서 텍스트화, 계획, 멀티모달 보고서 생성)로 분해
본 논문은 대규모 언어 모델(LLM)을 활용하여 텍스트와 차트가 유기적으로 통합된 멀티모달 보고서를 자동으로 생성하는 시스템을 제안한다. 핵심 혁신은 시각화를 구조화된 텍스트 표현(FDV: Formal Description of Visualization)으로 변환하여 LLM의 맥락 학습(in-context learning)을 가능하게 한 점이다.
Figure 1: Multimodal DeepResearcher가 생성한 다양한 차트 예시 (면적도, 산키도, 대시보드, 수평막대그래프, 원형차트, 인포그래픽)
Figure 3: FDV(Formal Description of Visualization)의 작동 원리 - 레이아웃, 척도, 데이터, 마크의 4가지 관점으로 시각화 캡처
4단계 에이전틱 프레임워크:
총평: 본 논문은 LLM 기반 멀티모달 보고서 자동 생성이라는 중요한 미충족 문제를 처음 체계적으로 다루었으며, FDV라는 창의적인 표현 방식과 4단계 에이전틱 프레임워크로 강력한 성능(82% 승률)을 달성했다. 다만 평가 데이터의 규모 확장과 더 다양한 모델에 대한 검증이 필요하다.