Multimodal deepresearcher: Generating text-chart interleaved reports from scratch with agentic framework

저자: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Luoxuan Weng, Yingchaojie Feng, Haozhe Feng, Minfeng Zhu, Bo Zhang, Wei Chen | 날짜: 2025 | DOI: 미공개


Essence

Figure 2

Figure 2: Multimodal DeepResearcher의 프레임워크 - 4단계(조사, 예시 보고서 텍스트화, 계획, 멀티모달 보고서 생성)로 분해

본 논문은 대규모 언어 모델(LLM)을 활용하여 텍스트와 차트가 유기적으로 통합된 멀티모달 보고서를 자동으로 생성하는 시스템을 제안한다. 핵심 혁신은 시각화를 구조화된 텍스트 표현(FDV: Formal Description of Visualization)으로 변환하여 LLM의 맥락 학습(in-context learning)을 가능하게 한 점이다.

Motivation

Achievement

Figure 1

Figure 1: Multimodal DeepResearcher가 생성한 다양한 차트 예시 (면적도, 산키도, 대시보드, 수평막대그래프, 원형차트, 인포그래픽)

  1. 새로운 작업 정의 및 평가 체계: 텍스트-차트 통합 보고서 생성이라는 새로운 작업을 정의하고, 100개의 다양한 주제와 10개의 전담 지표(보고서 수준 5개, 차트 수준 5개)를 포함한 MultimodalReportBench 벤치마크를 구축했다.
  2. 우수한 성능: Claude 3.7 Sonnet을 기반으로 기존 방법(DataNarrative) 대비 82% 승률을 달성하였으며, 자동 평가와 인간 평가 모두에서 일관된 우월성을 입증했다.
  3. 복잡한 차트 생성: 단순한 막대/선 차트를 넘어 산키도, 대시보드, 인포그래픽 등 다양하고 정교한 시각화를 생성할 수 있다.

How

Figure 3

Figure 3: FDV(Formal Description of Visualization)의 작동 원리 - 레이아웃, 척도, 데이터, 마크의 4가지 관점으로 시각화 캡처

4단계 에이전틱 프레임워크:

  1. 조사 단계(Researching)
    • 주어진 주제에 대해 관련 키워드 생성
    • 반복적인 웹 검색과 추론을 통해 포괄적인 정보 수집
    • 각 정보와 참고문헌 추적
  2. 예시 보고서 텍스트화(Exemplar Report Textualization)
    • 인간 전문가의 멀티모달 보고서를 FDV로 구조화
    • FDV는 차트의 (1)전체 레이아웃, (2)플롯팅 척도, (3)데이터, (4)마크 표시의 4가지 관점 캡처
    • 맥락 학습 예시로 활용
  3. 계획 단계(Planning)
    • 보고서 내용 구조 및 시각화 스타일 가이드 수립
    • 일관된 미적 표현 보장
  4. 멀티모달 보고서 생성(Multimodal Report Generation)
    • 초안 작성(Drafting)
    • 차트 코드 생성(Coding)
    • 반복적 차트 개선(Refining)

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LLM 기반 멀티모달 보고서 자동 생성이라는 중요한 미충족 문제를 처음 체계적으로 다루었으며, FDV라는 창의적인 표현 방식과 4단계 에이전틱 프레임워크로 강력한 성능(82% 승률)을 달성했다. 다만 평가 데이터의 규모 확장과 더 다양한 모델에 대한 검증이 필요하다.

같이 보면 좋은 논문

기반 연구
멀티모달 학습 요소 분석이 텍스트-차트 통합 보고서 생성의 기초 방법론을 제공합니다.
기반 연구
차트 이해 기술이 텍스트-차트 통합 보고서 생성에서 시각화 요소 처리의 핵심 기반이 됩니다.
다른 접근
텍스트-차트 통합과 텍스트 기반 과학 도형 생성이라는 서로 다른 방향의 멀티모달 변환을 수행합니다.
후속 연구
멀티모달 학습 원리가 구조화된 텍스트 표현을 통한 시각화 생성으로 확장됩니다.
후속 연구
차트 이해 능력이 텍스트-차트 통합 보고서 자동 생성의 직접적인 확장 응용입니다.
← 목록으로 돌아가기