저자: Libo Qin, Qiguang Chen, Hao Fei, Zhi Chen, Min Li, Wanxiang Che | 날짜: 2024 | DOI: 10.48550/arXiv.2410.20482
멀티모달 인-컨텍스트 학습의 세 가지 핵심 단계: 시연(demonstration) 검색, 순서 지정, 프롬프트 구성
본 논문은 시각 언어 모델(Vision LLM)에서 멀티모달 인-컨텍스트 학습(MM-ICL)의 성능을 결정하는 요소들을 체계적으로 분석합니다. 6개 모델과 20가지 전략을 통해 시연 검색, 순서 지정, 프롬프트 구성의 세 단계에서 성능에 영향을 미치는 핵심 요인들을 규명합니다.
시연 검색 프로세스: 샘플 표현, 비교, 선택의 세 단계
시연 순서 지정: 시연 내부(intra) 및 시연 간(inter) 순서의 영향
세 가지 지시문 주입 방식: 도입부(a), 총괄(b), 시연 내부(c)
총평: 본 논문은 급속히 발전하는 MM-ICL 분야에서 성능을 결정하는 근본 요인들을 처음으로 체계적으로 규명한 중요한 기초 연구입니다. 특히 멀티모달 정렬의 병목 현상과 모달리티 순서의 중요성 등의 발견은 향후 시각 언어 모델 개발과 프롬프트 최적화 연구에 실질적 방향을 제시합니다. 다만 작업 범위 확대, 통계적 엄밀성 강화, 동적 최적화 방향 탐색을 통해 일반화 가능성을 높일 필요가 있습니다.