InterFeedback: Unveiling interactive intelligence of large multimodal models via human feedback

Essence

그림 1: 대화형 피드백 시나리오 예시. 모델이 잘못된 응답을 생성할 때 인간 사용자가 관련 피드백을 제공하여 답변을 상호작용적으로 개선함

대형 다중모달 모델(LMM)이 인간의 피드백을 통해 자신의 응답을 개선할 수 있는 상호작용 능력을 평가하는 최초의 벤치마크를 제시한다. 기존 벤치마크들이 정적 평가에 집중한 반면, 본 연구는 대화형 인간-AI 상호작용 시나리오에서의 모델 성능을 측정한다.

Motivation

Known: 최신 LMM들(GPT-4o, Qwen2-VL, LLaVA 등)은 단일 라운드 다중모달 과제 해결에서 탁월한 성능을 보임
Gap: 기존 벤치마크들은 LMM의 정적 문제해결 능력만 평가하며, 인간 피드백을 통한 점진적 개선 능력은 거의 평가되지 않음
Why: 일반적인 AI 어시스턴트 개발에는 두 가지 핵심 능력이 필요: (1) 우수한 문제해결 능력 (2) 피드백을 통한 자기 개선 능력. 현재 이 두 번째 능력은 충분히 검토되지 않았음
Approach: 프로프라이터리 모델(GPT-4o)을 인간 역할로 사용하여 자동화된 피드백을 생성하고, 테스트 데이터를 정확히 선별하는 InterFeedback 프레임워크 제안

Achievement

그림 2: InterFeedback-Bench의 테스트 데이터 구성 프로세스. 각 LMM별로 피드백 수신자가 실패한 사례(음성 집합)와 피드백 제공자가 성공한 사례(양성 집합)의 교집합을 선별

InterFeedback 프레임워크: 모든 LMM과 데이터셋에 적용 가능한 확장성 있는 상호작용 평가 프레임워크 개발. POMDP(부분 관찰 가능 마르코프 결정 과정) 형식으로 상호작용 문제해결 과정을 수식화
InterFeedback-Bench 벤치마크: MMMU-Pro(1,730개)와 MathVerse(3,940개) 데이터셋을 이용하여 10개의 오픈소스 LMM 평가, 그리고 GPT-4o, OpenAI-o1, Claude-Sonnet-4 등 4개 프로프라이터리 모델의 인간 평가 수행
InterFeedback-Human 데이터셋: 프로프라이터리 모델의 상호작용 성능을 수동으로 테스트하기 위해 120개 사례로 구성된 새로운 수집 데이터셋 제시
주요 발견:
- OpenAI-o1을 포함한 최신 모델도 피드백 기반 응답 개선에서 평균 50% 미만의 성능을 보임
- 대부분의 LMM이 피드백 해석 및 통합에 최적화되지 않은 성능 발휘
- 고품질 피드백의 중요성: 낮은 품질의 피드백은 단순 이진 정확성 신호보다도 더 성능을 저하시킴
- 모델이 진정한 추론보다는 추측에 의존하는 경우 발견

How

그림 3: 모델의 자기개선 능력을 평가하기 위한 제안된 InterFeedback 프레임워크 개요

자동화된 상호작용 벤치마킹 (Automated Interactive Benchmarking)

POMDP 형식화: 자연어 질문 q와 이미지 v를 입력으로 받아, 모델이 관찰(O)에서 상태(S)를 인식하고 행동(A)을 생성. 보상 함수 R은 예측 답변과 정답의 정확도 매칭(0 또는 1)을 반환
데이터 선별 프로세스:
- 피드백 수신자(Mr) LMM이 실패한 과제들의 음성 집합(Un) 구성
- 피드백 제공자(Mp) LMM이 성공한 과제들의 양성 집합(Up) 구성
- 교집합(Utest = Un ∩ Up) 선별을 통해 신뢰할 수 있는 피드백만 사용
InterFeedback 프레임워크:
- 피드백 수신자(Mr): 평가 대상 LMM으로 다중 라운드 상호작용 수행
- 피드백 제공자(Mp): 프로프라이터리 모델(GPT-4o, Claude)이 인간 피드백 시뮬레이션
- 반복 라운드를 통해 모델이 피드백을 통합하고 개선된 답변 생성

인간 기반 평가 (Human-based Evaluation)

InterFeedback-Human 데이터셋: 120개의 수동 선별 사례로 구성된 검증 데이터셋
학습된 사용자(Trained User): 인간 평가자가 직접 피드백 제공하여 모델의 실제 상호작용 능력 평가
피드백 제공 전략: 모델의 오류 유형에 맞춤형 피드백 제공으로 신뢰성 있는 평가 보장

Originality

최초 시도: LMM의 인간 피드백을 통한 상호작용 개선 능력을 체계적으로 평가하는 첫 벤치마크 제시
신뢰성 있는 피드백 생성: 기존 사용자 시뮬레이션 연구와 달리, 교집합 선별을 통해 피드백 제공자의 신뢰성 보장 (음성/양성 집합 교차 검증)
POMDP 형식화: 다중 라운드 상호작용 문제해결을 엄격한 수학적 틀로 표현
다층적 평가: 자동화된 벤치마크와 인간 평가를 결합하여 종합적 검증
광범위한 모델 커버리지: 오픈소스(10개) 및 프로프라이터리 모델(4개) 모두 평가

Limitation & Further Study

제한사항:
- 피드백 제공자(Mp)의 정확성 자체가 제한되므로, 완벽한 피드백을 보장하지 못함 (MMMU-Pro에서 GPT-4o도 64.7% 정확도)
- 교집합 선별 방식으로 인해 각 모델별 테스트 데이터셋이 상이하여 직접 비교의 공정성 문제 가능
- 피드백 형식이 자연언어로 제한되어, 시각적 피드백이나 다른 상호작용 양식은 미포함
- 인간 평가(InterFeedback-Human)의 샘플 수가 120개로 상대적으로 제한적
후속 연구 방향:
- LMM의 피드백 이해 및 통합 능력을 향상시키는 새로운 학습 방법(fine-tuning, instruction tuning) 개발
- 다양한 피드백 유형(정정, 설명, 시각적 힌트)의 효과 분석
- 더 큰 규모의 인간 평가 데이터셋 구축으로 벤치마크 확장
- 모델의 진정한 추론 능력 vs. 추측 행동을 구분하는 진단 방법 개발

Evaluation

총평: 본 논문은 LMM의 상호작용 지능을 평가하는 중요하면서도 미개척된 영역에 최초로 접근하며, 자동화된 벤치마크와 인간 평가를 결합한 포괄적 평가 방법론을 제시한다. 다만, 현재 모든 모델의 낮은 성능과 피드백 제공자의 완벽성 미달 문제는 벤치마크의 실용성을 다소 제한하며, 후속 연구에서 모델 개선 방법론이 함께 제시되어야 할 것으로 판단된다.

같이 보면 좋은 논문

기반 연구

Model-in-the-loop (milo): Accelerating multimodal ai data annotation with llms

대화형 지능 측정의 기본 원리를 인간-AI 협력 주석 시스템의 상호작용 설계에 적용할 수 있습니다.

다른 접근

Can foundation models actively gather information in interactive environments to test hypotheses? arXiv preprint arXiv:2412.06438, 2024.

인간-AI 상호작용에서 모델의 능동적 정보 수집 능력을 다른 환경(Feature World vs 대화형 피드백)에서 평가한다.

다른 접근

Can foundation models actively gather information in interactive environments to test hypotheses? arXiv preprint arXiv:2412.06438, 2024.

대화형 환경에서 모델의 능동적 탐색 vs 피드백 기반 개선이라는 다른 상호작용 능력을 평가한다.

후속 연구

Enabling language models to implicitly learn self-improvement

언어모델의 자기개선 능력을 대화형 피드백을 통한 성능 향상으로 확장하여 평가한다.

후속 연구

Empowering language models with active inquiry for deeper understanding

대규모 멀티모달 모델의 상호작용 지능이 LaMAI의 능동적 질의 방법을 멀티모달 환경으로 확장했다.