InterFeedback: Unveiling interactive intelligence of large multimodal models via human feedback

저자: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou | 날짜: 2025 | DOI: N/A


Essence

Figure 1

그림 1: 대화형 피드백 시나리오 예시. 모델이 잘못된 응답을 생성할 때 인간 사용자가 관련 피드백을 제공하여 답변을 상호작용적으로 개선함

대형 다중모달 모델(LMM)이 인간의 피드백을 통해 자신의 응답을 개선할 수 있는 상호작용 능력을 평가하는 최초의 벤치마크를 제시한다. 기존 벤치마크들이 정적 평가에 집중한 반면, 본 연구는 대화형 인간-AI 상호작용 시나리오에서의 모델 성능을 측정한다.

Motivation

Achievement

Figure 2

그림 2: InterFeedback-Bench의 테스트 데이터 구성 프로세스. 각 LMM별로 피드백 수신자가 실패한 사례(음성 집합)와 피드백 제공자가 성공한 사례(양성 집합)의 교집합을 선별

  1. InterFeedback 프레임워크: 모든 LMM과 데이터셋에 적용 가능한 확장성 있는 상호작용 평가 프레임워크 개발. POMDP(부분 관찰 가능 마르코프 결정 과정) 형식으로 상호작용 문제해결 과정을 수식화
  2. InterFeedback-Bench 벤치마크: MMMU-Pro(1,730개)와 MathVerse(3,940개) 데이터셋을 이용하여 10개의 오픈소스 LMM 평가, 그리고 GPT-4o, OpenAI-o1, Claude-Sonnet-4 등 4개 프로프라이터리 모델의 인간 평가 수행
  3. InterFeedback-Human 데이터셋: 프로프라이터리 모델의 상호작용 성능을 수동으로 테스트하기 위해 120개 사례로 구성된 새로운 수집 데이터셋 제시
  4. 주요 발견:
    • OpenAI-o1을 포함한 최신 모델도 피드백 기반 응답 개선에서 평균 50% 미만의 성능을 보임
    • 대부분의 LMM이 피드백 해석 및 통합에 최적화되지 않은 성능 발휘
    • 고품질 피드백의 중요성: 낮은 품질의 피드백은 단순 이진 정확성 신호보다도 더 성능을 저하시킴
    • 모델이 진정한 추론보다는 추측에 의존하는 경우 발견

How

Figure 3

그림 3: 모델의 자기개선 능력을 평가하기 위한 제안된 InterFeedback 프레임워크 개요

자동화된 상호작용 벤치마킹 (Automated Interactive Benchmarking)

인간 기반 평가 (Human-based Evaluation)

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LMM의 상호작용 지능을 평가하는 중요하면서도 미개척된 영역에 최초로 접근하며, 자동화된 벤치마크와 인간 평가를 결합한 포괄적 평가 방법론을 제시한다. 다만, 현재 모든 모델의 낮은 성능과 피드백 제공자의 완벽성 미달 문제는 벤치마크의 실용성을 다소 제한하며, 후속 연구에서 모델 개선 방법론이 함께 제시되어야 할 것으로 판단된다.

같이 보면 좋은 논문

기반 연구
대화형 지능 측정의 기본 원리를 인간-AI 협력 주석 시스템의 상호작용 설계에 적용할 수 있습니다.
다른 접근
인간-AI 상호작용에서 모델의 능동적 정보 수집 능력을 다른 환경(Feature World vs 대화형 피드백)에서 평가한다.
다른 접근
대화형 환경에서 모델의 능동적 탐색 vs 피드백 기반 개선이라는 다른 상호작용 능력을 평가한다.
후속 연구
언어모델의 자기개선 능력을 대화형 피드백을 통한 성능 향상으로 확장하여 평가한다.
후속 연구
대규모 멀티모달 모델의 상호작용 지능이 LaMAI의 능동적 질의 방법을 멀티모달 환경으로 확장했다.
← 목록으로 돌아가기