Multi-novelty: Improve the diversity and novelty of contents generated by large language models via inference-time multi-views brainstorming

Essence

다중 관점 임베딩을 통한 LLM 생성 콘텐츠의 다양성과 신규성 향상 개요

본 논문은 추론 시점(inference-time)에 텍스트와 이미지 기반 다중 관점(multi-view) 임베딩을 활용하여 대규모 언어모델(LLM)이 생성하는 콘텐츠의 다양성과 신규성을 개선하는 아키텍처 무관(model-agnostic) 방법을 제안한다.

Motivation

Known: LLM은 정확하고 유창한 텍스트 생성에 뛰어나지만, 반복적이고 결정론적인 응답을 생성하는 경향이 있다. 기존 연구에 따르면 500개 샘플 생성 후 50%가 비반복적이지만, 2,000개 이후에는 12.5%만이 비반복적 콘텐츠를 생성한다(Si et al., 2024).
Gap: 다양성과 신규성을 동시에 평가하는 포괄적 평가 프레임워크가 없으며, 단순히 온도(temperature) 조정으로는 충분한 다양성 향상을 달성할 수 없다.
Why: AI 과학자 에이전트나 창의적 작업에서는 단일 출력의 질보다 집단적 창의성(collective creativity)과 다양성이 중요하다. 사용자 연구에 따르면 AI 어시스턴트 사용은 개별 창의성은 높이지만 집단 다양성은 감소시킨다(Doshi and Hauser, 2024).
Approach: 프롬프트의 다양한 관점을 생성하는 다중 관점 생성기를 통해 LLM에 입력하기 전에 텍스트 및 이미지 기반 관점들을 융합한다.

Achievement

다양성, 신규성, 정확성 평가 결과 (전체 답변 vs 정확한 답변)

포괄적 평가 프레임워크 개발: 다양성(Diversity), 신규성(Novelty), 정확성(Correctness)을 동시에 평가하는 DNC 프레임워크 제안
대규모 실험 검증: 909,500개의 생성 응답을 포함한 909kPR 데이터셋을 구축하여 GPT-4o, DeepSeek-R1, Qwen 등 주요 모델들에서 개선 효과 입증
모델 무관 방법론: 기존 LLM 아키텍처 수정 없이 적용 가능한 추론 시점 기법으로 오픈소스 및 상용 모델 모두 호환

How

텍스트 다중 관점 임베딩 프로세스

이미지 기반 관점 생성 및 설명 개선 프로세스

1. 다중 관점 임베딩

텍스트 관점 임베딩 (Text View Embedding)

입력 프롬프트에 대해 GPT-4o를 사용하여 n=50개의 다양한 관점 생성
인터넷, 수동 입력, 또는 언어모델로 생성된 다양한 텍스트 소스 활용
각 관점을 LLM 입력 전에 결합

이미지 관점 임베딩 (Image View Embedding)

입력 프롬프트 관련 이미지를 웹에서 크롤링
Qwen-2VL 비전-언어 모델로 각 이미지를 텍스트 설명으로 변환
GPT-4o-mini를 사용하여 설명의 일관성과 구조 개선
개선된 설명을 추가 컨텍스트로 최종 응답 생성에 활용

2. 평가 지표 (DNC Framework)

다양성 측정 (Diversity)

MTLD (Measure of Textual Lexical Diversity): 어휘 다양성 측정 (TTR threshold = 0.72)
SDT (Semantic Diversity of Text): TF-IDF 벡터 기반 의미적 다양성 (SDT = 1 - Sim)
SDE (Semantic Diversity of Embeddings): BERT 임베딩 기반 컨텍스트 다양성
Self-BLEU: 생성 샘플 간 상호 유사도 측정

신규성 측정 (Novelty)

GPT-4o 기반 신규성 감지 메커니즘 활용

정확성 측정 (Correctness)

생성된 응답의 사실적 정확성 및 작업 완수도 평가

Originality

다중 모달리티 접근: 텍스트와 이미지 관점을 동시에 활용하는 하이브리드 방식으로 기존 단일 모달리티 접근과 차별화
포괄적 평가 프레임워크: 다양성, 신규성, 정확성을 통합하는 평가 시스템 제안 (기존 연구들은 단일 측면만 평가)
모델 무관성: 아키텍처 수정 없이 추론 단계에서 적용 가능하며, 오픈소스와 상용 모델 모두 호환
대규모 검증: 909k 규모의 생성 응답 데이터셋으로 광범위한 실증 검증

Limitation & Further Study

웹 의존성: 이미지 관점 생성이 웹 크롤링에 의존하여 접근 불가능한 주제에 대한 한계 존재
계산 비용: 다중 관점 생성(n=50)으로 인한 추론 비용 증가에 대한 상세 분석 부족
언어 제한: 실험이 영문에 한정되어 있으며 다국어 확장성 미검증
신규성 정의의 모호성: GPT-4o 기반 신규성 평가가 순환적 의존성을 가질 수 있음
후속 연구 방향:
- 계산 효율성을 개선하는 경량화된 관점 생성 방법 개발
- 다국어 및 도메인 특화 평가 지표 확대
- 신규성 정의에 대한 철학적 기초 강화
- 크로스 모달 관점 간 상호작용 분석

Evaluation

Novelty: 3.5/5 Technical Soundness: 3.5/5 Significance: 4/5 Clarity: 3.5/5 Overall: 3.5/5

총평: 본 논문은 LLM의 다양성과 신규성 문제에 실질적인 솔루션을 제시하며 909k 규모의 광범위한 실험으로 효과를 입증했으나, 기저 개념의 신규성이 제한적이고 계산 비용 및 다국어 확장성에 대한 고려가 충분하지 않다. 실무 적용 가치는 높으나 학술적 혁신성은 중간 수준.