저자: Asiem Sanyal, Samuel Schapiro, Sumuk Shashidhar, Royce Moon, Lav R. Varshney, Dilek Hakkani‐Tür | 날짜: 2025 | DOI: N/A
SPARK의 end-to-end 파이프라인: XPLOR는 임베딩 기반 재귀적 문헌 검색을 수행하고, SPARK Idea Generator는 체인-오브-소트 프롬팅으로 연구 제안을 합성하며, SPARK Filter는 지도학습 미세조정된 JUDGE 모델을 통해 자동화된 동료평가 및 순위 매김을 수행한다.
대규모 언어 모델(LLM)과 계산 창의성(CC) 원칙을 결합하여 과학적 아이디어를 자동 생성하고 평가하는 통합 시스템을 제시한다. OpenReview의 600K 과학 리뷰로 훈련된 JUDGE 평가 모델을 통해 생성된 아이디어의 창의성을 자동 검토한다.
Spark 아이디어 생성 파이프라인: (A) 입력 개념 및 문제, (B) 구조화된 프롬트, (C) LLM 응답, (D) 생성된 아이디어
Spark Filter 파이프라인: 생성된 아이디어에 대해 JUDGE 모델이 다중 비평을 생성하고, 별도의 LLM이 최종 수락/거절 결정과 유용성 점수를 종합한다.
총평: 본 논문은 계산 창의성 원칙에 기반한 과학 아이디어 생성 시스템의 개념적 기여와 공개 데이터셋 제공으로 의미 있는 작업이나, JUDGE 모델의 평가 신뢰도 검증 부재와 기술적 세부 사항 부족으로 인해 완전성이 떨어진다. 향후 인간 평가와의 상관관계 분석 및 다양한 도메인으로의 확장 검증이 필요하다.