저자: Yansheng Qiu, Haoquan Zhang, Zhaopan Xu, Ming Li, Diping Song, Zheng Wang, Kaipeng Zhang | 날짜: 2025 | DOI: arXiv:2504.14191
그림 1: 기존 아이디어 생성 파이프라인(a)과 제안된 AI Idea Bench 2025(b)의 비교. 본 연구는 목표 논문의 내용을 먼저 파악한 후 이를 ground truth로 활용하여 아이디어 평가에 참고자료를 제공한다.
대규모 언어 모델(LLM)의 AI 연구 아이디어 생성 능력을 정량적으로 평가하기 위해 3,495개의 AI 논문과 이를 영감준 논문들로 구성된 포괄적인 벤치마크 데이터셋 및 평가 프레임워크를 제시한다. 기존 평가 방식의 데이터 누수, 불완전한 ground truth, 제한된 실행 가능성 분석 문제를 해결한다.
그림 2: AI Idea Bench 2025의 전체 파이프라인. 목표 논문에서 동기, 실험 단계, 주제, 영감 논문을 추출한 후, 영감 논문에서 추출한 동기와 실험 단계를 결합하여 아이디어를 생성하고, 6가지 평가 지표로 아이디어 생성 방법들을 비교한다.
그림 2에 상세히 표시된 전체 파이프라인
총평: AI Idea Bench 2025는 LLM 기반 아이디어 생성 평가의 핵심 문제점들(data leakage, 불완전한 ground truth)을 명확히 진단하고 대규모 고품질 벤치마크와 다차원 평가 프레임워크로 해결하는 의미 있는 연구이다. 다만 자동 추출 정확도 검증, 평가 지표 가중치 최적화, 인간 평가와의 일치도 검증 등 실증적 검증이 보강되면 그 가치가 더욱 높아질 것으로 예상된다.