저자: Kai Ruan, Xuan Wang, Jixiang Hong, Peng Wang, Yang Liu, Hao Sun | 날짜: 2024 | DOI: N/A
LiveIdeaBench의 전체 설계: (a) 1,000개 이상의 과학 키워드를 사용한 발산적 사고 촉진, (b) 판정 LLM이 5가지 차원으로 평가, (c) 상위 10개 최첨단 모델로 구성된 동적 평가 패널, (d-f) Guilford 창의성 이론 기반 5가지 차원 평가 방법론
본 논문은 최소한의 맥락(단일 키워드)을 사용하여 대규모 언어모델(LLM)의 과학적 아이디어 생성 능력과 발산적 사고(divergent thinking) 능력을 평가하는 포괄적인 벤치마크 LiveIdeaBench를 제시한다. 40개 이상의 모델을 22개 과학 분야의 1,180개 키워드로 평가한 결과, 과학적 아이디어 생성 능력이 일반 지능 점수로 잘 예측되지 않음을 보여준다.
LiveIdeaBench에서의 모델 성능 비교: (a) 개방 가중치 및 독점 모델의 5가지 차원별 점수 및 전체 성능, (b) 주요 모델들의 다차원 성능 프로필, (c) 과학 키워드의 워드클라우드
과학 분류별 LiveIdeaBench의 모델 성능: 다양한 과학 영역(물리학, 화학, 생물학 등)에서 평균 성능을 시각화한 히트맵
총평: LiveIdeaBench는 LLM의 과학적 창의성 평가에 새로운 관점을 제시하며, 일반 지능과 창의성의 독립성을 실증한 의미 있는 벤치마크다. 다만 평가의 최소 맥락화, 판정자 편향, 실제 과학 성과로의 연결 고리 등 여러 한계가 있어 추가 검증과 개선이 필요하다.