저자: Haokun Liu, Sicong Huang, Jingyu Hu, Yangqiaoyu Zhou, Chenhao Tan | 날짜: 2025 | DOI: 10.48550/arXiv.2504.11524
대규모 언어모델(LLM)의 가설 생성(Hypothesis Generation) 능력을 체계적으로 평가하기 위해 7개의 실제 과제와 5개의 합성 과제로 구성된 194개 데이터셋을 포함하는 벤치마크 HypoBench를 제시한다. 합성 데이터셋에서 난이도 증가에 따라 성능이 급격히 저하되는 점(최고 38.8% 회복율)을 통해 현존 가설 생성 방법의 상당한 개선 여지를 드러낸다.
대학 입시 예시를 통해 합성 데이터셋의 난이도 제어 메커니즘을 보여줌: 특성 개수 증가, 노이즈 추가, 특성 상호작용, 방해 특성 추가
총평: HypoBench는 가설 생성 분야의 첫 체계적 벤치마크로서, 명확한 문제 정의와 194개 데이터셋의 방대한 규모에서 큰 가치를 지닌다. 특히 난이도 제어 가능한 합성 데이터를 통해 현존 방법(38.8% HDR)의 한계를 정량화한 점은 향후 연구에 명확한 방향성을 제시한다. 다만 실제 데이터의 그라운드 트루스 부재와 흥미로움 지표의 미완성이 평가의 완전성을 제약하므로, 후속 개선과 확장이 기대된다.