저자: C. O'Neill, Tirthankar Ghosal, R. Raileanu, Mike Walmsley, Thang Bui, Kevin Schawinski, Ioana Ciuca | 날짜: 2025 | DOI: 미공개
HypoGen 파이프라인: 논문 초록에서 Bit-Flip-Spark 구조와 Chain-of-Reasoning을 추출하여 모델 파인튜닝에 사용
본 논문은 과학적 가설 생성(Scientific Hypothesis Generation, SHG)을 조건부 언어 모델링(conditional language modeling) 문제로 프레임화하기 위해 약 5,500개의 구조화된 문제-가설 쌍으로 구성된 HypoGen 데이터셋을 소개한다. Bit(기존 가정)-Spark(핵심 통찰)-Flip(혁신적 제안) 스키마에 명시적 추론 체인을 결합하여 생성된 가설의 신성(novelty)과 타당성(feasibility)을 향상시킨다.
9가지 실험 구성에서 생성된 가설의 질에 대한 비교 분석
총평: 본 논문은 과학적 가설 생성 문제를 체계적으로 접근하기 위해 첫 대규모 구조화 데이터셋을 제시하고, Chain-of-Reasoning을 명시적으로 통합한 점에서 높은 창의성을 보인다. 다만 평가 방법론의 엄밀성 강화, 다분야 확장, 실제 과학자 검증을 통한 검증이 완성도를 위해 필요하다.