저자: D. Rao, Weiqiu You, Eric Wong, Chris Callison-Burch | 날짜: 2025 | DOI: N/A
NSF 주요 지원 분야별 분포: 재료과학(3.9%), 수학물리과학(16.5%), 지구과학(13.8%) 등
NSF(미국 국립과학재단) 지원금 데이터베이스에서 과학적 주장(scientific claims)과 연구 제안(investigation proposals)을 대규모로 추출한 데이터셋 NSF-SCIFY를 제시한다. 1970년부터 2024년까지 50년간 400K개 이상의 지원금 초록에서 추정 280만 개의 과학적 주장을 추출하여 현재까지 가장 큰 규모의 과학적 주장 데이터셋을 구축했다.
기술 초록과 비기술 초록의 t-SNE 임베딩 비교: STEL 스타일 임베딩으로 명확한 분리 관찰
총평: NSF-SCIFY는 지원금 제안서라는 새로운 출처로부터 규모 면에서 획기적인 과학적 주장 데이터셋을 구축했으며, 주장과 연구 제안의 구분 추출이라는 새로운 과제를 정의함으로써 과학 검증 및 메타과학 연구에 중요한 자산을 제공한다. 다만 LLM 기반 추출과 평가의 신뢰성 검증이 더욱 강화될 필요가 있다.