NSF-SCIFY: Mining the NSF Awards Database for Scientific Claims

Essence

NSF 주요 지원 분야별 분포: 재료과학(3.9%), 수학물리과학(16.5%), 지구과학(13.8%) 등

NSF(미국 국립과학재단) 지원금 데이터베이스에서 과학적 주장(scientific claims)과 연구 제안(investigation proposals)을 대규모로 추출한 데이터셋 NSF-SCIFY를 제시한다. 1970년부터 2024년까지 50년간 400K개 이상의 지원금 초록에서 추정 280만 개의 과학적 주장을 추출하여 현재까지 가장 큰 규모의 과학적 주장 데이터셋을 구축했다.

Motivation

Known: 기존 과학적 주장 검증 연구(SciFACT, PubHEALTH 등)는 출판된 학술 논문, 팩트체크 사이트, 뉴스 기사 등을 주요 출처로 활용했으며, 최대 수천 개 수준의 소규모 데이터셋에 불과함
Gap: 과학 출판물의 연 4% 성장률에 따라 검증되지 않은 주장들이 증가하고 있으나, 기존 데이터셋은 규모가 작고 도메인이 제한적이며, 지원금 제안서라는 새로운 출처는 전혀 활용되지 않음
Why: NSF는 미국 연방 기초 연구의 약 25%를 지원하며, 지원금 초록은 (1) 엄격한 전문가 심사를 거친 고품질 필터, (2) 출판 전 초기 단계의 주장 포착, (3) 공개적이고 재사용 가능한 자료, (4) 과학적 실천과 연구 진화 추적의 독특한 기회 제공
Approach: Claude-3.5를 이용한 제로샷 프롬팅으로 검증 가능한 주장과 전향적 연구 제안을 구분하여 추출하는 방법 개발

Achievement

기술 초록과 비기술 초록의 t-SNE 임베딩 비교: STEL 스타일 임베딩으로 명확한 분리 관찰

대규모 데이터셋 구축: NSF-SCIFY-MATSCI에서 재료과학 분야 16K개 초록으로부터 114K개 과학적 주장과 145K개 연구 제안 추출 (기존 최대 데이터셋 대비 10배 이상 규모)
높은 자동 추출 성능: 미세조정된 모델이 기본 모델 대비 100% 상대 개선율 달성, 조사 제안 추출에서 90% 이상 개선 달성
기술-비기술 초록 생성: BERTScore 0.85+ F1 달성, 기술 초록과 비기술 초록의 대칭 BLEU 유사도 1.5%로 실질적 재작성 확인
LLM 기반 평가 메트릭 개발: 클레임/제안 추출 품질 평가를 위한 새로운 평가 지표 제시
공개 제공: 모든 데이터셋, 학습된 모델, 평가 코드를 공개 배포

How

데이터 수집: NSF 지원금 데이터베이스(1970-2024)에서 412,155개의 파싱 가능한 지원금 레코드 획득
데이터 처리: 각 레코드당 지원금 ID·제목·연도, 국/부서 정보, 기술/비기술 초록, 추출된 주장/제안, 관련 출판물(2014년 이후) 포함
클레임 및 제안 추출:
- Anthropic Claude-3.5 모델 활용
- 온도 0으로 설정하여 일관성 유지
- 검증 가능한 주장(verifiable claims)과 전향적 연구 제안(investigation proposals) 동시 추출
- 조인트 추출 방식으로 전향적 주장을 사실적 주장으로 오분류하는 문제 해결
프롬프트 설계: JSON 객체 반환 구조로 지원금 ID, 기술/비기술 초록, 주장 리스트, 제안 리스트 포함

Originality

새로운 데이터 출처: 지원금 제안서(grant proposals)를 과학적 주장 추출의 최초 사용 출처로 확립 (기존: 논문, 뉴스, SNS)
새로운 과제 정의: 기존 사실적 주장(factual claims)에 더해 미래 지향적 연구 의도(aspirational research intentions) 구분 추출 개발
초대규모 데이터셋: 기존 최대 5K개 문서 대비 NSF-SCIFY-MATSCI만 16K개 문서, 전체 NSF-SCIFY는 400K개 문서 규모
메타과학 가능성: 지원금 주장과 실제 조사 제안 간의 관계 연구로 과학적 실천과 연구 진화 추적 가능
학제간 범위: 모든 STEM 분야 포함으로 기존 생의학 중심 데이터셋의 한계 극복

Limitation & Further Study

추정 규모: 전체 NSF-SCIFY의 280만 개 주장은 추정값이며, 대규모 처리 완료 시 정확 수치 업데이트 필요
부분 초록: 비기술 초록이 약 19%의 지원금에서 부재하여 데이터 불완전성 존재
출판 연결 제한: 출판물 연결이 2014년 이후만 가능하여 역사적 영향 추적 어려움
단일 LLM 사용: 클로드 3.5만 사용하여 모델 간 추출 일관성 검증 부재
후속 연구 기회:
- 전체 NSF-SCIFY 대상 포괄적 처리
- 주장과 실제 연구 결과 간 추적 가능성 분석
- 다양한 LLM 모델 간 추출 결과 비교
- 클레임 검증(claim verification) 모델 개발
- 시간에 따른 과학적 주장 진화 추적

Evaluation

총평: NSF-SCIFY는 지원금 제안서라는 새로운 출처로부터 규모 면에서 획기적인 과학적 주장 데이터셋을 구축했으며, 주장과 연구 제안의 구분 추출이라는 새로운 과제를 정의함으로써 과학 검증 및 메타과학 연구에 중요한 자산을 제공한다. 다만 LLM 기반 추출과 평가의 신뢰성 검증이 더욱 강화될 필요가 있다.

같이 보면 좋은 논문

기반 연구

A Review on Scientific Knowledge Extraction using Large Language Models in Biomedical Sciences

대규모 언어모델을 이용한 과학 지식 추출 리뷰가 NSF 지원금 데이터베이스 마이닝의 방법론적 기반을 제공한다.

다른 접근

OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining

학술 데이터 마이닝에서 NSF 지원금 데이터베이스와 학술 그래프 마이닝이라는 서로 다른 데이터 소스를 활용한다.

후속 연구

Chimera: A knowledge base of idea recombination in scientific literature

과학에서 아이디어 재조합 지식베이스가 NSF 과학적 주장 마이닝을 연구 아이디어 융합 관점으로 확장했다.