저자: Kexin Huang, Ying Jin, Ryan Li, Michael Y. Li, Emmanuel Candès | 날짜: 2025 | DOI: 10.48550/arXiv.2502.09858
POPPER 프레임워크 개요: 실험 설계 에이전트가 반박 실험을 제안하고, 실행 에이전트가 p-값을 생성하며, 순차적 검정 프레임워크가 누적 증거를 집계
대규모 언어모델(LLM)이 생성하는 자유형식 가설을 자동으로 검증하기 위해 칼 포퍼의 반박 원칙(falsification principle)을 활용한 POPPER 프레임워크를 제안한다. 엄격한 제1종 오류 제어(Type-I error control)와 순차적 e-값 집계를 통해 통계적으로 타당한 가설 검증을 대규모로 수행 가능하게 한다.
POPPER와 인간 전문가의 성능 비교: 생물 정보학 박사 수준 전문가와 유사한 검증 능력
POPPER의 특성: (1) 생물학적으로 타당한 반박 실험 설계 (2) 순차적 오류 제어 성능
총평: POPPER는 LLM 기반 가설 검증의 자동화와 통계적 엄격성을 동시에 달성한 중요한 기여 논문이다. 칼 포퍼의 고전적 철학을 현대적으로 구현하고, 순차적 검정 이론을 LLM 에이전트 시대에 맞게 적응시킨 점이 특히 가치 있다. 인간 전문가 대비 10배 시간 단축과 동등한 성능은 실무적 임팩트가 크며, 멀티도메인 검증으로 확장성을 입증했다. 다만 LLM 의존성, 도메인 특수성, 부 가설 발견의 완전성 등에서 향후 개선 여지가 있다.