Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Reanalysis

저자: Yiqing Xu, Leo Yang Yang | 날짜: 2026-02-17 | DOI: arXiv:2602.16733


Essence

본 논문은 대규모 실증 연구의 재현성(reproducibility) 문제를 해결하기 위해 에이전트형 AI 워크플로우를 개발하고, 도구변수(instrumental variable, IV) 설계 92개 연구에서 87%의 종단 성공률을 달성했다.

Motivation

Achievement

Figure 1
  1. 높은 재현성 달성: 92개 논문(67개 기존 + 25개 신규) 전체에서 87% 종단 성공률 달성; 데이터/코드 접근 가능 시 100% 정확한 2SLS 계수 재현
  2. 확장된 평가 범위: 단순 기준선 1개에서 논문당 최대 3개 IV 사양으로 확대(총 215개 사양), 워크플로우의 견고성 증명
  3. 투명한 버전 관리: 반복되는 장애 패턴을 구조화된 지식층에 기록하여 이질적 연구 간 적응 가능하면서도 각 파이프라인 버전의 안정성과 감시 추적(audit trail) 유지
  4. 대규모 재분석 비용 절감: 수년이 걸리던 수동 재분석을 자동화하여 확립된 실증 프로토콜 실행의 실질적 비용 감소

How

Figure 2

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4.5/5 Overall: 4/5

총평: 본 논문은 AI를 활용한 대규모 재현성 달성이 기술적으로 현실 가능함을 체계적으로 입증하였으며, 인간-AI 역할 분담의 명확한 설계와 버전 제어된 지식 축적으로 실무적 가치가 높으나, IV 설계 특화로 일반화 범위가 현재 제한적이고 근본적 재복제성 문제는 미해결이라는 한계가 있다.

같이 보면 좋은 논문

기반 연구
AI Scientist-v2의 자율적 과학 발견 능력이 대규모 실증 연구의 재현성 검증을 위한 에이전트 워크플로우의 기술적 토대가 된다.
후속 연구
AI 지원 워크플로우를 통한 대규모 재현성 확장의 구체적 사례를 보여준다
후속 연구
과학 워크플로우 관리가 대규모 재현성 자동화의 체계적 접근으로 확장됩니다.
응용 사례
InternAgent의 폐루프 과학 연구 프레임워크를 실증 연구 재현성 검증이라는 특정 문제에 적용한 사례로 볼 수 있다.
← 목록으로 돌아가기