저자: Yuyang Liu, Liuzhenghao Lv, Xiancheng Zhang, Jingya Wang, Li Yuan, Yonghong Tian | 날짜: 2025 | DOI: arXiv:2505.07889
BioProBench의 개요: 27,000개 프로토콜 코퍼스, 556,171개 작업 인스턴스, 17개 생물학 분야 분포
생물학적 실험 프로토콜의 절차적 추론(procedural reasoning)을 평가하기 위한 대규모 데이터셋 및 벤치마크를 제시한다. BioProCorpus(27,000개 프로토콜)로부터 구성된 550,000개 이상의 구조화된 작업 인스턴스를 통해 LLM의 안전성, 정확성, 인과적 논리 이해도를 진단한다.
BioProBench 구성 파이프라인: 데이터 수집·정제·보강, 5가지 작업 구성, 자동화 및 전문가 검증
각 작업 유형의 대표 샘플: PQA(약물 용량 추출), ORD(단계 정렬), ERR(오류 검증), GEN(프로토콜 생성)
총평: BioProBench는 생물학 프로토콜의 절차적 추론에 특화된 첫 대규모 벤치마크로서, 엄격한 전문가 검증 기반의 고품질 데이터와 다층적 작업 설계를 통해 LLM의 체계적 약점을 진단하는 점에서 높은 가치를 지닌다. 다만 도메인 외 일반화, 다양한 에이전트 아키텍처와의 비교, 실제 실험실 통합 평가 측면에서의 확장이 향후 과제이다.