저자: Ning Ding, Shang Qu, Linhai Xie 외 | 날짜: 2024 | DOI: N/A
PROTEUS의 반복적 개선 프레임워크(a)와 상세한 작업 프로세스(b). 데이터 설명, 연구 목표 계획, 워크플로우 계획, 도구 실행, 결과 해석의 순환 구조
본 논문은 대규모 언어모델(LLM)을 활용하여 원본 단백질체학(proteomics) 데이터로부터 자동으로 과학적 발견을 수행하는 PROTEUS 시스템을 제시한다. 인간의 개입 없이 계층적 계획 수립, 생물정보학 도구 실행, 반복적 분석 워크플로우 정제를 통해 고품질의 생물학적 가설을 생성한다.
전체 191개 가설에 대한 5개 지표별 평균 점수 및 분포
SPDB 데이터셋 10개에 대한 5개 지표별 점수 분포
2개 임상 코호트 데이터셋에 대한 5개 지표별 점수 분포
PROTEUS의 백본으로 자체 모델과 GPT-4o 사용 결과 비교
총평: PROTEUS는 LLM을 활용한 단백질체학 데이터 분석 및 가설 생성의 완전 자동화를 성공적으로 구현한 혁신적 시스템이며, 포괄적 평가를 통해 신뢰성과 참신성을 입증했다. 다만 생성된 가설의 실험적 검증, 더 다양한 생물학적 영역으로의 확장, 그리고 기술적 세부사항의 투명성 개선이 필요하다.