저자: Tejumade Afonja, Ivaxi Sheth, Ruta Binkyte, Waqar Hanif, Thomas Ulas, Matthias Becker, Mario Fritz | 날짜: 2024 | DOI: arXiv:2410.15828
그림 1: LLM4GRN 개요. Setting 1.A는 인간 기반 지식베이스(KB)와 LLM을 결합하고, Setting 2.A는 LLM KB와 LLM 추론을 모두 활용하는 완전 LLM 파이프라인
본 논문은 단일세포 RNA 시퀀싱(scRNA-seq) 데이터에서 유전자 조절 네트워크(Gene Regulatory Network, GRN)를 발견하기 위해 대규모 언어모델(LLM)을 활용하는 새로운 접근 방식을 제시합니다. 신뢰할 수 있는 정답 그래프가 없는 상황에서 인과관계 합성 데이터 생성을 평가 방법으로 사용하여 LLM의 효과성을 입증합니다.
그림 2: 다양한 방법들이 제안하는 GRN 간의 겹침(overlap) 분석. LLM이 더 높은 겹침을 시연
그림 3: 서로 다른 세포 유형에 걸친 상위 마커 유전자들의 유전자 발현 프로필을 보여주는 점 플롯
총평: 본 논문은 일반 목적 LLM을 GRN 추론에 처음 적용하고, 신규 평가 방법론을 제시하여 LLM과 통계적 방법의 하이브리드 접근이 실질적 가치를 가짐을 보여줍니다. 다만 단일 데이터셋 평가, 간접적 평가 방법론, LLM 환각 문제 등으로 인해 생물학적 발견으로의 직접적 전환에는 추가 검증이 필요합니다. scRNA-seq 분석에 AI를 활용하는 분야에서 의미 있는 기여이나, 기초 생물학 연구의 실제 문제 해결 수준까지는 도달하지 못한 상태입니다.