Large language models for zero-shot inference of causal structures in biology

저자: Izzy Newsham, Luka Kovačević, Richard Moulange, Nan Rosemary Ke, Sach Mukherjee | 날짜: 2025 | DOI: N/A


Essence

대규모 언어모델(LLM)이 생물학적 인과관계를 문헌 지식만으로 추론할 수 있는지를 실제 유전자 섭동 실험 데이터로 검증하는 혁신적 평가 프레임워크를 제시한다. 적절한 프롬프팅과 정보 증강 전략을 통해 작은 LLM도 생물학적 시스템의 의미 있는 인과구조를 포착할 수 있음을 보여준다.

Motivation

Achievement

Figure 1: Directed edges are drawn between the perturbed gene k and the set of genes ∆k = {i,..., j} that change significantly under experimental intervention on k.

그림 1: 섭동된 유전자 k와 k에 대한 실험적 중재 하에서 유의하게 변하는 유전자 집합 간의 방향성 모서리

  1. 포괄적 벤치마킹 프레임워크: 100개 이상의 변수와 수천 개의 인과 가설에 대해 LLM의 인과관계 추론 능력을 실제 개입 데이터(interventional data)로 검증하는 체계적 방법론 개발
  2. 전략적 증강의 효과: 검색 증강(retrieval-augmentation)과 맞춤형 프롬프팅을 통해 상대적으로 작은 LLM도 생물학적 시스템의 의미 있는 인과구조를 포착 가능함을 실증
  3. 지식 기반 방법과의 비교: STRING 데이터베이스 같은 전통적 구조화된 지식 기반 방법과의 비교를 통해 LLM의 추론 능력의 상대적 장단점 명확화

How

Figure 2: Outputs for inferring causal direction with different prompt contexts, for the example gene

그림 2: 예시 유전자에 대해 다양한 프롬프트 맥락에서 인과방향 추론 결과

인과 Ground Truth 구축

LLM 프롬프팅 전략

평가 메트릭

Figure 3: Gemma2의 다양한 유전자별 문맥 정보 정도에 따른 결과

그림 3: 유전자 수준의 맥락 정보 제공 수준에 따른 LLM 성능 변화

검색 증강 전략

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LLM이 과학 발견 도구로서 실제 가치를 갖는지를 검증하는 중요한 첫 걸음으로, 실험 데이터 기반 평가 프레임워크를 통해 학술적·실용적 기여를 모두 제시하나, 결과 분석의 심화와 재현성 강화가 필요하다.

같이 보면 좋은 논문

기반 연구
제로샷 인과구조 추론이 다중 에이전트 협력 프레임워크에서 생물학적 지식을 동적으로 통합하는 이론적 기반을 제공한다.
다른 접근
유전자 조절 네트워크 발견에서 문헌 기반 제로샷 추론과 scRNA-seq 데이터 기반 직접 학습이라는 서로 다른 접근법이다.
다른 접근
유전자 조절 네트워크를 발견하는 데 있어 직접적 데이터 분석과 문헌 기반 지식 추론이라는 상반된 방법론이다.
후속 연구
문헌 기반 인과구조 추론 능력이 유전자 섭동 실험의 순차적 계획에서 사전 지식 활용으로 확장 적용될 수 있다.
후속 연구
순차적 유전자 선택을 위한 자동화 기법이 문헌 기반 인과구조 추론과 결합하여 더욱 효율적인 실험 계획으로 발전될 수 있다.
응용 사례
RAG 기반 다중 에이전트 협력이 문헌 기반 인과구조 추론에서 동적 지식 검색과 통합에 직접 활용될 수 있다.
← 목록으로 돌아가기