Biomaze: Benchmarking and enhancing large language models for biological pathway reasoning

저자: He Zhao, Chang Ma, Fangzhi Xu, Lingpeng Kong, Zhi-Luo Deng | 날짜: 2025 | DOI: 10.48550/arXiv.2502.16660


Essence

Figure 1

Figure 1: BioMaze 작업 및 추론 방법의 설명. 생물학적 경로 그래프 데이터 지원 유무에 따른 추론 방식 비교

본 논문은 생물학적 경로(biological pathway) 추론 능력을 평가하기 위한 BioMaze 벤치마크를 제시하고, LLMs의 경로 추론 한계를 보완하기 위해 PathSeeker라는 에이전트 기반 방법을 제안한다. 이를 통해 복잡한 생물학적 시스템에서의 다단계 인과 추론 문제를 해결한다.

Motivation

Achievement

Figure 4

Figure 4: 다양한 LLM의 생물학적 경로 추론 능력 비교. 모든 LLM이 경로 추론에서 어려움을 겪으며, 특히 섭동 시나리오에서 성능 저하가 심함

Figure 5

Figure 5: 추론 단계 증가에 따른 Chain-of-Thought 성능 감소

  1. BioMaze 벤치마크 구축: 실제 연구 문헌에서 도출된 5.1K 복합 생물학적 경로 문제를 포함하며, 자연 동적 변화, 섭동/개입, 추가 개입 조건, 다중 스케일 연구 대상(단일 인자, 상호작용 과정, 거시적 기능)을 포괄한다. 3가지 분류 체계(질문 유형, 추가 조건, 조사 대상)로 다양한 연구 시나리오를 커버한다.
  2. LLMs의 한계 규명: 모든 LLM(LLaMA 8B~GPT-4)이 경로 추론에서 투쟁하며, 특히 섭동 시스템에서 성능이 급격히 저하됨을 입증했다. 추론 단계가 증가할수록 성능이 선형적으로 감소한다.
  3. PathSeeker 에이전트 제안: 대화형 부분그래프(subgraph) 탐색을 통해 경로 추론 성능을 향상시키는 방법론을 제시했으며, 이는 과학자의 경로 추론 방식을 모방한다.

How

Figure 2

Figure 2: BioMaze 데이터셋의 생물학적 영역 및 추론 유형 분포. 6개 주요 영역과 3가지 분류 차원 포함

Figure 3

Figure 3: PathSeeker의 경로 그래프 데이터베이스 대화형 탐색 메커니즘. 글로벌-로컬 부분그래프를 수요에 맞게 탐색

BioMaze 벤치마크 구축:

분류 체계 (3가지 차원):

PathSeeker 방법론:

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 생물학적 경로 추론이라는 미개척 분야에서 대규모 고품질 벤치마크를 제공하고 LLMs의 실질적 한계를 규명했다는 점에서 매우 가치있다. 특히 실제 연구 문헌 기반의 5.1K 문제와 체계적 분류 체계는 학계에 중요한 자산이 될 것이다. 다만 제안된 PathSeeker 방법의 구체적 구현과 성능 개선 효과에 대한 더욱 상세한 실험 결과 제시가 논문의 완성도를 높일 것으로 판단된다.

같이 보면 좋은 논문

다른 접근
둘 다 생물학적 시스템 추론을 다루지만 경로 추론과 분자 구조 해석이라는 서로 다른 생물학적 문제에 집중한다.
다른 접근
둘 다 생물학적 추론을 다루지만 MolQuest는 화학 구조 해석, BioMaze는 생물학적 경로 추론에 특화되어 있다.
후속 연구
LLM을 이용한 인과적 유전자 조절 네트워크 발견이 생물학적 경로 추론을 유전자 수준으로 확장했다.
응용 사례
단일세포 주석을 위한 LLM 에이전트가 BioMaze의 생물학적 경로 추론을 세포 수준 분석에 적용한다.
← 목록으로 돌아가기