MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science

저자: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Zifeng Wang, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Xin Liu, Carl Yang, Yang Xie, Wenqi Shi | 날짜: 2025-06-04 | DOI: 미제공


Essence

Figure 1

Figure 1: (a) MedAgentGym의 과제별 성능과 (b) 전체 리더보드 평가. 상용 LLM과 오픈소스 LLM 간 상당한 성능 격차를 시각화함

본 논문은 생의학 데이터 과학(biomedical data science)에서 코드 기반 추론 능력을 강화하기 위한 확장 가능한 LLM 에이전트 훈련 환경인 MedAgentGym을 제시한다. 72,413개의 과제 인스턴스와 실행 가능한 샌드박스 환경을 통해 오픈소스 LLM들의 생의학 코딩 역량을 대폭 향상시킬 수 있음을 입증한다.

Motivation

Achievement

Figure 1b

Figure 1b: MedAgentGym의 전체 점수 리더보드. 오픈소스와 상용 LLM 간의 상당한 성능 격차 시각화

  1. 대규모 생의학 코딩 벤치마크 구축: 12개 실제 데이터소스(MIMIC-III, eICU, TREQS 등)에서 파생된 72,413개의 과제 인스턴스를 정수화. 129개 범주에 걸쳐 데이터베이스 쿼리, 의료 계산, 생물정보학, 기계학습 모델링 등을 포함하는 포괄적 범위를 제공.
  2. 29개 LLM 종합 벤치마킹: 상용 LLM(gpt-4o, gpt-4.1 등)과 오픈소스 LLM(Qwen, Llama, DeepSeek 등) 간의 생의학 데이터 과학 능력에서 상당한 성능 격차를 정량화. 특히 생의학 소프트웨어 엔지니어링과 예측 모델링에서 차이가 가장 큼.
  3. 효과적인 강화학습 기반 훈련: Med-Copilot 에이전트가 오프라인 강화학습(offline RL)에서 +43.02%, 온라인 강화학습(online RL)에서 +45.28%의 성능 향상 달성. 최종적으로 Med-Copilot-14B가 분포 내(in-distribution)와 분포 외(out-of-distribution) 과제 모두에서 gpt-4o와 경쟁 가능한 성능 달성.

How

Figure 2

Figure 2: MedAgentGym의 전체 구조. 종합적 코드 기반 생의학 추론 과제를 포함

데이터 구성 및 통합 벤치마크:

실행 가능한 격리 환경:

대화형 피드백 메커니즘:

강화학습 기반 훈련:

성능 검증:

Originality

Limitation & Further Study

Evaluation

총평: MedAgentGym은 생의학 데이터 과학 분야에서 코드 기반 추론을 위한 최초의 포괄적이고 실행 가능한 훈련 환경으로, 대규모 통합 벤치마크, 효과적인 RL 훈련 방법론, 그리고 공개된 리소스를 통해 오픈소스 LLM의 의료 도메인 적응에

같이 보면 좋은 논문

기반 연구
확장 가능한 에이전트 훈련 환경의 기반을 제공한다
응용 사례
의료 코딩을 위한 확장 가능한 에이전트 훈련이 Aviary의 과학 훈련 개념을 의료 분야에 적용한다.
← 목록으로 돌아가기