Embracing Foundation Models for Advancing Scientific Discovery

Essence

Fig. 1: The song of humanity is a song of courage. The diagram depicts the continuum of scientific inquiry spanning from

본 논문은 과학 분야 대규모언어모델(Sci-LLM)의 발전을 데이터 중심으로 분석하는 종합 서베이로, 270개 이상의 사전학습/사후학습 데이터셋과 190개 이상의 벤치마크를 체계적으로 검토하여 과학 AI의 로드맵을 제시한다.

Known: LLM이 자연어 처리에서 혁신을 일으켰으며, 최근 과학 응용 분야의 Sci-LLM 개발이 증가하고 있다. 다만 과학 데이터의 이질성, 다중 스케일 특성, 도메인 특이성 등이 일반 NLP와 구별된다.
Gap: 기존 연구는 모델 아키텍처에 집중했으나, 과학 데이터의 특수성과 Sci-LLM 발전의 상호작용에 대한 종합적 분석이 부족하다. 또한 평가 벤치마크가 정적 시험에서 프로세스 중심 평가로의 전환이 필요하다.
Why: 과학 발견 가속화를 위해서는 신뢰할 수 있는 AI 시스템이 필요하며, 이는 과학 데이터의 특수한 요구사항을 정확히 이해하고 반영한 Sci-LLM 개발이 필수적이다.
Approach: 데이터 중심의 분류 체계를 수립하여 과학 데이터의 다양한 형태(텍스트, 시각, 기호, 구조화, 시계열, 다중오믹스)를 정의하고, 과학 지식의 계층 구조(factual, theoretical, methodological, modeling, insight level)를 제안하여 Sci-LLM 분석 프레임워크를 구성한다.

Fig. 3: Evolution of Sci-LLMs reveals four paradigm shifts from 2018 to 2025, including (1) the progression from transfe

포괄적 데이터 분류법: 텍스트, 시각, 기호, 구조화, 시계열, 다중오믹스 등 6가지 과학 데이터 형태의 체계적 분류 체계 수립
계층적 지식 모델: 사실, 이론, 방법론, 모델링, 인사이트 수준의 5단계 과학 지식 계층 구조 제안으로 Sci-LLM 개발의 이론적 기초 제공
대규모 데이터셋 분석: 270개 이상의 사전학습 및 사후학습 데이터셋을 분석하여 각 도메인별 데이터 특성 파악
벤치마크 평가 프레임워크: 190개 이상의 벤치마크를 검토하여 정적 시험에서 프로세스 중심 평가로의 패러다임 전환 추적
도메인별 Sci-LLM 분류: 물리, 화학, 재료과학, 생명과학, 천문학, 지구과학 등 6개 분야의 일반 목적 및 특화 모델 체계적 정리
자율 에이전트 패러다임: 폐루프 시스템으로서 Sci-LLM 기반 자율 에이전트가 실험 수행 및 검증을 통해 지식을 지속 확장하는 미래 방향 제시

Fig. 4: Six main scientific domains covered in this survey.

매우 빠르게 발전하는 분야로 발행 이후 신규 Sci-LLM 및 데이터셋이 지속 발생할 수 있어 시간 경과에 따른 정보의 상대적 가치 감소 가능성
논문에서 분석한 270개 데이터셋과 190개 벤치마크의 상세 성능 비교 결과가 충분히 수치화되지 않아 정량적 비교 분석이 제한적
각 도메인의 데이터 품질, 접근성, 개인정보보호 문제 등 실무적 제약사항에 대한 깊이 있는 논의 부족
폐루프 자율 에이전트 시스템은 개념 제시 수준이며, 구체적인 구현 사례나 검증 결과 부족
후속 연구: (1) 주요 도메인별 벤치마크의 정량적 비교 분석 심화, (2) 자율 에이전트의 실제 시스템 구현 및 성능 검증, (3) 데이터 품질과 모델 성능의 정량적 관계 분석, (4) 도메인 간 전이학습 가능성 탐구