A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

저자: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen | 날짜: 2025-08-28 | URL: https://arxiv.org/abs/2508.21148


Essence

Figure 1

Fig. 1: The song of humanity is a song of courage. The diagram depicts the continuum of scientific inquiry spanning from

본 논문은 과학 분야 대규모 언어 모델(Scientific Large Language Models, Sci-LLMs)의 발전을 데이터 중심으로 종합 분석하는 설문연구로, 270개 이상의 사전/후학습 데이터셋과 190개 이상의 벤치마크를 검토하여 과학 AI의 로드맵을 제시한다.

Motivation

Achievement

Figure 2

Fig. 2: Cumulative trend of publications on major preprint platforms whose titles or abstracts mention the keyword “lang

  1. 과학 데이터의 통합 분류체계: 텍스트, 시각, 기호, 구조화, 시계열, 멀티오믹스 등 6가지 주요 데이터 형식과 사실, 이론, 방법론, 모델링, 통찰의 5단계 지식 계층을 정의
  2. 대규모 데이터 분석: 270개+ 사전/후학습 데이터셋과 190개+ 벤치마크를 체계적으로 분석하여 과학 AI의 데이터 수요 특성 규명
  3. Sci-LLMs 진화 추적: 2018-2025년의 4단계 패러다임 전환(일반 LLM → 과학 특화 → 도메인 특화 → 자율 에이전트)을 파악
  4. 평가 패러다임 전환: 정적 시험에서 발견 지향적 평가로의 변화와 고급 평가 프로토콜 제시
  5. 자동화 파이프라인 제안: 준자동화 주석 및 전문가 검증 기반 데이터 개선 방안 제시

How

Originality

Limitation & Further Study

Evaluation

Novelty: 5/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: 본 설문연구는 과학 AI의 발전을 데이터 중심으로 종합적으로 분석하는 최초의 시도로, 혁신적인 분류체계와 광범위한 실증 분석을 통해 Sci-LLMs의 현황을 명확히 하고 자율 에이전트 기반 폐쇄 루프 시스템이라는 미래 방향을 제시한다. 과학 분야 AI의 로드맵으로서 높은 학술적 가치와 실용적 중요성을 가지고 있으나, 실제 구현 방안에 대한 상세한 기술과 각 도메인별 심화 분석은 후속 연구로 남겨져 있다.

같이 보면 좋은 논문

기반 연구
과학 분야 LLM 발전이 학술출판 생태계 변화에 미치는 영향과 접근성 개선 가능성을 제공한다.
기반 연구
과학 데이터 기반과 사전학습 기법이 과학 LLM 응용의 기초가 된다
기반 연구
과학 문헌 처리를 위한 고성능 RAG 시스템 구축의 기술적 기반을 제공한다.
기반 연구
과학적 지능 발전의 핵심 기반이 되는 과학 분야 LLM의 데이터 중심 분석을 제공한다.
기반 연구
과학 문헌 처리를 위한 고성능 RAG 시스템이 과학 분야 LLM 발전에 제공하는 기술적 기반을 다룬다.
기반 연구
과학적 대규모 언어모델에 대한 종합 조사가 물리학 특화 LPMs 개발을 위한 과학 도메인 AI 모델링의 이론적 토대를 제공한다.
기반 연구
과학 분야 LLM 발전이 AI4Science 전체 생태계에 제공하는 기초적 역할을 보여준다.
다른 접근
과학 분야 LLM을 데이터 중심으로 분석하는 것과 RAG 기반 접근의 상호보완적 관점을 제공한다.
다른 접근
RAG와 LLM 통합을 다루는 관점과 과학 분야 LLM 데이터 중심 분석의 상호보완성을 제공한다.
후속 연구
과학 LLM을 넘어 과학적 지능 전반의 미래 비전을 제시한다.
응용 사례
과학 LLM의 생물정보학 분야 특화 적용 방향을 구체적으로 보여준다.
응용 사례
과학 분야 LLM의 생물정보학 특화 적용과 기초 모델의 구체적 구현 방향을 보여준다.
← 목록으로 돌아가기