AI for Science 도메인 특화 Agent 공개 사례

2025-08-24

agent, research

지난 R&D AI Agent 발표 이후 상위기관에 관련 자료를 정리해드릴 기회가 있었습니다.
‘24~’25년에 주로 출간된 R&D AI Agent 논문 25편의 주요 내용을 정리했습니다.
여러 연구의 독창성과 단점을 함께 정리하여 돌파해야 할 난제를 찾고자 했습니다.

1. 정리자료

정리자료를 공유드립니다: [다운로드]

2. AI for Science 기술

AI4Research: A Survey of Artificial Intelligence for Scientific Research

이제까지 출판된 950편의 논문을 리뷰한 논문을 비롯해
VASP, MOF 등 특정 기술에 대한 논문을 찾아보았습니다.

수많은 논문들이 다섯 개의 카테고리로 나뉘어 자세하게 설명된 좋은 논문입니다만 120 페이지로 많이 두껍습니다.
NotebookLM에서는 읽을 수 있지만 scispace에서는 제대로 읽지 못할 정도입니다.
게다가 참고자료들이 논문에 대개 한 줄로 간략하게 소개되어 있기 때문에 특장점을 잘 알아보기 어렵습니다.

3. 도메인 특화 기술

GPTs: 논문봇

제가 관심있는 도메인 특화 기술들을 중심으로 원문을 내려받아 훑어보았습니다.
정독을 하면 좋았겠지만 저 또한 시간의 제약으로 그러지는 못했습니다.
논문봇과 scispace, NotebookLM를 이용해 훑었습니다.
논문봇에 넣는 것만으로도 웬만한 답변이 나오지만, 추가질의가 더 중요합니다.

대다수의 논문들이 GPT나 DeepSeek 같은 LLM에 의존하고 있습니다.
자연어 활용 인터페이스와 창발 현상을 이용하고자 하니 당연한 일입니다.
하지만 한편으로 이런 경우 LLM의 성능에 에이전트의 성능이 크게 좌우됩니다.

Context Window & Model Size

arXiv: Memorizing Transformers (2022)
arXiv: Gemma3 Technical Report (2025)
arXiv: Qwen2.5-1M Technical Report (2025)
npj Computational Materials: Fine-tuning large language models for domain adaptation: exploration of training strategies, scaling, model merging and synergistic capabilities (2025)
arXiv: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
arXiv: Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents
arXiv: Small Language Models are the Fugure of Agentic AI

복잡한 R&D 작업은 여러 단계를 거치는 추론과 계획을 필요로 합니다.
컨텍스트 윈도우가 크면 에이전트가 이전 추론 단계, 도구 사용 결과, 환경 관찰 등을 종합적으로 고려하여 다음 행동을 결정하는 데 도움이 됩니다.
특히 고급 추론에는 큰 컨텍스트 윈도우가 필요합니다.

작은 규모의 sLM은 대개 컨텍스트 윈도우가 LLM에 비해 작습니다.
과거에는 Memorizing Transformers처럼 아키텍쳐를 변경해 262K까지 크기를 키웠고,
최근에는 Gemma3 등이 128K까지, Qwen2.5-1M가 1M까지 지원하는 등 컨텍스트 윈도우를 키워가는 추세입니다.

추론 및 지식 회상 같은 창발 현상에 임계값이 필요하여 너무 작은 모델에서는 잘 구동이 되지 않는다는 연구가 많습니다.
Lu(2025)의 연구에서 가장 좋은 효과를 보인 모델은 Llama-3.1 8B이며, MoE를 해도 효과가 없던 모델은 Smollm-Base-1.7B으로 두 모델의 context size는 모두 128K입니다.
모델 크기가 8B만 돼도 충분히 활용할 수 있다는 의미이기도 합니다.

한편으로, context size가 큰 모델은 입력이 길 때 정보를 효과적으로 활용하지 못하고 중간에서 길을 잃는(lost in the middle)현상이 보고되기도 합니다.
에이전트의 성능 저하가 반드시 컨텍스트 윈도우가 다 찼기 때문은 아닐 수 있으며, 장기 일관성(long-term coherence)이 더 근본적인 문제일 수 있음을 시사합니다.

NVIDIA에서는 Small Language Models are the Future of Agentic AI라는 이름의 논문을 발표했습니다.
최근의 sLM 발전상을 반영한 논문이기 때문에 sLM의 성능 향상이 충실히 반영되어 있는데,
sLM은 이전 세대의 대규모 모델과 유사 또는 이상의 성능을 보이며 상식 추론, 도구 호출, 코드 생성, 지시 이행 등 에이전트 작업에 필수적인 임무를 충실히 수행합니다.
운용 비용과 운영 유연성, 최근 여러 개의 하위 작업으로 구성된 멀티 에이전트 시스템을 운영하는 점을 고려하면 더욱 그렇습니다.

그러나 여전히 context size가 큰 LLM이 적합한 작업이 있음을 동시에 지적합니다.
1. 복잡한 문제를 추상적으로 이해하여 하위 문제로 분해하는 작업
2. 컨텍스트 유지가 필요한 다단계 추론, 아키텍처 추론 및 적응형 계획
3. 비정형적 오류 해결
4. 일반적 추론 및 개방형 도메인 대화 등입니다.

저자들은 개별 업무에 sLM을 적용하고 선택적으로 LLM을 호출하는 heterogeneous 에이전트 시스템을 제안하며
한편으로 LLM이 담당해주어야 할 장기적 일관성 능력을 향상해주기를 촉구하고 있습니다.

결론

AI for Science, 또는 R&D AI Agent는 이제 시작입니다.
언어모델이 도구를 다룰 수 있게 된 것도 얼마 되지 않았고, 최근에서야 MCP와 A2A 등이 나와 팔다리 연결이 수월해지고 있습니다.
최신 발전을 따라가야겠지만,
종착지는 연구 본연의 목표여야 하겠습니다.
우리에게 중요한 것은 Agent가 아니라 R&D입니다.

도움이 되셨나요? 카페인을 투입하시면 다음 포스팅으로 변환됩니다

General

1. 정리자료

2. AI for Science 기술

3. 도메인 특화 기술

Context Window & Model Size

결론