- 지난 R&D AI Agent 발표 이후 상위기관에 관련 자료를 정리해드릴 기회가 있었습니다.
- ‘24~’25년에 주로 출간된 R&D AI Agent 논문 25편의 주요 내용을 정리했습니다.
- 여러 연구의 독창성과 단점을 함께 정리하여 돌파해야 할 난제를 찾고자 했습니다.
1. 정리자료
- 정리자료를 공유드립니다: [다운로드]
2. AI for Science 기술
AI4Research: A Survey of Artificial Intelligence for Scientific Research
- 이제까지 출판된 950편의 논문을 리뷰한 논문을 비롯해
- VASP, MOF 등 특정 기술에 대한 논문을 찾아보았습니다.
- 수많은 논문들이 다섯 개의 카테고리로 나뉘어 자세하게 설명된 좋은 논문입니다만 120 페이지로 많이 두껍습니다.
- NotebookLM에서는 읽을 수 있지만 scispace에서는 제대로 읽지 못할 정도입니다.
- 게다가 참고자료들이 논문에 대개 한 줄로 간략하게 소개되어 있기 때문에 특장점을 잘 알아보기 어렵습니다.
3. 도메인 특화 기술
- 제가 관심있는 도메인 특화 기술들을 중심으로 원문을 내려받아 훑어보았습니다.
- 정독을 하면 좋았겠지만 저 또한 시간의 제약으로 그러지는 못했습니다.
- 논문봇과 scispace, NotebookLM를 이용해 훑었습니다.
- 논문봇에 넣는 것만으로도 웬만한 답변이 나오지만, 추가질의가 더 중요합니다.
- 대다수의 논문들이 GPT나 DeepSeek 같은 LLM에 의존하고 있습니다.
- 자연어 활용 인터페이스와 창발 현상을 이용하고자 하니 당연한 일입니다.
- 하지만 한편으로 이런 경우 LLM의 성능에 에이전트의 성능이 크게 좌우됩니다.
Context Window & Model Size
arXiv: Memorizing Transformers (2022)
arXiv: Gemma3 Technical Report (2025)
arXiv: Qwen2.5-1M Technical Report (2025)
npj Computational Materials: Fine-tuning large language models for domain adaptation: exploration of training strategies, scaling, model merging and synergistic capabilities (2025)
arXiv: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
arXiv: Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents
arXiv: Small Language Models are the Fugure of Agentic AI
- 복잡한 R&D 작업은 여러 단계를 거치는 추론과 계획을 필요로 합니다.
- 컨텍스트 윈도우가 크면 에이전트가 이전 추론 단계, 도구 사용 결과, 환경 관찰 등을 종합적으로 고려하여 다음 행동을 결정하는 데 도움이 됩니다.
- 특히 고급 추론에는 큰 컨텍스트 윈도우가 필요합니다.
- 작은 규모의 sLM은 대개 컨텍스트 윈도우가 LLM에 비해 작습니다.
- 과거에는 Memorizing Transformers처럼 아키텍쳐를 변경해 262K까지 크기를 키웠고,
- 최근에는 Gemma3 등이 128K까지, Qwen2.5-1M가 1M까지 지원하는 등 컨텍스트 윈도우를 키워가는 추세입니다.
- 추론 및 지식 회상 같은 창발 현상에 임계값이 필요하여 너무 작은 모델에서는 잘 구동이 되지 않는다는 연구가 많습니다.
- Lu(2025)의 연구에서 가장 좋은 효과를 보인 모델은 Llama-3.1 8B이며, MoE를 해도 효과가 없던 모델은 Smollm-Base-1.7B으로 두 모델의 context size는 모두 128K입니다.
- 모델 크기가 8B만 돼도 충분히 활용할 수 있다는 의미이기도 합니다.
- 한편으로, context size가 큰 모델은 입력이 길 때 정보를 효과적으로 활용하지 못하고 중간에서 길을 잃는(lost in the middle)현상이 보고되기도 합니다.
- 에이전트의 성능 저하가 반드시 컨텍스트 윈도우가 다 찼기 때문은 아닐 수 있으며, 장기 일관성(long-term coherence)이 더 근본적인 문제일 수 있음을 시사합니다.
- NVIDIA에서는 Small Language Models are the Future of Agentic AI라는 이름의 논문을 발표했습니다.
- 최근의 sLM 발전상을 반영한 논문이기 때문에 sLM의 성능 향상이 충실히 반영되어 있는데,
- sLM은 이전 세대의 대규모 모델과 유사 또는 이상의 성능을 보이며 상식 추론, 도구 호출, 코드 생성, 지시 이행 등 에이전트 작업에 필수적인 임무를 충실히 수행합니다.
- 운용 비용과 운영 유연성, 최근 여러 개의 하위 작업으로 구성된 멀티 에이전트 시스템을 운영하는 점을 고려하면 더욱 그렇습니다.
- 그러나 여전히 context size가 큰 LLM이 적합한 작업이 있음을 동시에 지적합니다.
- 복잡한 문제를 추상적으로 이해하여 하위 문제로 분해하는 작업
- 컨텍스트 유지가 필요한 다단계 추론, 아키텍처 추론 및 적응형 계획
- 비정형적 오류 해결
- 일반적 추론 및 개방형 도메인 대화 등입니다.
- 저자들은 개별 업무에 sLM을 적용하고 선택적으로 LLM을 호출하는 heterogeneous 에이전트 시스템을 제안하며
- 한편으로 LLM이 담당해주어야 할 장기적 일관성 능력을 향상해주기를 촉구하고 있습니다.
결론
- AI for Science, 또는 R&D AI Agent는 이제 시작입니다.
- 언어모델이 도구를 다룰 수 있게 된 것도 얼마 되지 않았고, 최근에서야 MCP와 A2A 등이 나와 팔다리 연결이 수월해지고 있습니다.
- 최신 발전을 따라가야겠지만,
- 종착지는 연구 본연의 목표여야 하겠습니다.
- 우리에게 중요한 것은 Agent가 아니라 R&D입니다.