AI for Science — Paper Curation

860

리뷰 완료

MECE 카테고리

2026-04-08

큐레이션 일자

Research Timeline

AI4S(AI for Science) 분야는 2019년부터 2026년까지 급격한 패러다임 전환을 겪으며 과학 연구의 근본적인 방법론을 재정의하고 있다. 초기에는 BioBERT(Lee et al., 2019)와 같은 도메인 특화 언어모델이 생물의학 문헌 분석에 활용되는 수준이었으나, 2021년 DeepMind의 AlphaFold2가 50년간 미해결 과제였던 단백질 접힘 문제를 원자 수준의 정확도로 해결하면서 AI가 복잡한 과학적 문제를 인간 전문가 수준으로 해결할 수 있음을 입증했다. 2023년은 ChatGPT의 과학 연구 도입과 함께 ChemCrow(Bran et al., 2023)가 대규모 언어모델(Large Language Model, LLM)과 화학 도구를 성공적으로 통합한 첫 사례를 보여주며 전환점을 맞았다. 이후 AutoGen(Microsoft, 2023) 프레임워크의 출시로 다중 에이전트 협업(Multi-agent Collaboration) 시스템이 본격화되었고, 2024년에는 Agent K가 Kaggle 대회에서 그랜드마스터 수준의 성과를 달성하며 AI 에이전트가 경쟁적 데이터 과학 분야에서 인간 전문가와 대등한 성능을 보일 수 있음을 증명했다. 특히 주목할 만한 발전은 자율적 과학 발견(Autonomous Scientific Discovery) 영역으로, 2024년부터 등장한 AI Scientist, Coscientist, A-Lab 등의 시스템은 가설 생성부터 실험 설계, 데이터 분석, 논문 작성까지 전체 연구 주기를 자동화하는 수준에 도달했다. 2025년 현재는 DeepSeek-R1과 같은 순수 강화학습(Reinforcement Learning) 기반 추론 시스템이 인간의 주석 없이도 복잡한 과학적 추론 능력을 습득할 수 있음을 보여주고 있으며, OpenScholar는 4,500만 편의 논문을 기반으로 한 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템으로 과학적 질문에 대해 인용 기반의 정확한 답변을 제공하는 새로운 표준을 제시했다. 향후 방향은 완전 자율 실험실(Fully Autonomous Laboratory)의 실현으로 수렴하고 있으며, 2026년까지는 AI 에이전트가 독립적으로 복잡한 연구를 수행하고 동료 심사를 통과하는 수준의 논문을 생성할 것으로 예상된다. 그러나 2025년의 비판적 평가들은 현재의 AI 과학자 시스템이 특정 작업에서는 탁월하지만 통합적 과학 추론과 실제 구현에서는 여전히 한계가 있음을 지적하고 있어, 진정한 자율적 과학 발견을 위해서는 다중 모달 이해(Multimodal Understanding), 장기 추론 능력, 그리고 실험적 피드백의 통합이 필수적임을 시사한다.

🔗 Interactive Paper Network →

Research Insights 5 findings

융합

멀티에이전트 과학자동화

다중 에이전트 시스템이 생물의학, 화학, 물리학 등 다양한 과학 영역의 연구 자동화에 광범위하게 활용되고 있다. 실험 설계부터 논문 작성까지 전체 과학 연구 사이클을 자동화하는 통합 플랫폼이 출현하고 있다.

Multi-Agent Research Systems · AI-Driven Scientific Discovery · Biomedical AI Applications [578] [795] [138] [212] [351] [764]

🏛 과학연구 자동화 기술의 국가적 투자와 함께 연구윤리 및 안전성 가이드라인 마련이 시급하다.

연구 갭

신뢰성있는 AI평가체계

AI 시스템의 과학적 신뢰성을 평가하는 표준화된 벤치마크와 검증 방법론이 부족하다. 특히 환각(hallucination), 편향성, 재현성 등 핵심 문제를 체계적으로 평가할 수 있는 통합 프레임워크가 필요하다.

AI Evaluation and Benchmarking · Scientific Communication and Writing · Academic Peer Review [846] [881] [270] [445]

🏛 과학 AI 시스템의 신뢰성 평가를 위한 국가 표준 및 인증체계 구축이 필요하다.

신흥 트렌드

물리법칙 통합 AI모델

물리 정보 신경망(PINNs)과 신경 연산자(Neural Operators)가 과학 컴퓨팅의 새로운 패러다임으로 부상하고 있다. 기존 수치해석 방법을 대체하면서 물리 법칙을 직접 학습에 통합하는 접근법이 확산되고 있다.

Scientific Computing and Physics · Domain-Specific Language Models [619] [572] [103] [427] [622]

🏛 물리 기반 AI 모델 연구개발을 위한 전문 인력 양성과 계산 인프라 구축이 요구된다.

융합

검색증강 과학연구

검색 증강 생성(RAG) 기술이 과학 문헌 분석, 연구 아이디어 생성, 실험 설계에 광범위하게 활용되고 있다. 대규모 과학 데이터베이스와 LLM을 연결하여 정확하고 근거있는 과학 정보 생성이 가능해지고 있다.

Scientific Literature Analysis · Knowledge Systems and Reasoning · AI Research Infrastructure [675] [87] [493] [434] [580]

🏛 국가 과학 데이터베이스의 개방과 표준화를 통한 AI 기반 과학연구 생태계 구축이 필요하다.

감소 추세

전통적 수치해석 의존

전통적인 격자 기반 수치해석 방법이 머신러닝 기반 접근법으로 대체되고 있다. 특히 편미분방정식 해법에서 Neural Operators와 PINNs가 기존 유한요소법을 점진적으로 대체하는 추세다.

Scientific Computing and Physics [103] [619] [574] [142]

🏛 기존 수치해석 전문가의 AI 기술 전환을 위한 재교육 프로그램이 필요하다.

AI-Powered Scientific Research Systems 143편 ▶

AI-Powered Scientific Research Systems Timeline

Category Overview

AI 기반 과학 연구 시스템(AI-Powered Scientific Research Systems)은 인공지능이 과학 발견과 실험 과정을 자동화하고 가속화하는 분야로, 단백질 구조 예측부터 데이터 해석까지 폭넓은 응용을 포함하고 있다. AlphaFold와 같은 파운데이션 모델[403]부터 바이오메디컬 분야의 사전학습된 언어 모델[161]에 이르기까지, 다양한 도메인에 특화된 AI 에이전트(Domain-specific Language Agents)들이 과학적 문제 해결에 활용되고 있다. Chain-of-thought 추론 시스템[170]과 물리 정보 신경망(Physics-informed Neural Networks) 같은 기법들은 AI의 과학적 추론 능력을 향상시키며, 생성 AI 기반의 코드 생성[712]과 자동화된 데이터 해석[253]은 과학자들의 실험 워크플로우를 혁신하고 있다. 단일 세포 RNA 분석[696], 지식 그래프 기반 추론[105], 자동화된 피어 리뷰[877] 등 AI는 과학 연구의 전주기에 걸쳐 생산성을 높이고 있다. 동시에 데이터 무결성[252], AI 기반 과학 논문 작성 모범 사례[154], 에이전트 기반 시스템의 과제[052] 등 학제 간 협력과 윤리적 고려가 함께 필요하다.

Scientific Agent Experimentation: Scientific Agent Experimentation은 AI 에이전트가 과학적 발견과 연구를 자동화하는 분야로, 자율 시스템이 실험 설계, 데이터 분석, 가설 검증을 독립적으로 수행하는 것을 목표로 합니다. [052]에서는 Foundation Agents의 발전 과정과 직면한 과제들을 다루며, [137]에서는 과학적 발견을 위해 여러 AI 모듈을 조율하는 자율 에이전트의 구조를 제시합니다. [308], [735], [848]은 각각 양자화학(Quantum Chemistry), 과학적 도구 활용(Scientific Tool), 치료 추론(Therapeutic Reasoning) 분야에 특화된 전문 에이전트들을 소개하여, 도메인 특정 지식 그래프와 물리 기반 추론을 통합하는 방식을 보여줍니다. [072], [111]은 자동 실험실(Self-driving Laboratories)과 합금 설계(Alloy Design) 같은 실제 응용 사례를 통해 AI 에이전트가 반복적인 실험과 최적화를 가속화할 수 있음을 입증합니다. 이러한 연구들은 AI가 과학 연구의 효율성을 혁신적으로 높일 수 있는 가능성을 제시하는 동시에, 신뢰성 있는 추론과 다학제 협업 구현의 중요성을 강조합니다.
Chain-of-thought Reasoning Systems: Chain-of-thought Reasoning Systems는 대규모 언어모델(Large Language Models, LLM)이 복잡한 문제를 단계적으로 분해하여 추론하는 능력을 강화하는 AI 기반 과학 연구 시스템입니다. [833]에서 다루는 장문의 사고 연쇄(Long Chain-of-Thought) 기법은 모델이 중간 단계의 논리를 명시적으로 표현하도록 유도하여 추론의 투명성과 정확성을 크게 향상시킵니다. [675]의 검색 증강 생성(Retrieval-Augmented Generation, RAG) 방식은 외부 지식 소스를 활용하여 모델의 추론 능력을 보완하고 과학적 근거를 제공합니다. [320]과 [026]에서 강조하는 것처럼, 코드 학습 및 대규모 언어모델의 기초 연구는 더욱 정교한 추론 시스템 개발의 토대가 됩니다. [785]의 멀티모달 교육 방식은 텍스트뿐 아니라 이미지와 같은 다양한 입력 형식에서도 연쇄 추론 능력을 강화하는 혁신적 접근입니다. 이러한 Chain-of-thought 기술들은 과학 연구의 자동화, 검증, 그리고 새로운 발견의 가속화에 기여하고 있습니다.
AI Research Taxonomies: AI 연구 분류법(AI Research Taxonomies)은 과학 연구 분야에서 인공지능의 역할과 활용을 체계적으로 정리하고 분류하는 방법론입니다. [088]에서 다루는 바와 같이, AI for Scientific Research는 양자 컴퓨팅부터 원자 수준의 시뮬레이션에 이르기까지 다양한 과학 분야에 적용되고 있습니다. [089]의 자동화된 과학 거짓말 적발(automated falsification) 시스템과 같이, AI 기반 연구 자동화는 과학적 발견의 속도와 정확성을 혁신적으로 향상시키고 있습니다. 또한 [377]에서 강조하는 Foundation Model 시대의 도래로, Generative AI는 지식 근로자(knowledge workers)들의 과학 연구 방식을 근본적으로 변화시키고 있습니다. [432]의 실시간 AI 기반 지능형 실험(intelligent experiments through real-time AI)과 같은 사례들은 데이터 처리와 분석의 새로운 패러다임을 제시하고 있습니다. 이러한 분류 체계는 AI의 과학 연구 활용에 대한 기회와 위험요소를 균형있게 이해하는 데 필수적입니다.
Visual Scientific Reasoning: Visual Scientific Reasoning은 AI 기반 과학 연구 시스템에서 시각적 정보를 분석하고 추론하는 능력을 다루는 분야입니다. 이는 차트(Chart), 그래프, 그림 등 다양한 시각 자료를 Large Language Model(LLM)이 이해하고 해석하며 생성하는 기술을 포함합니다[201]. 과학 논문 작성 과정에서 AI를 효과적으로 활용하기 위한 모범 사례들과 함께, multimodal 피드백을 통한 추론 능력 향상 방법이 중요한 연구 주제가 되고 있습니다[203]. 또한 AI가 인간의 인지적 편향(cognitive biases)을 반영하고 시간 경과에 따른 인지 부채(cognitive debt)를 누적할 수 있다는 점도 고려해야 합니다[890]. 이러한 연구들은 AI 에이전트(AI agents)가 과학적 추론에서 인간 수준의 사고를 모방하도록 하면서도 그 한계를 인식하는 데 기여합니다[458]. 결과적으로 Visual Scientific Reasoning은 foundation models을 활용한 과학 연구의 정확성과 신뢰성을 향상시키는 핵심 기술 영역입니다[028].
Domain-specific Language Agents: Domain-specific Language Agents는 특정 분야의 전문 지식과 작업을 수행하기 위해 설계된 대규모 언어 모델(Large Language Models, LLM) 기반 에이전트입니다. 이러한 에이전트들은 생명과학, 기계설계, 최적화 등 다양한 도메인에서 자율적으로 복잡한 문제를 해결하고 의사결정을 수행할 수 있습니다. BioBERT와 같은 사전학습된 언어 표현 모델(pre-trained language representation model)은 특정 분야의 용어와 개념을 이해하도록 최적화되어 있으며[161], 이를 바탕으로 도메인별 에이전트가 더욱 정교한 작업을 수행할 수 있습니다. 멀티 에이전트 시스템(Multi-Agent Systems)과 정책 전이(Policy Transfer) 기술을 통해 여러 에이전트가 협력하거나 한 분야의 학습을 다른 분야에 적용할 수 있으며[033], LLM 에이전트는 진화적 최적화(Evolutionary Optimization)와 같은 고급 기법을 활용하여 창의적인 설계 및 최적화 문제를 해결합니다[462]. 이러한 도메인별 에이전트의 발전은 과학 연구, 산업 설계, 자동화된 분석 등 실무 분야에서 인공지능의 실질적 가치를 크게 높이고 있습니다.
Scientific Code Generation: Scientific Code Generation은 AI 기반 과학 연구 시스템에서 과학자들의 코드 작성을 자동화하고 지원하는 핵심 기술 영역이다. 이 분야는 SciCode와 같은 과학자 중심의 벤치마크 데이터셋 [712]을 통해 과학 분야별 코딩 능력을 평가하며, StarCoder 같은 대규모 언어 모델 [771]을 활용하여 과학적 코드 생성의 정확성과 효율성을 향상시키고 있다. 동시에 과학 논문의 근거 검증, 가설 생성 및 검증 [719], 체계적 문헌 고찰의 자동화 [862] 등 다양한 과학 연구 과정에서 AI 기반 코드 생성이 활용되고 있다. 데이터 무결성(data integrity) 문제 [252]와 다언어 지원 [023] 같은 실제 과학 연구 환경의 도전 과제들도 함께 다루어지고 있으며, 이러한 기술들이 과학 출판과 접근성을 개선하는 데 기여하고 있다.
Scientific Data Interpretation: Scientific Data Interpretation은 대규모 언어모델(LLM)과 AI 에이전트를 활용하여 과학 분야의 복잡한 데이터를 자동으로 분석하고 해석하는 시스템입니다. [253]의 Data Interpreter와 같은 LLM 에이전트는 데이터 과학(Data Science) 작업을 자율적으로 수행하며, [170]의 Blade와 같은 벤치마킹 시스템은 이러한 에이전트들의 성능을 평가합니다. 재료과학(Material Science) 분야에서는 [523]의 MatterChat과 같은 멀티모달 LLM(Multi-Modal LLM)이 다양한 형식의 데이터를 통합하여 분석하고, [451]의 지식 가이드 LLM은 도메인 특화 지식을 결합하여 정확도를 높입니다. 또한 [404]의 사례 연구처럼 Gemini 같은 고급 모델이 과학 연구를 가속화하고 있으며, [404]의 고성능 검색증강생성(RAG) 기술은 대규모 과학 문헌에서 필요한 정보를 효율적으로 추출합니다. 이러한 기술들은 연구자들이 데이터 분석에 소요되는 시간을 단축하고 더 정확한 과학적 해석을 가능하게 합니다.
Protein Structure Prediction: 단백질 구조 예측(Protein Structure Prediction)은 AI 기반 과학 연구 시스템에서 가장 중요한 분야 중 하나입니다. AlphaFold를 통한 고정확도의 단백질 3차원 구조 예측 기술 [403]은 생물 분자 상호작용(Biomolecular Interactions)의 정확한 구조 예측 [046]으로 발전했습니다. 최근에는 단순 예측을 넘어 에이전트 기반의 신규 단백질 설계(De Novo Protein Design)가 가능해졌으며, 맞춤형 동역학 특성을 가진 단백질을 설계하는 기술 [256], [065]이 개발되었습니다. 또한 양자 해밀턴 예측 벤치마크 [646]와 항체의 원자 수준 정확도 설계 기술 [112]도 단백질 구조 예측 분야를 한층 고도화하고 있습니다. 이러한 기술들은 신약 개발, 효소 공학, 바이오테크놀로지 분야에 혁신적인 변화를 가져오고 있습니다.
Single-cell RNA Analysis: 단일세포 RNA 분석(Single-cell RNA Analysis)은 개별 세포 수준에서 유전자 발현을 정밀하게 측정하고 해석하는 AI 기반 과학 연구 분야입니다. 이 분야는 멀티모달 데이터 통합[431]과 대규모 언어 모델(Large Language Model, LLM) 기반 자동화 에이전트[193]를 활용하여 복잡한 생물학적 현상을 체계적으로 분석합니다. 특히 AI 큐레이션 데이터베이스[700]와 자율 기계 학습(Autonomous Machine Learning)[069] 기술을 통해 연구자들은 세포 이질성(Cell heterogeneity)을 더욱 효과적으로 규명할 수 있습니다. 능동학습(Active Learning) 기반의 실험 설계[258]와 대화형 에이전틱 AI 프레임워크[612]는 과학적 발견을 가속화하고 생물정보학적 해석의 정확성을 향상시킵니다. 이러한 통합적 접근은 암, 면역질환, 신경퇴행성 질환 등 다양한 생물의학 분야에서 세포 수준의 메커니즘 규명을 가능하게 합니다.
Knowledge Graph Reasoning: Knowledge Graph Reasoning은 AI 기반 과학 연구 시스템에서 구조화된 지식을 활용하여 복잡한 추론 작업을 수행하는 핵심 기술이다. 이 분야는 정리와 증명(theorem proving)부터 학술 그래프 마이닝(academic graph mining), 지식 그래프 구성(knowledge graph construction)에 이르기까지 다양한 응용 분야를 포함한다. [568]의 통합 정리 및 증명 데이터 마스터링 연구와 [486]의 신경 정리 증명(neural theorem proving) 기술은 지식 그래프를 기반으로 한 자동 추론의 효율성을 높이고 있다. [393]의 RAG 프레임워크(retrieval-augmented generation framework)와 [666]의 과학 지식 그래프 기반 연구 가설 생성은 지식 그래프 추론을 통해 새로운 과학적 인사이트를 도출하는 방법을 제시한다. [580]의 벤치마크 구축과 [317]의 자연어 추론 성능 향상 연구는 지식 그래프 기반 추론 시스템의 평가와 최적화에 기여하며, 궁극적으로 과학 연구의 자동화와 가속화를 가능하게 한다.
Automated Peer Review: # Automated Peer Review 자동화된 피어 리뷰(Automated Peer Review) 시스템은 대규모 언어모델(Large Language Model, LLM)과 자연어처리(Natural Language Processing, NLP) 기술을 활용하여 학술논문의 평가 및 검증 과정을 자동화하는 기술입니다. [877]에서 NLP가 피어 리뷰에 어떠한 역할을 할 수 있는지 탐구하고 있으며, [629]에서는 피어 리뷰 기반의 대규모 언어모델 평가기(Pre: A peer review based large language model evaluator)를 제안하고 있습니다. 이러한 AI 기반 리뷰 시스템은 [664]와 같은 벤치마크를 통해 서베이 논문 평가에서의 성능을 검증하고 있으며, [882]에서는 인용 정보와 LLM을 결합한 평가 방식을 조사하고 있습니다. 자동화된 피어 리뷰 기술은 학술 출판의 효율성을 향상시키고 평가 프로세스의 일관성을 보장하는 동시에, 전문적인 검토 능력 평가(core competency evaluation) [810]를 통해 지속적으로 개선되고 있습니다.
Physics-informed Neural Networks: Physics-informed Neural Networks (PINN)는 물리 법칙을 신경망에 직접 통합하여 과학적 문제를 해결하는 AI 기술입니다. [721] 이러한 시스템은 편미분방정식(Partial Differential Equations, PDE)을 학습하고 복잡한 물리 현상을 모델링할 수 있으며, 전통적인 수치해석 방법보다 효율적입니다. [850][037] 불확실성 정량화(Uncertainty Quantification)는 PINN의 예측 신뢰성을 평가하는 핵심 요소로, 머신러닝 모델의 오차와 한계를 정량적으로 측정합니다. [103] 신경 연산자(Neural Operators)와 같은 다양한 아키텍처는 PINN의 성능과 확장성을 향상시키며, 여러 물리 문제에 적용될 수 있습니다. [767] SPINONet과 같은 최신 변형 모델들은 스파이킹 신경망(Spiking Neural Networks)을 활용하여 계산 효율성을 높이면서도 물리 제약 조건을 만족하는 솔루션을 제공합니다.
AI-driven Bioinformatics Integration: AI 기반 생명정보학 통합(AI-driven Bioinformatics Integration)은 인공지능 기술을 생명정보학 분야에 적용하여 생물학적 데이터 분석과 과학적 발견을 가속화하는 시스템입니다. 기초 모델(Foundation Models)의 등장으로 대규모 생물학적 데이터셋을 효율적으로 처리할 수 있게 되었으며, 이는 단백질 구조 예측, 유전자 분석, 신약 개발 등 다양한 생명과학 연구에 혁신을 가져오고 있습니다 [344]. ChatGPT와 같은 AI 시스템이 2023년 과학 분야에서 중요한 역할을 수행하면서 [899], 생명정보학 자동화(Laboratory Automation)와 AI의 결합은 연구 효율성을 획기적으로 높이고 있습니다 [614]. 향후 AI for Science 분야에서는 AGI(Artificial General Intelligence) 수준의 AI 모델들이 복잡한 생물학적 문제 해결에 더욱 활용될 것으로 예상되며 [075], 이러한 발전은 생명과학 연구의 패러다임을 근본적으로 변화시킬 것입니다 [322].
Biomedical Research Agents: 생의학 연구 에이전트(Biomedical Research Agents)는 대규모 언어 모델(Large Language Model)과 멀티모달 비전 기술을 결합하여 과학 연구 프로세스를 자동화하는 AI 시스템입니다. [212]에서 제시된 Chemist-X와 같은 화학 반응 분석 에이전트부터 [139]의 자율 현미경 실험(Autonomous Microscopy Experiments)까지, 이들 시스템은 복잡한 실험 설계와 데이터 해석을 인간 개입 없이 수행할 수 있습니다. [168]의 Biomni와 같은 범용 생의학 AI 에이전트는 다양한 생물의학 분야의 작업을 통합적으로 처리하며, [091]의 AIscivision 프레임워크는 멀티모달 모델(Multimodal Model)의 특화를 통해 과학적 이미지 분석 능력을 향상시킵니다. [297]의 EAA 시스템은 비전-언어 모델(Vision-Language Model)을 활용하여 재료 특성화(Materials Characterization) 프로세스를 완전히 자동화합니다. 이러한 생의학 연구 에이전트들은 연구 효율성을 획기적으로 증대시키고 과학적 발견의 속도를 가속화하는 혁신적인 도구로 기능합니다.
Foundation Models Biology: Foundation Models Biology는 생물학 분야에 대규모 언어 모델(Large Language Models)과 기초 모델(Foundation Models)을 적용하는 혁신적인 접근 방식입니다. [720]에서 다루는 바와 같이, 과학 분야 대규모 언어 모델들은 생물학 및 화학 연구에서 중요한 역할을 수행하고 있으며, 다양한 도전 과제들을 극복해나가고 있습니다. [696]의 단일 세포(Single-Cell) 분석에 적용된 대규모 언어 모델 스케일링 기술은 차세대 유전자 발현 분석을 가능하게 하고 있습니다. [302]에서 시퀀스 정보로부터 유전자 발현 예측(Gene Expression Prediction)을 통합적으로 수행하는 효과적인 방법들이 제시되고 있으며, [465]의 재료과학(Materials Science) 분야 사례처럼 생물학 외 다양한 과학 영역으로의 확대 적용이 진행 중입니다. Foundation Models Biology는 AI와 생물학의 융합을 통해 복잡한 생명 현상의 이해와 신약 개발, 질병 치료 방법 발굴 등 다양한 실무적 응용을 가능하게 하고 있습니다.
AI-guided Manufacturing Control: AI 기반 제조 공정 제어(AI-guided Manufacturing Control)는 기계학습과 진화 알고리즘을 활용하여 제조 공정의 최적화 및 동적 제어를 실현하는 기술 분야입니다. 화학 공간(chemical space)의 효율적인 탐색을 통해 신소재 개발 시간을 단축하고 [305], 적응 제어(adaptive control) 시스템에 생성형 머신러닝(generative machine learning)을 적용하여 동적 제조 환경에 대응하는 지능형 제어가 가능해집니다 [380]. 분자의 구조를 반영한 토큰화(tokenization) 기법과 확산 모델(diffusion model)의 보상 기반 정렬(reward-guided alignment)을 통해 제조 공정의 정밀도와 효율성이 크게 향상됩니다 [349], [428]. 이러한 기술들은 반도체, 화학, 제약 등 다양한 산업에서 제조 비용 절감과 품질 개선을 동시에 달성하는 데 활용되고 있습니다.
Geometric Prior Learning: 기하학적 사전 학습(Geometric Prior Learning)은 AI 기반 과학 연구 시스템에서 물리적 구조와 공간적 관계에 대한 사전 지식을 활용하여 학습 효율을 극대화하는 기술입니다. 이 접근 방식은 메타물질(metamaterials) 설계와 같은 복잡한 과학 문제에서 신경망이 기하학적 제약을 직접 학습하도록 하여, 비효율적인 탐색 공간을 크게 축소할 수 있습니다[440]. 파운데이션 모델(foundation models)을 대리 모델(surrogate model)로 활용하면 제한된 데이터로도 능동 학습(active learning)을 효율적으로 수행할 수 있으며, 이는 과학적 발견의 속도를 가속화합니다[346]. 기하학적 사전 학습은 신경 과학 연구에서도 적용되어 행동 데이터의 복잡한 기하학적 구조를 이해하는 데 도움을 주고 있습니다[839]. 결과적으로 이 기술은 인공지능 시대의 과학적 발견 과정을 혁신하여 더욱 효율적이고 정확한 연구를 가능하게 합니다[718].

Protein Structure Prediction 6 ▶

#1 2021.08 5/5

Highly accurate protein structure prediction with AlphaFold

저자: John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon A. A. Kohl, Andrew J. Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W. Senior, Koray Kavukcuoglu, Pushmeet Kohli, Demis Hassabis | 날짜: 2021.08 | DOI: 10.1038/s41586-021-03819-2

AlphaFold가 생성한 고정확도 구조: (a) CASP14 데이터셋에서 다른 상위 15개 방법과의 성능 비교, (b-d) 정확한 백본 및 사이드 체인 예측, 특히 큰 단백질의 도메인 패킹 정확도 시연

Essence

AlphaFold는 아미노산 서열만으로 단백질의 3차원 구조를 원자 수준의 정확도로 예측하는 딥러닝 모델로, 50년 이상의 단백질 폴딩 문제를 근본적으로 해결한 획기적인 성과이다.

Evaluation

Novelty: 5 Technical Soundness: 5 Significance: 5 Clarity: 4 Overall: 5

이 논문은 50년 이상 미해결된 단백질 폴딩 문제를 딥러닝으로 거의 완전히 해결한 역사적 성과로, 진화적 정보와 기하학적 제약을 창의적으로 통합한 혁신적 아키텍처를 제시하며, 구조 생물학과 생의학 연구에 패러다임 전환을 가져왔다.

#2 2024 4/5

Accurate structure prediction of biomolecular interactions with AlphaFold 3

저자: Josh Abramson, Jonas Adler, Jack Dunger, Richard Evans, Tim Green 외 다수 | 날짜: 2024 | DOI: 10.1038/s41586-024-07487-w

그림 1: AlphaFold 3는 다양한 생체분자 복합체에서 정확하게 구조를 예측함

Essence

AlphaFold 3는 단백질, 핵산, 소분자, 이온, 변형된 잔기를 포함한 생체분자 복합체 구조를 통합된 딥러닝 프레임워크 내에서 정확하게 예측하는 모델이다. 확산 기반(diffusion-based) 아키텍처를 통해 기존 특화된 도킹 및 예측 도구들을 크게 능가하는 성능을 달성했다.

Evaluation

Novelty: 5 Technical Soundness: 5 Significance: 5 Clarity: 4 Overall: 4

AlphaFold 3는 확산 기반 생성 모델을 생체분자 구조 예측에 혁신적으로 적용하여, 단백질부터 리간드, 핵산까지 모든 유형의 복합체를 통합 프레임워크로 정확하게 예측함으로써 구조생물학과 약물 설계 분야에 패러다임 전환을 가져오는 매우 중요한 기여이다.

#3 2023 4/5

Agentic End-to-End De Novo Protein Design for Tailored Dynamics Using a Language Diffusion Model

저자: Bo Ni, Markus J. Buehler | 날짜: 2023 | DOI: 미제공 (MIT LAMM 논문)

Essence

![Figure 1](figures/fig1.webp) *VibeGen의 워크플로우: (A) 정상 모드 데이터베이스 구축, (B) 이중 에이전트 아키텍처를 통한 설계, (C) 분자동역학 시뮬레이션으로 검증* 단백질의 생물학적 기능은 구조뿐만 아니라 동적 움직임에 의존하므로, 본 논문은 정상 모드 진동(normal mode vibration)을 조건으로 하는 **VibeGen** 프레임워크를 제시하여 목표 동역학 특성을 갖는 신규 단백질 설계를 가능하게 함.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 단백질의 동역학적 특성을 명시적 설계 조건으로 통합한 혁신적 접근법을 제시하며, 이중 에이전트 협력을 통해 정확성과 다양성을 동시에 달성한 점이 특징임. 분자동역학 시뮬레이션 검증으로 신뢰성을 확보했으나, 다중 모드 확장성과 계산 비용 측면에서 개선 여지 존재.

#4 2025 4/5

Agentic End-to-End De Novo Protein Design for Tailored Dynamics Using a Language Diffusion Model

저자: Bo Ni, Markus J. Buehler | 날짜: 2025 | DOI: 10.48550/arXiv.2502.10173

워크플로우: (A) PDB 단백질로부터 NMA 및 MD를 통한 동역학 시그니처 수집, (B) 단백질 디자이너와 예측기의 협력 작동, (C) 설계된 단백질의 검증 및 분석

Essence

단백질의 동역학적 특성을 직접 제어할 수 있는 생성형 AI 프레임워크 VibeGen을 제시하며, 이는 정규 모드(normal mode) 진동을 기반으로 새로운 단백질 서열을 설계할 수 있다.

Evaluation

Overall: 4

이 연구는 단백질 설계에 동역학적 고려를 체계적으로 통합한 혁신적 시도로, 이중 에이전트 협력 프레임워크를 통해 de novo 단백질을 생성하는 데 성공했다. 전원자 MD 기반 검증으로 신뢰성을 확보했으나, 실험적 검증, 다중 모드 확장, 생물학적 기능성 입증이 후속 과제이다.

#5 2023 4/5

QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules

저자: Haiyang Yu, Meng Liu, Youzhi Luo, A. Strasser, X. Qian | 날짜: 2023 | DOI: 10.48550/arXiv.2306.09549

QH9 데이터셋과 벤치마크의 목표 및 내용: 양자 텐서 네트워크가 해밀턴 행렬 예측을 위해 구성되며, 안정적/동적 데이터셋과 포괄적 평가 지표가 포함됨

Essence

![Figure 1](figures/fig1.webp) *QH9 데이터셋과 벤치마크의 목표 및 내용: 양자 텐서 네트워크가 해밀턴 행렬 예측을 위해 구성되며, 안정적/동적 데이터셋과 포괄적 평가 지표가 포함됨* 본 논문은 QM9 데이터셋을 기반으로 999개 또는 2998개의 분자 동역학 궤적 및 130,831개의 안정 분자 기하구조에 대한 정밀한 해밀턴(Hamiltonian) 행렬을 제공하는 새로운 양자 해밀턴 데이터셋 QH9를 제시하며, 밀도범함수이론(DFT) 계산 가속화를 위한 머신러닝 모델 개발을 지원한다.

Evaluation

Overall: 4

QH9는 양자화학 머신러닝 분야에서 필수적 인프라 역할을 할 수 있는 야심찬 벤치마크로서, 대규모 다양한 데이터와 포괄적 평가 지표를 제시한 점이 매우 우수하나, 실제 양자 텐서 네트워크 구현의 성능 검증과 더 광범위한 화학계 포함이 이루어진다면 더욱 강력한 기여가 될 것으로 판단됨.

#6 2025.02 N/A

Atomically accurate de novo design of antibodies with RFdiffusion

저자: Nathaniel R. Bennett, Joseph L. Watson, Robert J. Ragotte, Andrew J. Borst, DéJenaé L. See, Connor Weidle, Riti Biswas, Yutong Yu, Ellen L. Shrock, Russell Ault, Philip J. Y. Leung, Buwei Huang, Inna Goreshnik, John Tam, Kenneth D. Carr, Benedikt Singer, Cameron Criswell, Basile I. M. Wicky, Dionne Vafeados, Mariana Garcia Sanchez, Ho Min Kim, Susana Vázquez Torres, Sidney Chan, Shirley M. Sun, Timothy Spear, Yi Sun, Keelan O'Reilly, John M. Maris, Nikolaos G. Sgourakis, Roman A. Melnyk, Chang C. Liu, David Baker | 날짜: 2025.02 | DOI: 10.1101/2024.03.14.585103

Figure 1: RFdiffusion 항체 설계 개요. (A) 미세조정 과정에서 항체 복합체 구조를 노이징하여 학습, (B) 추론 시 프레임워크 서열과 구조를 제공, (C) 전역 프레임 불변성을 통해 강체 위치 샘플링 가능, (D) 표적 에피토프 지정을 위한 핫스팟(hotspot) 특징 적응

Essence

본 연구는 RFdiffusion 신경망의 항체 특화 미세조정을 통해 원자 수준의 정확도로 사용자가 지정한 에피토프(epitope)에 결합하는 항체 가변 영역(VHH, scFv)을 완전히 컴퓨터 기반으로 설계할 수 있음을 처음으로 입증했다. 초기 계산 설계부터 효율성 성숙(affinity maturation)까지 체계화된 파이프라인을 제시하고 크라이오-EM 구조 검증으로 설계 정확도를 확인했다.

Domain-specific Language Agents 9 ▶

#7 2019 4/5

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

저자: Jinhyuk Lee, WonJin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim | 날짜: 2019 | DOI: 10.1093/bioinformatics/btz682

Essence

생의학 문헌의 급증에 따라 생의학 텍스트 마이닝의 중요성이 높아지고 있으나, 일반 도메인에서 사전학습된 BERT를 직접 적용하면 어휘 분포의 차이로 인해 성능이 저하되는 문제를 해결하기 위해, 저자들은 PubMed와 PMC 생의학 코퍼스에서 추가 사전학습한 BioBERT를 제안하여 명명된 개체 인식(NER), 관계 추출(RE), 질의응답(QA)에서 기존 최고 성능 모델을 능가하는 성과를 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

BioBERT는 도메인 특화 사전학습의 중요성을 명확히 입증하며, 생의학 텍스트 마이닝 커뮤니티에 실질적이고 즉시 활용 가능한 기여를 제공한 연구다. 공개된 모델과 코드는 이후 생의학 NLP 분야의 발전을 견인한 중요한 기초 자산이 되었다.

#8 2023 4/5

Augmented Language Models: a Survey

저자: G. Mialon, Roberto Dessì, M. Lomeli, Christoforos Nalmpantis, Ramakanth Pasunuru | 날짜: 2023 | DOI: arXiv:2302.07842

Essence

본 논문은 언어 모델(Language Models, LMs)을 추론 능력과 도구 사용 능력으로 확대하는 증강 언어 모델(Augmented Language Models, ALMs)에 대한 포괄적인 조사 논문이다. ALMs는 복잡한 작업을 단순한 부작업으로 분해하거나 외부 모듈(코드 인터프리터, 검색 엔진 등)을 활용하여 기존 LMs의 해석 가능성, 일관성, 확장성 문제를 해결할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 빠르게 발전하는 ALM 분야를 체계적으로 정리한 우수한 서베이로, 추론과 도구 사용을 통합적으로 다루고 명확한 분류체계를 제시하여 커뮤니티에 실질적 기여를 한다. 다만 일부 핵심 개념의 철학적 기초가 여전히 명확하지 않다는 한계가 있다.

#9 2024 4/5

A comprehensive survey of cross-domain policy transfer for embodied agents

저자: Haoyi Niu, Jianming Hu, Guyue Zhou, Xianyuan Zhan | 날짜: 2024

Figure 1: The main architecture of the survey: domain gap taxonomy, overarching insights on methodologies, and future tr

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The main architecture of the survey: domain gap taxonomy, overarching insights on methodologies, and future tr* 구현 로봇(embodied agents)을 위한 크로스 도메인 정책 전이(cross-domain policy transfer) 방법들을 체계적으로 검토한 종합 서베이. 시뮬레이션, 실험실 등 저비용 소스 도메인의 데이터를 실제 환경(타겟 도메인)에 효과적으로 전이하는 기술들을 분류 및 분석.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 서베이는 크로스 도메인 정책 전이 분야의 첫 체계적 검토로서, 분산된 연구들을 통합하고 도메인 갭을 명확히 분류하여 해당 분야에 중요한 기초 자료를 제공한다. 로봇 학습과 구현 AI의 실세계 배포를 위한 필수적인 기술 영역을 포괄적으로 정리하여 향후 연구 방향을 제시하는 가치 있는 기여이다.

#10 2023 4/5

A survey on large language model based autonomous agents

저자: Lei Wang, Chengbang Ma, Xueyang Feng, Zeyu Zhang, Hao-ran Yang | 날짜: 2023 | DOI: 10.1007/s11704-024-40231-1

Fig. 1

Essence

![Figure 2](figures/fig2.webp) *Fig. 2* 본 논문은 대규모 언어모델(LLM)을 기반으로 한 자율 에이전트의 구성, 응용, 평가에 대한 체계적 종합 리뷰를 제시한다. LLM의 광범위한 지식과 인간 수준의 지능을 활용하여 자율적 의사결정이 가능한 에이전트 구축 방법론을 통합 프레임워크로 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 자율 에이전트 분야의 급속한 성장 속에서 기존 연구들을 체계적으로 정리하고 통합 프레임워크를 제시한 중요한 종합 리뷰이다. 에이전트 구성, 응용, 평가에 대한 포괄적 분석을 통해 향후 연구의 방향성을 제시하며, 분야 진입 연구자들에게 필수적인 배경 지식을 제공한다.

#11 2024 4/5

Automated review generation method based on large language models

저자: Shican Wu, Xiao Ma, Dehui Luo, Lulu Li, Xiangcheng Shi, Xin Chang, Xiaoyun Lin, Ran Luo, Chunlei Pei, Du, Changying, Zhi‐Jian Zhao, Jinlong Gong | 날짜: 2024

이중 기준선 리뷰 품질 평가 프레임워크의 신뢰성 검증 결과

Essence

대규모언어모델(LLM)을 기반으로 학술논문 검색, 분석, 리뷰 생성을 전자동화하는 엔드-투-엔드 방법론을 제시하며, 통계적으로 검증된 평가 프레임워크를 통해 생성된 리뷰가 인간 전문가 수준과 동등 이상의 품질을 달성함을 입증한다.

Evaluation

Overall: 4

본 논문은 LLM 기반 자동화 리뷰 생성의 실용적 구현을 보여주는 가치 있는 연구이며, 이중 기준선 평가 및 다층 품질 관리 전략은 신뢰할 수 있는 학술 AI 도구 개발의 중요한 사례입니다. 다만 PDH 촉매 단일 분야 검증과 대규모 모델 의존성은 광범위한 채택을 제한할 수 있어, 다양한 분야 검증과 소형 모델 최적화 연구가 후속되면 더욱 강화될 것으로 예상됩니다.

#12 2024 4/5

Large Language Model Agent as a Mechanical Designer

저자: Yayati Jadhav, A. Barati Farimani | 날짜: 2024 | DOI: 10.48550/arXiv.2404.17525

폐루프 최적화 프레임워크: 대규모 언어모델(LLM)과 유한요소법(FEM) 모듈을 통합하여 구조 설계를 자동으로 생성, 평가, 개선

Essence

![Figure 1](figures/fig1.webp) *폐루프 최적화 프레임워크: 대규모 언어모델(LLM)과 유한요소법(FEM) 모듈을 통합하여 구조 설계를 자동으로 생성, 평가, 개선* 본 논문은 사전학습된 대규모 언어모델(Large Language Model, LLM)을 유한요소법(Finite Element Method, FEM)과 결합하여 도메인 특화 미세조정 없이 구조 설계를 자율적으로 생성하고 반복 개선하는 프레임워크를 제안한다. 특히 2D 트러스 구조 최적화에서 NSGA-II와 같은 전통 최적화 방법보다 빠른 수렴과 적은 FEM 평가 횟수를 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 사전학습된 LLM을 FEM과 결합하여 도메인 특화 학습 없이 자율적 설계 최적화를 달성하는 창의적 프레임워크를 제시한다. 다목적, 이산 최적화 문제에서 전통 방법보다 효율적임을 보여주는 점이 강점이나, 2D 트러스 사례 검증, 수렴성 이론 부재, 실제 공학 문제로의 확장성 검증이 필요한 상태이다.

#13 2024 4/5

Large Language Model based Multi-Agents: A Survey of Progress and Challenges

저자: Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei | 날짜: 2024 | DOI: 10.48550/arXiv.2402.01680

Essence

![Figure 1](https://arxiv.org/html/2402.01680v2/x1.png) *그림 1: LLM 기반 멀티에이전트 연구 분야의 상승 추세. 문제 해결 및 세계 시뮬레이션 범주에서 최근 연구를 3개월 간격으로 분류.* 대규모 언어모델(LLM)의 계획 및 추론 능력을 활용하여 여러 자율 에이전트가 협력하는 멀티에이전트 시스템(LLM-MA)이 복잡한 문제 해결과 세계 시뮬레이션에서 상당한 진전을 이루고 있다. 본 논문은 LLM 기반 멀티에이전트 시스템의 필수 측면(에이전트-환경 인터페이스, 프로파일링, 통신, 능력 획득)과 도메인 적용을 체계적으로 정리한 종합 서베이이다.

Evaluation

Overall: 4

본 논문은 급속히 발전하는 LLM 기반 멀티에이전트 연구 분야에 대한 체계적이고 포괄적인 서베이를 제공하며, 에이전트-환경 인터페이스, 프로파일링, 통신, 능력 획득이라는 4가지 핵심 차원으로 LLM-MA 시스템을 분석하는 새로운 프레임워크를 제시하여 학술적 가치가 높다. 다만 이론적 분석의 깊이와 실제 적용 시 마주칠 수 있는 확장성, 신뢰성 문제에 대한 논의가 보강된다면 더욱 실용적인 자료가 될 것으로 예상된다.

#14 2023 4/5

Large Language Models as Evolutionary Optimizers

저자: Shengcai Liu, Caishun Chen, Xinghua Qu, Ke Tang, Y. Ong | 날짜: 2023 | DOI: 10.1109/CEC60901.2024.10611913

Essence

본 논문은 대규모 언어모델(Large Language Models, LLM)을 진화 알고리즘(Evolutionary Algorithms, EA)의 연산자로 활용하여 조합 최적화 문제를 해결하는 최초의 시도를 제시한다. LLM 기반 진화 알고리즘(LMEA)은 도메인 전문 지식 없이도 자연어 명령만으로 부모 선택, 교차(crossover), 돌연변이(mutation) 연산을 수행할 수 있다.

Evaluation

Overall: 4

본 논문은 대규모 언어모델을 진화 알고리즘의 연산자로 활용하는 창의적이고 참신한 패러다임을 제시하며, 추가 훈련 없이 자연어만으로 최적화 문제를 해결할 수 있는 가능성을 보여준다. 다만 제한된 문제 규모와 LLM의 높은 계산 비용이 실제 응용의 장애물이 될 수 있으므로, 향후 대규모 복잡한 실무 문제로의 확장과 프롬프트 최적화 방법론 개발이 필요하다.

#15 2024 4/5

PIORS: Personalized intelligent outpatient reception based on large language model with multi-agents medical scenario simulation

저자: Zhijie Bao, Qingyun Liu, Ying Guo, Zhengqiang Ye, Jun Shen, Shirong Xie, Jiajie Peng, Xuanjing Huang, Zhongyu Wei | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *PIORS의 전체 프레임워크. 상단은 SFMSS 프레임워크, 하단은 환자, 접수 간호사(PIORS-Nurse), 임상의, 정보 보조원으로 구성된 PIORS의 상세 구조* 중국의 과포화 외래 접수 업무를 해결하기 위해 대규모언어모델(LLM) 기반 다중 에이전트 시스템을 제안하고, 실제 임상 시나리오에 맞춘 의료 대화 데이터 생성 프레임워크를 통해 개인화된 고품질 접수 서비스를 제공한다.

Evaluation

Overall: 4

실제 의료 현장의 구체적인 문제를 해결하기 위해 LLM 기반 멀티 에이전트 시스템과 현실 기반 시뮬레이션 데이터 생성을 효과적으로 결합한 우수한 연구이며, 임상 전문가 검증을 통해 실용성을 입증했으나, 다양한 의료 환경으로의 일반화 가능성 검증이 필요한 상황이다.

Foundation Models Biology 5 ▶

#16 2025.04 4/5

Scaling Large Language Models for Next-Generation Single-Cell Analysis

저자: Syed Asad Rizvi, Daniel Levine, Aakash Patel, Shiyang Zhang, Eric Wang, Curtis Jamison Perry, Ivan Vrkic, Nicole Mayerli Constante, Zirui Fu, Sizhuang He, David Zhang, Cerise Tang, Zhuoyang Lyu, Rayyan Darji, Chang Li, Emily Sun, David Jeong, Lawrence Zhao, Jennifer Kwan, David Braun, Brian Hafler, Hattie Chung, Rahul M. Dhodapkar, Paul Jaeger, Bryan Perozzi, Jeffrey Ishizuka, Shekoofeh Azizi, David Van Dijk | 날짜: 2025.04 | DOI: 10.1101/2025.04.14.648850

Figure 1: C2S 프레임워크의 다차원적 확장 - 모델 용량, 데이터 크기, 다중 모달리티, 다중세포 지원, 생물학적 스케일 통합

Essence

![Figure 2](figures/fig2.webp) *Figure 2: C2S-Scale는 scRNA-seq 데이터와 자연언어를 통합하여 LLM을 이용한 단일세포 분석 수행* 단일세포 RNA 시퀀싱 데이터를 "세포 문장(cell sentence)" 형태의 텍스트로 변환하여 대규모언어모델(LLM)로 처리하는 Cell2Sentence 프레임워크를 270억 개의 파라미터로 확장함으로써, 전사체 데이터와 생물학적 텍스트 정보를 통합한 차세대 단일세포 분석 플랫폼을 구현했다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

이 논문은 대규모 LLM의 스케일링 효과를 단일세포 생물학에 처음 체계적으로 입증하고, 전사체 데이터와 자연언어의 통합을 전례 없는 규모(50M 세포, 1B 토큰)로 달성한 획기적 연구이다. Cell2Sentence 프레임워크의 우아한 설계, GRPO 강화학습 응용, scFID 평가 지표 개발 등에서 높은 독창성을 보이며, 공개 모델 및 자원 공개로 생물학 커뮤니티에 실질적 기여를 할 것으로 예상된다. 다만 해석가능성 부재와 계산 비용 측면에서는 개선이 필요하며, 논문의 일부 기술적 세부사항(특히 GRPO 적용 방식, scFID 검증 방법)이 다소 간략하게 기술된 점이 아쉽다.

#17 2021 4/5

Effective gene expression prediction from sequence by integrating long-range interactions

저자: Žiga Avsec, Vikram Agarwal, D. Visentin, J. Ledsam, A. Grabska-Barwinska | 날짜: 2021 | DOI: 10.1038/s41592-021-01252-x

그림 1: Enformer는 200 kb 입력 서열에서 128 bp 해상도로 게놈 트랙을 예측하며, Transformer 모듈을 통해 Basenji2 대비 5배 큰 수용장(100 kb vs 20 kb)을 달성

Essence

DNA 서열로부터 유전자 발현을 예측하는 문제에서 Transformer 기반 자기주목(self-attention) 메커니즘을 통해 100 kb까지의 장거리 규제 요소를 통합함으로써 예측 정확도를 획기적으로 향상시킨 연구이다.

Evaluation

Overall: 4

본 논문은 Transformer의 자기주목 메커니즘을 통해 DNA 서열로부터의 유전자 발현 예측이라는 오랜 문제를 실질적으로 해결하며, 다양한 생물학적 검증을 통해 모델의 생물학적 타당성까지 입증한 매우 높은 수준의 연구이다. 특히 장거리 규제 상호작용 통합이라는 생물학적 직관을 기술적으로 구현하고, 인간 유전학의 여러 응용 분야에서 즉각적인 임상 가능성을 제시한 점에서 높이 평가된다.

#18 2024.01 4/5

Scientific Large Language Models: A Survey on Biological & Chemical Domains

저자: Qiang Zhang, Keyang Ding, Tianwen Lyv, Xinda Wang, Qingyu Yin, Yiwen Zhang, Jing Yu, Yuhao Wang, Xiaotong Li, Zhuoyi Xiang, Kehua Feng, Xiang Zhuang, Zeyuan Wang, Ming Qin, Mengyao Zhang, Jinlu Zhang, Jiyu Cui, Tao Huang, Pengju Yan, Renjun Xu | 날짜: 2024.01

Essence

![Figure 2](figures/fig2.webp) *생물 및 화학 영역의 과학적 언어(분자, 단백질, 게놈, 텍스트) 및 멀티모달 조합을 포괄하는 과학 LLM의 연구 범위* 본 논문은 생물학 및 화학 분야의 특화된 과학 언어를 처리하도록 설계된 대규모 언어 모델(과학 LLM)에 대한 최초의 포괄적 조사연구다. 텍스트, 분자(SMILES, SELFIES), 단백질(아미노산 서열), 게놈(DNA 서열) 및 이들의 멀티모달 조합을 다루며, 모델 아키텍처, 학습 데이터셋, 평가 방법론을 상세히 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 빠르게 성장하는 과학 LLM 분야의 첫 포괄적 리뷰로, 분자·단백질·게놈·멀티모달 영역을 통합 분석한 점에서 기여도가 크다. 다만 이론적 혁신보다는 기존 모델들의 체계적 종합에 가까우며, 도메인 간 비교 분석 및 실제 과학적 임팩트 검증은 향후 과제로 남아있다.

#19 2025 4/5

Large Language Model in Materials Science: Roles, Challenges, and Strategic Outlook

저자: Jinglan Zhang, Xinyi Chen, Xu Ye, Yulin Yang, Bin Ai | 날짜: 2025 | DOI: 10.1002/aidi.202500085

Essence

본 논문은 대규모 언어모델(Large Language Models, LLMs)이 텍스트 기반 통찰을 실험적 발견으로 변환함으로써 재료과학에 새로운 패러다임을 창출하고 있음을 체계적으로 제시한다. Oracle(지식 추출), Surrogate(성질 예측), Quant(불확실성 정량화), Arbiter(의사결정)라는 4가지 핵심 역할 프레임워크를 통해 LLM의 역할을 구조화하고, 향후 발전 방향을 제시한다.

Evaluation

Overall: 4

본 논문은 LLM을 단순 텍스트 생성 도구를 넘어 재료과학의 통합적 연구 파트너로 재위치시키는 탁월한 관점 논문으로, 향후 자동화 실험실과 지능형 재료 발견의 방향을 제시한다. 다만, 이론적 프레임워크에 비해 구체적 구현과 실증적 검증이 강화될 필요가 있다.

#20 2024.10 3/5

How AI-powered science search engines can speed up your research

저자: Helena Kudiabor | 날짜: 2024.10 | DOI: 10.1038/d41586-024-02942-0

Essence

AI 기반 과학 검색 엔진(LLM, Large Language Model 기반)이 문헌 검토를 가속화할 수 있지만, 정확성 문제와 할루시네이션(hallucination) 위험으로 인해 신중한 사용과 검증이 필수적이다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

이 기사는 빠르게 발전하는 AI 검색 엔진 시장을 시의성 있게 정리하고 실제 사용자의 경험과 함께 할루시네이션 문제를 구체적으로 제시하여, 연구자들이 이 도구들을 신중하게 활용하도록 돕는 데 기여한다. 다만 정량적 분석이 부족하고 기술적 개선 방안이 충분히 심화되지 않은 점이 아쉽다.

AI Research Taxonomies 12 ▶

#21 2023 4/5

Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems

저자: Xuan Zhang, Limei Wang, Jacob Helwig, Youzhi Luo, Cong Fu 외 다수 | 날짜: 2023 | DOI: 10.1561/2200000115

그림 1: AI for Science의 선택된 연구 분야에 대한 통합 개요. 양자, 원자단위, 연속체 시스템을 아우르는 다양한 분야들과 이들을 관통하는 공통 기술 과제들을 시각화

Essence

![Figure 1](figures/fig1.webp) *그림 1: AI for Science의 선택된 연구 분야에 대한 통합 개요. 양자, 원자단위, 연속체 시스템을 아우르는 다양한 분야들과 이들을 관통하는 공통 기술 과제들을 시각화* 이 논문은 AI4Science의 핵심 세 영역(양자역학, 원자단위 시스템, 연속체 시스템)에 걸쳐 심층적이고 통합된 기술 리뷰를 제공한다. 특히 대칭성(symmetry)과 등변성(equivariance)을 핵심 원리로 하여 이들을 심층 학습 방법에 어떻게 통합하는지를 기술적으로 상세히 설명한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

이 논문은 AI4Science 분야의 상태를 정리한 매우 포괄적이고 기술적 깊이 있는 기여이다. 특히 대칭성과 등변성을 통합 원리로 제시하고 이를 양자부터 연속체까지의 다양한 과학 문제에 적용한 점은 이 분야의 이론적 기초를 확립하는 중요한 작업이다. 다만 개별 방법론의 원창성보다는 기존 기술들의 체계적 정리와 통합에 초점이 맞춰져 있으며, 이론-실제 간의 구체적 성능 비교나 새로운 벤치마크 제시는 제한적이다. 역할로서는 리뷰 논문의 위상에 충실하면서도 교육적-지침적 가치가 매우 높은 작업으로, AI4Science 연구자들의 필수 참고문헌이 될 것으로 예상된다.

#22 2025.07 4/5

AI4Research: A Survey of Artificial Intelligence for Scientific Research

저자: Qiguang Chen, Mingda Yang, Libo Qin, Jinhao Liu, Zheng Yan, Jiannan Guan, Dengyun Peng, Yiyan Ji, Hanjing Li, Mengkang Hu, Yimeng Zhang, Yihao Liang, Yuhang Zhou, Jiaqi Wang, Zhi Chen, Wanxiang Che | 날짜: 2025.07 | DOI: 10.48550/arXiv.2507.01903

그림 1: AI4Research의 주요 프로세스와 범주 - 5가지 핵심 영역: (1) 과학 이해도 (Scientific Comprehension), (2) 학술 조사 (Academic Survey), (3) 과학적 발견 (Scientific Discovery), (4) 학술 저술 (Academic Writing), (5) 학술 동료평가 (Academic Peer Review)

Essence

![Figure 1](figures/fig1.webp) *그림 1: AI4Research의 주요 프로세스와 범주 - 5가지 핵심 영역: (1) 과학 이해도 (Scientific Comprehension), (2) 학술 조사 (Academic Survey), (3) 과학적 발견 (Scientific Discovery), (4) 학술 저술 (Academic Writing), (5) 학술 동료평가 (Academic Peer Review)* 본 논문은 대규모 언어모델(LLM) 발전에 따라 과학 연구 전 과정을 자동화하는 AI 기술의 현황을 포괄적으로 조사한 첫 번째 통합 서베이 논문이다. 과학 이해, 문헌 조사, 가설 생성, 논문 작성, 동료평가 등 5가지 주요 영역으로 AI4Research를 체계적으로 분류하고 자원을 통합한다.

Evaluation

Overall: 4

본 논문은 급속도로 발전하는 AI 기반 연구 자동화 분야에 대한 첫 번째 포괄적 로드맵을 제시하는 중요한 기여로, 체계적 분류, 미래 방향 제시, 실용적 리소스 통합을 통해 학술 공동체에 즉시적 가치를 제공한다. 다만 아직 초기 단계의 기술이 많고 자동화 실험의 신뢰성 검증이 심화되어야 할 과제이다.

#23 2024 4/5

From lived experience to insight: Unpacking the psychological risks of using ai conversational agents

저자: Mohit Chandra, Suchismita Naik, Denae Ford, Ebele Ekkor, Munmun De Choudhury, Mahsa Ershadi, Gonzalo Ramos, Javier Hernandez, Ananya Bhattacharjee, Shahed Warreth, Jina Suh | 날짜: 2024 | DOI: arXiv:2412.07951v3

그림 1: 이 연구의 2단계 연구 설계 및 심리적 위험 분류법 개요. 1단계에서는 283명을 대상으로 한 설문조사를 통해 심리적 위험 분류법을 개발하고, 2단계에서는 워크숍(N=7, 3세션)을 통해 설계 권장사항을 도출

Essence

![Figure 1](figures/fig1.webp) *그림 1: 이 연구의 2단계 연구 설계 및 심리적 위험 분류법 개요. 1단계에서는 283명을 대상으로 한 설문조사를 통해 심리적 위험 분류법을 개발하고, 2단계에서는 워크숍(N=7, 3세션)을 통해 설계 권장사항을 도출* AI 대화형 에이전트 사용으로 인한 심리적 위험을 살아낸 경험(lived experience)을 기반으로 체계적으로 분류하고, AI 행동-심리적 영향-사용자 맥락 간의 복잡한 상호작용을 다중경로 비네트 프레임워크로 분석하여 안전한 AI 설계를 위한 실행 가능한 권장사항을 제시한 연구이다.

Evaluation

Overall: 4

이 연구는 정신건강 경험자의 목소리를 중심에 두고 AI 대화형 에이전트의 심리적 위험을 체계적으로 분류한 시의적절하고 윤리적인 연구이다. 특히 살아낸 경험 방법론의 도입과 다중경로 비네트 프레임워크는 추상적 위험 분류법을 구체적 설계 개입으로 변환하는 새로운 경로를 제시한다. 다만 표집의 지역적 제한성, 권장사항의 실제 효과 검증 부재, 그리고 빠르게 진화하는 AI 모델에 대한 분류법의 지속성 문제는 향후 개선이 필요한 영역이다.

#24 2026.03 4/5

Generative AI and the Foundation Model Era: A Comprehensive Review

저자: Abdussalam Elhanashi, Siham Essahraui, Pierpaolo Dini, Davide Paolini, Qinghe Zheng, Sergio Saponara | 날짜: 2026.03 | DOI: 10.3390/bdcc10030094

Essence

![Figure 1](figures/fig1.webp) *Survey 구조 및 주요 연구 영역 분류* 생성형 AI와 파운데이션 모델(Foundation Models)의 급속한 발전으로 자연어처리, 컴퓨터 비전, 멀티모달 학습이 혁신되고 있으며, 본 논문은 이들 기술의 아키텍처, 학습 전략, 그리고 10개 주요 응용 분야에 걸친 통합적 분석을 제공한다. 기존의 단일 도메인 중심 리뷰와 달리, 이 논문은 크로스 도메인 비교 프레임워크를 통해 GenAI 연구의 구조적 이해를 가능하게 한다.

Evaluation

Overall: 4

본 논문은 GenAI와 파운데이션 모델의 급속한 발전을 체계적으로 정리한 포괄적 리뷰로, 기존의 분야별 고립된 분석을 극복하고 크로스 도메인 비교 프레임워크를 제시함으로써 학술 커뮤니티에 높은 가치를 제공한다. 다만 폐쇄형 모델의 투명성 부족과 기술의 빠른 진화로 인한 시간적 한계는 완전한 기술 검증을 제약하며, 향후 방법론적 엄밀성 강화 및 책임 있는 AI 거버넌스 연구로의 발전이 기대된다.

#25 2024 4/5

AIGS: Generating science from ai-powered automated falsification

저자: Zijun Liu, Kaiming Liu, Yiqi Zhu, Xuanyu Lei, Zonghan Yang, Zhenhe Zhang, Peng Li, Yang Liu | 날짜: 2024

인간 연구자가 수행하는 과학 연구 과정의 예: 명시적 반증(falsification)이 경험적 또는 이론적 실험을 통해 가설을 검증 또는 반박하는 중요한 단계임

Essence

![Figure 1](figures/fig1.webp) *인간 연구자가 수행하는 과학 연구 과정의 예: 명시적 반증(falsification)이 경험적 또는 이론적 실험을 통해 가설을 검증 또는 반박하는 중요한 단계임* 본 논문은 자율 AI 에이전트가 전체 과학 연구 프로세스를 독립적으로 완수하여 과학적 발견을 도출할 수 있는 AI 생성 과학(AIGS) 시스템을 제안한다. 특히 포퍼(Popper)의 과학 철학에 기반하여 **반증(falsification)**을 과학 연구의 핵심으로 재정의하고, 이를 명시적으로 구현하는 BABY-AIGS 시스템을 개발했다.

Evaluation

Overall: 4

본 논문은 포퍼의 반증주의를 AI 과학 시스템의 핵심 원리로 되살려낸 중요한 작업으로, 기존 AIGS 연구의 근본적 결함을 지적하고 해결책을 제시했다. 자율적 반증 메커니즘의 도입은 conceptually 우수하나, 실제 구현의 복잡성과 성능 한계로 인해 "baby-step"이라는 겸손한 자기평가가 타당하다. 향후 반증 능력의 일반화와 성능 향상에 따라 AIGS 분야의 중요한 이정표가 될 가능성이 높다.

#26 2025 4/5

Generative AI Uses and Risks for Knowledge Workers in a Science Organization

저자: Kelly B. Wagman, Matthew T. Dearing, Marshini Chetty | 날짜: 2025 | DOI: 10.1145/3706598.3713827

초기 배포부터 8개월간 사용자 증가 추세

Essence

미국 국립연구소(Argonne National Laboratory)의 실제 배포 사례를 통해 과학 조직의 과학자와 운영 담당자들이 생성형 AI를 어떻게 사용하고 있으며, 어떤 우려사항을 가지고 있는지를 실증적으로 규명한 연구이다.

Evaluation

Overall: 4

조직 현실에 기반한 생성형 AI 도입의 실증적 증거를 제시하며, 특히 과학 조직과 보안 민감 환경의 고유한 우려를 조명한 중요한 연구이다. 초기 도입 단계의 제한을 고려하면, 향후 종단적 후속 연구와 함께 과학 조직의 생성형 AI 거버넌스 구축에 실질적 기여를 할 것으로 예상된다.

#27 2025 4/5

Intelligent experiments through real-time ai: Fast data processing and autonomous detector control for sphenix and future eic detectors

저자: J. Kvapil, G. Borca-Tasciuc, H. Bossi, K. Chen 외 다수 | 날짜: 2025 | DOI: arXiv:2501.04845

Essence

고에너지 핵물리 실험(sPHENIX, EIC)에서 고속 데이터 처리 및 자동 검출기 제어를 위해 그래프 신경망(GNN)과 FPGA 기반 머신러닝을 실시간으로 구현하는 연구로, 15 kHz 트리거 제한을 극복하고 미처 저장되는 90% 데이터에서 희귀 무거운 쿼크 신호를 추출한다.

Evaluation

Overall: 4

본 연구는 고에너지 핵물리 실험의 데이터 병목을 해결하기 위해 최신 그래프 신경망과 FPGA 기술을 창의적으로 결합하였으며, 특히 실시간 나노초 지연 구현은 차세대 고에너지물리 실험의 새로운 패러다임을 제시하는 가치 있는 연구이다. 다만 실제 검출기 환경 검증 및 EIC 프로토타입 구현이 진행 중이므로, 최종 결론을 위해서는 2025년 전체 시스템 성능 테스트 결과를 기대해야 한다.

저자: Amanda Heidt | 날짜: 2025.04 | DOI: 10.1038/d41586-025-01069-0

Essence

연구자와 학생들을 위한 AI 도구 선택 가이드로, 문헌 검토부터 데이터 분석, 논문 작성까지 연구 과정의 각 단계별로 활용할 수 있는 최신 AI 플랫폼들을 실제 사용자 경험 사례와 함께 소개한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

이 논문은 AI가 연구 환경에 본격적으로 정착하는 과정에서 학생과 초급 연구자들을 위한 실용적 나침반 역할을 수행하며, 특히 실제 사용자 경험을 통해 도구별 장단점을 명확히 제시함으로써 높은 정보 가치를 제공한다. 다만 성능 비교, 윤리적 고려, 장기적 영향 분석 등의 심화 논의가 부재하여 학술 리뷰로서의 깊이는 제한적이다.

#32 2024.01 3/5

AI for social science and social science of AI: A Survey

저자: Ruoxi Xu, Yingfei Sun, Mengjie Ren, Shiguang Guo, Ruotong Pan, Hongyu Lin, Le Sun, Xianpei Han | 날짜: 2024.01 | DOI: 10.48550/arXiv.2401.11839

Figure 1: AI와 사회과학의 교집합 개요. "AI for social science"와 "social science of AI"의 두 방향으로 구분하여 분석

Essence

![Figure 1](figures/fig1.webp) *Figure 1: AI와 사회과학의 교집합 개요. "AI for social science"와 "social science of AI"의 두 방향으로 구분하여 분석* 본 논문은 대규모 언어모델(LLM)의 발전을 기반으로 AI와 사회과학의 결합을 "**AI for social science**"(도구로서의 AI)과 "**social science of AI**"(연구 대상으로서의 AI)의 두 가지 방향으로 체계적으로 분류하고, 각 방향의 연구 현황, 한계, 미래 방향을 종합적으로 검토하는 서베이 논문이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

Chain-of-thought Reasoning Systems 18 ▶

#33 2023 4/5

Automl in the age of large language models: Current challenges, future opportunities and risks

저자: Alexander Tornede, Difan Deng, Theresa Eimer, Joseph Giovanelli, Aditya Mohan, Tim Ruhkopf, Sarah Segel, Daphne Theodorakopoulos, Tanja Tornede, Henning Wachsmuth, Marius Lindauer | 날짜: 2023 | DOI: arXiv:2306.08107

AutoML이 LLM 생명주기(사전학습, 미세조정, 추론)의 모든 단계에 적용될 수 있으며, 각 단계의 서로 다른 목표, 하이퍼파라미터, 설계 결정에 맞춰 조정되어야 함을 보여줌

Essence

![Figure 1](figures/fig1.webp) *AutoML이 LLM 생명주기(사전학습, 미세조정, 추론)의 모든 단계에 적용될 수 있으며, 각 단계의 서로 다른 목표, 하이퍼파라미터, 설계 결정에 맞춰 조정되어야 함을 보여줌* 본 논문은 AutoML(자동 기계학습)과 LLM(대규모 언어 모델)의 상생적(symbiotic) 통합을 제안하며, 양 분야가 서로를 어떻게 강화할 수 있는지를 포괄적으로 탐색한다. AutoML이 LLM 최적화에 가져오는 도전과제, LLM이 AutoML 개선에 제공하는 기회, 그리고 통합 과정에서 발생할 수 있는 위험을 체계적으로 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 AutoML과 LLM의 상생적 통합에 대한 최초의 포괄적 분석으로, 현실적인 도전과제 규정과 함께 양방향 기회를 체계적으로 제시함으로써 향후 연구 방향을 명확히 한다. 다만 개념적 수준의 제안이 많고 구체적 구현 사례가 부족한 점이 아쉬우며, 제시된 위험 요소에 대한 미티게이션 전략 개발이 후속 연구의 중요한 과제가 될 것으로 예상된다.

#34 2022.04 4/5

CoAuthor: Designing a Human-AI Collaborative Writing Dataset for Exploring Language Model Capabilities

저자: Mina Lee, Percy Liang, Qian Yang | 날짜: 2022.04 | DOI: 10.1145/3491102.3502030

Essence

![Figure 1](figures/fig1.webp) *CoAuthor 데이터셋: 63명의 작가와 GPT-3의 4개 인스턴스 간 1445개 쓰기 세션에서 수집된 인간-AI 협력 상호작용* 본 논문은 GPT-3의 창작 및 논증적 글쓰기 지원 능력을 탐구하기 위해 설계된 대규모 인간-AI 협력 글쓰기 데이터셋 CoAuthor를 제시하며, 상호작용 데이터셋 분석을 통해 언어 모델의 역량을 HCI 관점에서 체계적으로 이해할 수 있음을 보여준다.

Evaluation

Overall: 4

본 논문은 대규모 언어 모델의 인간-AI 협력 능력을 체계적으로 탐구하기 위한 새로운 데이터셋-중심 방법론을 제시하며, 공개된 CoAuthor 데이터셋과 재생 인터페이스는 HCI 커뮤니티에 매우 실질적인 자산이 될 것으로 예상된다. 다만 단일 모델에 대한 분석과 제한된 작업 범위의 확대가 향후 과제이다.

#35 2021 4/5

Evaluating large language models trained on code

저자: Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Pondé de Oliveira Pinto, Jared Kaplan, Harrison Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder | 날짜: 2021

HumanEval 데이터셋에서 모델 크기에 따른 통과율. 단일 샘플 생성 시 Codex-12B는 28.8%, 100개 샘플 생성 후 단위 테스트 통과 샘플 선택 시 77.5% 달성

Essence

![Figure 1](figures/fig1.webp) *HumanEval 데이터셋에서 모델 크기에 따른 통과율. 단일 샘플 생성 시 Codex-12B는 28.8%, 100개 샘플 생성 후 단위 테스트 통과 샘플 선택 시 77.5% 달성* GitHub 코드로 미세조정된 GPT 기반의 Codex 모델을 제시하고, 새로운 벤치마크인 HumanEval을 통해 함수형 정확성(functional correctness) 기반의 평가 체계를 제안한 논문이다. Codex는 도큐스트링(docstring)으로부터 Python 함수를 생성하는 능력에서 기존 모델들을 크게 능가한다.

Evaluation

Overall: 4

이 논문은 코드 생성 모델의 평가 체계를 근본적으로 개선하고 실용적 벤치마크를 제공함으로써 프로그래밍 합성 분야에 중대한 기여를 했다. Codex 모델의 실제 성능은 놀라울 정도이나, 평가 범위의 한정과 윤리적 논의의 깊이 부족이 아쉬움.

#36 2025 4/5

Towards reasoning era: A survey of long chain-of-thought for reasoning large language models

저자: Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *Long CoT와 Short CoT의 구별: 깊은 추론(Deep Reasoning), 광범위한 탐색(Extensive Exploration), 실현 가능한 반성(Feasible Reflection)의 세 가지 핵심 특성* OpenAI-o1과 DeepSeek-R1 같은 추론 대형언어모델(RLLMs)의 성공은 장문의 체인오브쏘트(Long CoT) 특성에 기인하며, 본 논문은 Long CoT와 전통적 Short CoT의 구별, 핵심 특성, 그리고 관련 현상들에 대한 최초의 종합적 분석을 제공한다.

Evaluation

Overall: 4

본 논문은 RLLMs의 중심 기술인 Long CoT를 처음으로 체계적으로 분석한 중요한 종합 설문으로, 명확한 분류 체계와 풍부한 사례를 제공하여 후속 연구의 지도를 제시한다. 다만 이론적 깊이와 일부 현상의 설명이 추가 발전의 여지를 남긴다.

#37 2023 4/5

Retrieval-Augmented Generation for Large Language Models: A Survey

저자: Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jin Pan | 날짜: 2023

그림 2: 질의응답에 적용된 RAG 프로세스 - 인덱싱, 검색, 생성의 3단계

Essence

![Figure 2](figures/fig1.webp) *그림 2: 질의응답에 적용된 RAG 프로세스 - 인덱싱, 검색, 생성의 3단계* 대규모 언어모델(LLM)의 환각(hallucination), 지식 노후화, 추론 과정의 불투명성을 해결하기 위해 외부 데이터베이스에서 관련 정보를 검색하여 생성 과정을 보강하는 **Retrieval-Augmented Generation (RAG)** 기술을 종합적으로 분석한 논문이다. 본 논문은 RAG의 발전 단계를 Naive RAG, Advanced RAG, Modular RAG로 체계화하고 각 단계의 핵심 기술과 평가 방법론을 상세히 제시한다.

Evaluation

Overall: 4

본 논문은 RAG 분야의 최초 대규모 종합 조사로서 체계적인 분류 체계와 기술 트리를 제시하여 학계와 산업계의 RAG 이해를 크게 향상시킨 의미 있는 기여를 했다. 다만 개별 기술의 정량적 성능 비교와 실무 적용 시 의사결정 가이드라인이 보강되면 더욱 가치 있는 자료가 될 것이다.

#38 2025.03 4/5

StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

저자: Zhicheng Guo, Sijie Cheng, Hao Wang, Shihao Liang, Yujia Qin, Peng Li, Zhiyuan Liu, Maosong Sun, Yang Liu | 날짜: 2025.03 | DOI: 10.48550/arXiv.2403.07714

ToolBench에서 보고된 성능과 재현된 성능의 비교: 몇 개월 후 동일한 설정에서 재현했을 때 상당한 성능 저하 발생

Essence

![Figure 1](figures/fig1.webp) *ToolBench에서 보고된 성능과 재현된 성능의 비교: 몇 개월 후 동일한 설정에서 재현했을 때 상당한 성능 저하 발생* 대규모 언어 모델(LLM)이 도구를 활용하는 능력을 평가하기 위해 안정적인 벤치마크가 필수적인데, 기존 ToolBench는 실시간 API의 불안정성으로 인해 결과 재현성이 떨어진다. 본 논문은 가상 API 서버와 안정적인 평가 시스템을 통해 이 문제를 해결한 StableToolBench를 제안한다.

Evaluation

Overall: 4

StableToolBench는 기존 대규모 도구 학습 벤치마크의 재현성 위기에 대한 실질적이고 효과적인 해결책을 제시한다. 특히 API 불안정성과 평가 시스템의 약점을 동시에 해결한 점이 가치 있으나, LLM 기반 시뮬레이터의 신뢰성 검증과 장기 안정성 보장 측면에서 보완이 필요하다.

#39 2025 4/5

Large language models meet NLP: A survey

저자: Libo Qin, Qiguang Chen, Xiachong Feng, Yang Wu, Yongheng Zhang, Yinghui Li, Min Li, Wanxiang Che, Philip S. Yu | 날짜: 2025 | DOI: https://doi.org/10.1007/sxxxxx-yyy-zzzz-1

다양한 NLP 작업에 LLM 적용 예시 (수학적 추론, 기계 번역, 정보 추출, 감정 분석)

Essence

![Figure 1](figures/fig1.webp) *다양한 NLP 작업에 LLM 적용 예시 (수학적 추론, 기계 번역, 정보 추출, 감정 분석)* 본 논문은 ChatGPT와 같은 대규모 언어모델(LLM)의 자연언어처리(NLP) 분야 응용을 체계적으로 조사한 첫 종합 서베이로, LLM이 기존 NLP 작업을 어떻게 해결하고 있으며 앞으로의 전망은 무엇인지를 다룬다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 시대 NLP 분야의 현황을 최초로 체계적으로 정리한 중요한 서베이로, 파라미터 동결/튜닝 이분법적 분류는 실무자들에게 명확한 의사결정 기준을 제공한다. 다만 제공된 본문이 제한적이어서 각 NLP 작업별 LLM의 실제 성능 한계 및 도전 과제에 대한 심화 논의가 추가된다면 더욱 완성도 높은 자료가 될 것으로 기대된다.

#40 2023 4/5

T-SciQ: Teaching multimodal chain-of-thought reasoning via mixed large language model signals for science question answering

저자: Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen | 날짜: 2023 | DOI: 미제공

ScienceQA 데이터 예시: 인간 주석 CoT와 LLM 생성 CoT 비교. LLM 생성 CoT가 더 많은 외부 지식을 포함함

Essence

![Figure 1](figures/fig1.webp) *ScienceQA 데이터 예시: 인간 주석 CoT와 LLM 생성 CoT 비교. LLM 생성 CoT가 더 많은 외부 지식을 포함함* 본 논문은 대형 언어 모델(LLM)이 생성한 연쇄적 사고(Chain-of-Thought, CoT) 신호를 혼합하여 과학 문제 해결 능력을 갖춘 소규모 학생 모델을 학습하는 T-SciQ 프레임워크를 제안한다. 인간 주석의 비용 문제와 정보 손실을 극복하기 위해 두 가지 유형의 자동 생성 교수 신호를 결합하는 혁신적인 데이터 혼합 전략을 도입한다.

Evaluation

Overall: 4

T-SciQ는 간단하면서도 효과적인 데이터 혼합 전략을 통해 멀티모달 과학 추론에서 획기적 성능을 달성했으며, 특히 값비싼 인간 주석을 완전히 제거하면서도 정보 풍부한 LLM 신호로 우수한 학생 모델을 양성한 점이 실무적 가치가 높다. 다만 계산 비용 분석과 다양한 도메인으로의 확장 가능성 검증이 향후 보완되어야 한다.

#41 2025.02 4/5

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

저자: Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller | 날짜: 2025.02

Figure 1: AI 보조 과학 연구 워크플로우 및 남은 과제들의 개요. 문헌 검색부터 동료 평가까지 각 단계에서 AI 지원의 현황과 한계를 보여줌.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: AI 보조 과학 연구 워크플로우 및 남은 과제들의 개요. 문헌 검색부터 동료 평가까지 각 단계에서 AI 지원의 현황과 한계를 보여줌.* 대규모 다중모드 언어 모델(LLM)의 등장으로 과학 연구가 AI 기반의 기술적 변환의 임계점에 도달했으며, 본 논문은 문헌 검색, 실험 설계, 콘텐츠 생성, 동료 평가에 이르는 전체 연구 생명주기에서 AI의 역할을 체계적으로 검토하는 종합 서베이이다.

Evaluation

Overall: 4

이 논문은 급속히 발전하는 AI4Science 분야에 대한 종합적이고 구조화된 첫 번째 가이드로서, 신입 연구자부터 정책결정자까지 폭넓은 대상에게 높은 참고가치를 제공한다. 특히 윤리 및 연구 무결성 논의의 통합은 기술 발전을 넘어선 책임 있는 과학 지원 시스템 구축에 중요한 기초를 마련한다. 다만 내러티브 접근법의 한계로 인한 완전성 부족과 빠르게 변화하는 분야에서의 시간성 격차 극복이 과제이다.

#42 2023 4/5

A survey of large language models

저자: Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Yang Chen, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu | 날짜: 2023

Fig. 1: The trends of the cumulative numbers of arXiv papers that contain the keyphrases “language model” (since June 20

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: An evolution process of the four generations of language models (LM) from the perspective of task solving capaci* 대규모 언어모델(LLM)의 발전 과정을 통계적 언어모델부터 신경망 언어모델, 사전학습 언어모델을 거쳐 현재의 생성형 대규모 모델까지 체계적으로 조사한 종합 서베이 논문이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 서베이는 대규모 언어모델의 발전 역사와 핵심 기술을 체계적으로 정리한 매우 시의적절한 종합 자료로, 연구자와 실무자 모두에게 LLM의 현황을 이해하는 데 필수적인 참고자료이다.

#43 2025.08 4/5

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

저자: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen | 날짜: 2025.08

Fig. 1: The song of humanity is a song of courage. The diagram depicts the continuum of scientific inquiry spanning from

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: The song of humanity is a song of courage. The diagram depicts the continuum of scientific inquiry spanning from* 본 논문은 과학 분야 대규모 언어 모델(Scientific Large Language Models, Sci-LLMs)의 발전을 데이터 중심으로 종합 분석하는 설문연구로, 270개 이상의 사전/후학습 데이터셋과 190개 이상의 벤치마크를 검토하여 과학 AI의 로드맵을 제시한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 설문연구는 과학 AI의 발전을 데이터 중심으로 종합적으로 분석하는 최초의 시도로, 혁신적인 분류체계와 광범위한 실증 분석을 통해 Sci-LLMs의 현황을 명확히 하고 자율 에이전트 기반 폐쇄 루프 시스템이라는 미래 방향을 제시한다. 과학 분야 AI의 로드맵으로서 높은 학술적 가치와 실용적 중요성을 가지고 있으나, 실제 구현 방안에 대한 상세한 기술과 각 도메인별 심화 분석은 후속 연구로 남겨져 있다.

#44 2024 4/5

A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models

저자: Wenqi Fan, Yujuan Ding, Liang-bo Ning, Shijie Wang, Hengyun Li | 날짜: 2024 | DOI: 10.1145/3637528.3671470

Figure 1: Retrieval-Augmented Generation (RAG) meets

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Retrieval-Augmented Generation (RAG) meets* 본 논문은 Retrieval-Augmented Generation (RAG)과 Large Language Models (LLMs)의 통합인 RA-LLMs에 대한 종합적인 설문조사로, 아키텍처, 훈련 전략, 응용 분야의 세 가지 기술적 관점에서 기존 연구를 체계적으로 리뷰한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 RAG와 LLMs의 통합이라는 시대적 요구에 부응하여, 기술적 관점에서 가장 체계적이고 포괄적인 설문조사를 제공한다. Hallucination 문제 해결, 최신 정보 활용, 도메인 특화 응용 등의 실제 가치와 함께 아키텍처-훈련-응용이라는 명확한 분류 체계를 제시함으로써 RA-LLMs 연구 분야의 중요한 기준점이 될 것으로 기대된다.

#45 2025 4/5

Agentic retrieval-augmented generation: A survey on agentic rag

저자: Aditi Singh, Abul Ehtesham, Saket Kumar, T. T. Khoei | 날짜: 2025 | DOI: 10.48550/arXiv.2501.09136

Essence

![Figure 1](figures/fig1.webp) *Agentic RAG의 전체 개요* 대규모 언어모델(LLM)의 정적 학습 데이터 의존성을 극복하기 위해 자율 AI 에이전트를 RAG 파이프라인에 통합한 Agentic RAG 시스템에 대한 포괄적인 설문 논문이다. 이는 반성(reflection), 계획(planning), 도구 활용(tool use), 다중 에이전트 협력을 통해 동적 검색 전략과 적응형 워크플로우를 가능하게 한다.

Evaluation

Overall: 4

본 논문은 RAG에서 Agentic RAG로의 패러다임 진화를 체계적으로 정리하고 실무 구현을 위한 실질적 가이드를 제공하는 우수한 설문 논문이다. 다만 신규 알고리즘 개발이나 대규모 실증적 검증이 부재하여 기여도에는 한계가 있으며, 향후 Agentic RAG의 성능 벤치마킹과 윤리적 검증 연구가 필요하다.

#46 2025 4/5

Ecm: A unified electronic circuit model for explaining the emergence of in-context learning and chain-of-thought in large language model

저자: Gleiston Guerrero-Ulloa, Carlos Rodríguez-Domínguez, Miguel J. Hornos | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Glossary of Terms and Schematic of Electronic Circuit Principles (ECP).* Large Language Models의 추론 능력을 전자회로 원리(Electronic Circuit Principles, ECP)로 모델링하여, 맥락 내 학습(in-context learning)과 사고의 연쇄(chain-of-thought)의 출현을 설명하고 성능을 예측하는 통합 프레임워크를 제시한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 LLM의 추론 능력을 전자회로 원리로 우아하게 모델링하여 성능 예측과 최적화를 위한 통일된 이론적 토대를 제공한다. 광범위한 실증 검증과 경쟁 성과로 실용성을 입증했으나, 파라미터 추정 방식의 명확화와 더 다양한 모델/도메인 검증이 필요하다.

#47 2025 4/5

SurveyX: Academic survey automation via large language models

저자: Xun Liang, Jiawei Yang, Yezhaohui Wang, Chen Tang, Zifan Zheng, Shichao Song, Zehao Lin, Yebin Yang, Simin Niu, Hanyu Wang, Bo Tang, Feiyu Xiong, Keming Mao, Zhiyu Li | 날짜: 2025 | DOI: arXiv:2502.14776

arXiv 웹사이트의 연간 논문 수 추이(2010-2025): 2025년 제출 건수는 2010년의 5배 이상으로 예상

Essence

![Figure 2](figures/fig2.webp) *SurveyX의 전체 파이프라인: 준비 단계(Part 1: 논문 검색 및 자료 전처리)와 생성 단계(Part 2: 논문 작성 및 개선)로 구성* arXiv에 매년 증가하는 학술 논문의 폭증 속에서, 대형언어모델(LLM)을 활용하여 체계적이고 고품질의 학술 서베이를 자동 생성하는 SurveyX 시스템을 제안한다. 이 시스템은 온라인 참고문헌 검색, AttributeTree 전처리 방법, 그리고 다단계 최적화를 통해 기존 자동 서베이 생성 시스템의 한계를 극복한다.

Evaluation

Overall: 4

SurveyX는 LLM 기반 자동 서베이 생성의 실용적 한계를 체계적으로 해결하고, 온라인 검색, 지능형 전처리, 멀티모달 확장을 통해 기존 AutoSurvey 대비 명확한 성능 향상을 입증한 의미 있는 연구이나, 평가의 포괄성과 방법론의 이론적 깊이 강화가 필요하다.

#48 2025 3/5

Large physics models: towards a collaborative approach with large language models and foundation models

저자: K. G. Barman, Sascha Caron, Emily Sullivan, Henk W. de Regt, R. R. de Austri 외 15명 | 날짜: 2025 | DOI: 10.1140/epjc/s10052-025-14707-8

Essence

본 논문은 물리학 연구에 특화된 대규모 AI 모델인 Large Physics Models (LPMs)의 개발과 평가를 위한 로드맵을 제시하며, 대규모 언어모델(LLM)과 기초모델(Foundation Model)을 물리학 커뮤니티의 협력 구조로 통합하는 방안을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 3 Overall: 3

본 논문은 물리학-AI 연계의 미래 방향을 학제간 협력과 철학적 성찰을 포함하여 창의롭게 제시한 중요한 비전 문서이나, 구체적인 기술 구현 방안과 실행 가능성 평가가 미흡하여 다음 단계의 파일럿 연구로 보완되어야 함.

#49 2023 3/5

Large Language Models are Zero Shot Hypothesis Proposers

저자: Biqing Qi, Kaiyan Zhang, Haoxiang Li, Kai Tian, Sihang Zeng | 날짜: 2023 | DOI: 10.48550/arXiv.2311.05965

Essence

![Figure 1](figures/fig1.webp) *그림 1: 미세조정된 65B LLaMA 모델이 생성한 가설의 예시로, 기존 문헌의 발견과 유사한 결과를 도출함* 대규모언어모델(LLM)이 학습되지 않은 과학 가설을 제시할 수 있으며, 생성된 가설이 실제 출판된 문헌과 일치하는 검증 가능한 내용임을 입증하는 연구이다. 특히 불확실성 증가가 영점 학습(zero-shot) 가설 생성 능력을 향상시킨다는 발견을 제시한다.

Evaluation

Overall: 3

본 논문은 LLM의 과학적 가설 생성 능력을 형식적으로 검증하는 선구적 연구로, 시간 기반 데이터셋 분할과 불확실성의 긍정적 역할이라는 흥미로운 발견을 제시한다. 그러나 평가 메트릭의 정의 부족, 생의학 도메인 한정, 그리고 실제 과학적 유효성 검증의 미흡함으로 인해 기술적 완성도가 다소 낮으며, 추가적인 실험과 엄밀한 분석이 필요하다.

#50 2025.04 3/5

A Survey on Hypothesis Generation for Scientific Discovery in the Era of Large Language Models

저자: Atilla Kaan Alkan, Shashwat Sourav, Maja Jablonska, Simone Astarita, Rishabh Chakrabarty, Nikhil Garuda, Pranav Khetarpal, Maciej Pióro, Dimitrios Tanoglidis, Kartheik G. Iyer, Mugdha S. Polimera, Michael J. Smith, Tirthankar Ghosal, Marc Huertas-Company, Sandor Kruk, Kevin Schawinski, Ioana Ciucă | 날짜: 2025.04 | DOI: 10.48550/arXiv.2504.05496

Figure 1: Taxonomy of Methods for Scientiﬁc Hypothesis Generation (SHG).

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Taxonomy of Methods for Scientiﬁc Hypothesis Generation (SHG).* 대규모언어모델(LLM)을 활용한 과학적 가설 생성 방법을 종합적으로 조사한 논문으로, 기존 방법부터 최신 LLM 기반 프레임워크까지 체계적으로 분류하고 평가 전략 및 향후 방향을 제시한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

이 논문은 급속히 진화하는 LLM 기반 가설 생성 분야에 대한 시의적절한 종합 조사로서, 명확한 분류체계와 미래 방향 제시로 학문적 가치가 있다. 다만 실증적 평가 부족과 표준화된 벤치마크 부재는 후속 연구에서 보완되어야 할 중요한 과제이다.

Visual Scientific Reasoning 10 ▶

저자: Nataliya Kosmyna, Eugene Hauptmann, Ye Tong Yuan, Jessica Situ, Xian-Hao Liao, Ashly Vivian Beresnitzky, Iris Braunstein, Pattie Maes | 날짜: 2025.06 | DOI: 10.48550/arXiv.2506.08872

Essence

본 연구는 LLM(대규모 언어모델) 기반 에세이 작성이 신경 인지적 비용을 초래하는지를 뇌파(EEG) 분석을 통해 규명했으며, 4개월 추적 결과 LLM 의존 사용자가 신경, 언어, 행동 모든 수준에서 성능 저하를 보였다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

AI 교육 도입의 신경 비용을 첫 규명한 획기적 연구로, LLM 의존이 "인지 부채"를 누적시킨다는 명확한 증거를 제시했다. EEG, NLP, 정성 데이터의 통합이 설득력 높으나, 인과 메커니즘의 깊이와 장기 가역성 검증이 향후 과제이다. 교육자, 정책입안자, AI 개발자 모두에게 시사적인 중요 논문이다.

#55 2025 4/5

Visual thoughts: A unified perspective of understanding multimodal chain-of-thought

저자: Zihui Cheng, Qiguang Chen, Xiao Xu 외 | 날짜: 2025 | DOI: arXiv:2505.15510

그림 1: (a) 순수 텍스트 근거를 사용하는 T-MCoT와 (b) 이미지-텍스트 교차 근거를 생성하는 I-MCoT의 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1: (a) 순수 텍스트 근거를 사용하는 T-MCoT와 (b) 이미지-텍스트 교차 근거를 생성하는 I-MCoT의 비교* 대규모 비전-언어 모델(LVLM)의 멀티모달 체인-오브-쏘트(MCoT) 추론에서 **시각적 사고(Visual Thoughts)**라는 통합된 메커니즘을 발견하였으며, 이는 텍스트 기반과 이미지 교차 방식의 MCoT 모두를 설명하는 새로운 관점을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 멀티모달 추론 분야의 오랜 논쟁(T-MCoT vs I-MCoT)에 "시각적 사고"라는 새로운 이론적 렌즈를 제공함으로써 개념적 통합을 이루었으며, 4가지 표현 전략의 체계적 분류는 향후 MCoT 방법론 개발의 로드맵을 제시한다. 다만 내부 메커니즘 분석의 기술적 깊이와 실제 성능 이득에 대한 정량적 검증이 보강된다면 더욱 영향력 있는 기여가 될 것으로 예상된다.

#56 2023 4/5

A survey of reasoning with foundation models

저자: Jiankai Sun, Chuanyang Zheng, Enze Xie, Zhengying Liu, Ruihang Chu, Jianing Qiu, Jiaqi Xu, Mingyu Ding, Hongyang Li, Mengzhe Geng, Yue Wu, Wenhai Wang, Junsong Chen, Zhangyue Yin, Xiaozhe Ren, Jie Fu, Junxian He, Wu Yuan, Qi Liu, Xihui Liu | 날짜: 2023

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: Left: Overview of the reasoning tasks introduced in this survey, as detailed* 파운데이션 모델(Foundation Models)의 추론(Reasoning) 능력을 체계적으로 조사한 종합 서베이로, 다양한 추론 작업, 방법론, 벤치마크를 다루고 멀티모달 학습, 자율 에이전트, 슈퍼 정렬과의 연관성을 논의한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 서베이는 파운데이션 모델의 추론 능력을 다루는 분야에서 현재까지의 연구 성과를 가장 포괄적으로 정리한 중요한 자료이며, 특히 멀티모달 및 에이전트 추론이라는 최신 방향을 반영하고 지속적 갱신 계획을 제시함으로써 학계에 큰 기여를 할 것으로 예상된다.

#57 2025 4/5

ChartSketcher: Reasoning with multimodal feedback and reflection for chart understanding

저자: Muye Huang, Lingling Zhang, Jie Ma, Han Lai, Fangzhi Xu, Yifei Li, Wenjun Wu, Yaqiang Wu, Jun Liu | 날짜: 2025 | DOI: arXiv:2505.19076

ChartSketcher의 개요: 중간 추론 및 반성 과정(점선)과 각 단계의 스케치 출력

Essence

![Figure 1](figures/fig1.webp) *ChartSketcher의 개요: 중간 추론 및 반성 과정(점선)과 각 단계의 스케치 출력* 본 논문은 멀티모달 대규모 언어 모델(MLLM)이 차트를 이해할 때 시각적 피드백을 통한 반복적 스케칭(Sketch-CoT)으로 추론 과정을 개선하는 방법을 제안한다. 인간의 인지 행동에서 영감을 받아, 모델이 중간 추론 단계를 차트에 직접 주석 처리하고 이를 다시 입력으로 제공하여 멀티모달 상호작용을 통한 깊이 있는 이해를 실현한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

ChartSketcher는 인간의 시각적 추론 행동에서 영감을 받아 MLLM의 차트 이해 능력을 향상시키는 혁신적 방법론을 제시하며, 체계적인 데이터 구축과 두 단계 훈련 전략으로 실증적 효과를 입증했으나, 계산 효율성과 프로그래밍 오버헤드 문제에 대한 충분한 분석이 필요하다.

#58 2025 4/5

Understanding how paper writers use ai-generated captions in figure caption writing

저자: Ho Yin (Sam) Ng, Ting-Yao Hsu, Jiyoo Min, Sungchul Kim, Ryan A. Rossi, Tong Yu, Hyunggu Jung, Ting-Hao 'Kenneth' Huang | 날짜: 2025 | DOI: arXiv:2501.06317

사용자 연구 절차 개요: 참가자가 최근 발표한 논문에서 두 개의 그림 캡션을 AI 생성 캡션을 활용하여 다시 작성함

Essence

![Figure 1](figures/fig1.webp) *사용자 연구 절차 개요: 참가자가 최근 발표한 논문에서 두 개의 그림 캡션을 AI 생성 캡션을 활용하여 다시 작성함* 본 논문은 18명의 논문 저자가 최신 AI 모델이 생성한 캡션을 자신의 논문 작성 과정에 어떻게 통합하는지 실제 사용자 연구를 통해 조사했으며, 저자들이 AI 생성 캡션을 복사-수정하는 방식으로 활용하되 긴 형식의 상세한 캡션을 선호함을 발견했다.

Evaluation

Overall: 4

본 논문은 AI 캡션 생성 연구에서 중요한 공백을 메우며, 저자의 실제 작성 과정을 관찰하는 참신한 접근법을 제시했다. 정성 연구로서 상호작용 분석은 견고하고 실용적 시사점을 도출했으나, 표본 크기와 도메인 다양성 측면에서 일반화 가능성이 제한되며, 향후 더 대규모 정량 연구와 모델 개선 제안으로 발전할 여지가 있다.

#59 2024 4/5

Wrong-of-Thought: An Integrated Reasoning Framework with Multi-Perspective Verification and Wrong Information

저자: Yongheng Zhang, Qiguang Chen, Jingxuan Zhou, Peng Wang, Jiasheng Si, Jin Wang, Wenpeng Lu, Libo Qin | 날짜: 2024 | DOI: arXiv:2410.04463

그림 1: 기존 다중 사고 통합 방법(a)은 단일 검증만 사용하고 오류 정보를 활용하지 않는 반면, WoT(b)는 다중 관점 검증과 오류 정보 활용을 제공한다.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 기존 다중 사고 통합 방법(a)은 단일 검증만 사용하고 오류 정보를 활용하지 않는 반면, WoT(b)는 다중 관점 검증과 오류 정보 활용을 제공한다.* 대규모 언어 모델(LLM)의 추론 성능을 향상시키기 위해 다중 관점에서 검증하고 이전 오류 정보를 활용하는 WoT(Wrong-of-Thought) 프레임워크를 제안한다. 기존 XoT의 단일 검증 방식과 오류 정보 무시 문제를 해결하여 8개 데이터셋과 5개 LLM에서 우수한 성능을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

WoT는 단순하지만 효과적인 개선책을 통해 LLM의 추론 성능을 일관되게 향상시키며, 광범위한 실험으로 그 유효성을 입증했다. 다만 검증 오버헤드와 오류 정보 활용의 심화 방안에 대한 추가 연구가 필요하다.

#60 2024.03 4/5

Is AI ready to mass-produce lay summaries of research articles?

저자: Kamal Nahas | 날짜: 2024.03 | DOI: 10.1038/d41586-024-00865-4

Essence

AI 기반 학술논문 요약 도구(lay summary)가 급속도로 개발되고 있으나, 정확성과 신뢰성 측면에서 해결해야 할 과제들이 남아있다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

AI lay-summary 도구는 학술 정보 접근성 개선의 큰 잠재력을 보여주지만, 정확성 오류와 미검증 정보 확산의 위험을 사전에 차단하는 메커니즘이 개발되어야만 과학 출판의 표준 기능으로 정착될 수 있다.

Scientific Data Interpretation 7 ▶

#61 2024 4/5

Blade: Benchmarking language model agents for data-driven science

저자: Ken Gu, Ruoxi Shang, Ren Jiang, Keying Kuang, Ren Lin, Donghao Lyu, Yue Mao, Yiwei Pan, Teng Wu, Jiaqian Yu, Yikun Zhang, Tianmai M. Zhang, Lin Zhu, Mike A. Merrill, Jeffrey Heer, Tim Althoff | 날짜: 2024 | DOI: arXiv:2408.09667

Essence

![Figure 1: BLADE 개요](overview.png) *BLADE 벤치마크는 데이터 기반 과학 분석을 위한 언어 모델 에이전트의 다면적 의사결정 과정을 자동으로 평가한다.* 이 논문은 데이터 기반 과학 발견(data-driven scientific discovery)을 위해 언어 모델(LM) 에이전트의 분석 능력을 평가하는 첫 번째 벤치마크 BLADE를 제시한다. 12개의 실제 데이터셋과 연구 질문에 대해 전문가 데이터 과학자들의 다중 분석을 수집하고, 에이전트의 생성 분석을 자동으로 평가할 수 있는 프레임워크를 개발했다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

이 논문은 언어 모델 에이전트의 데이터 기반 과학 분석 능력을 평가하는 첫 번째 체계적이고 자동화된 벤치마크를 제시함으로써, AI 기반 과학 발견 도구 개발에 중요한 기초를 마련했다. 다층 의사결정 구조와 자동 평가 프레임워크의 설계가 뛰어나며, 현 언어 모델의 한계를 명확히 규명했다는 점에서 학술적, 실용적 의의가 크다. 다만 벤치마크 규모 확대 및 평가 신뢰성 강화가 필요하다.

#62 2024 4/5

Data Interpreter: An LLM Agent For Data Science

저자: Sirui Hong, Yizhang Lin, Bangbang Liu, Binhao Wu, Danyang Li 외 다수 | 날짜: 2024 | DOI: 10.48550/arXiv.2402.18679

다양한 오픈소스 프레임워크와의 비교 분석: 종합 점수(comprehensive score)로 표준화된 성능 평가

Essence

![Figure 2](figures/fig2.webp) *Data Interpreter의 계층적 그래프 모델링 워크플로우: 프로젝트 요구사항을 태스크 그래프로 분해한 후, 실행 가능한 액션 그래프로 다시 분해하는 과정* 본 논문은 대규모 언어모델(LLM) 기반 에이전트가 데이터 사이언스의 장기적이고 상호연결된 작업들을 자동으로 해결할 수 있도록 설계된 **Data Interpreter**를 제안한다. 계층적 그래프 모델링과 프로그래밍 가능한 노드 생성이라는 두 가지 핵심 메커니즘을 통해 복잡한 데이터 사이언스 워크플로우를 동적으로 관리하고 실시간 데이터 변화에 적응한다.

Evaluation

Overall: 4

Data Interpreter는 데이터 사이언스 자동화 문제를 효과적으로 재정의하고, 계층적 그래프 모델링과 동적 노드 생성이라는 실용적인 솔루션으로 여러 벤치마크에서 상당한 성능 개선을 달성했다. 특히 엔드-투-엔드 워크플로우 관리와 실시간 적응성 측면에서 기존 LLM 에이전트 연구를 한 단계 진전시켰으나, 이론적 분석 강화와 프로덕션 환경 검증이 추가되면 더욱 임팩트 있는 기여가 될 수 있다.

#63 2024 4/5

StarCoder 2 and the Stack v2: The next generation

저자: Anton Lozhkov, Raymond Li, Loubna Ben Allal 외 다수 (Hugging Face, ServiceNow Research, Nvidia 등) | 날짜: 2024 | DOI: arXiv:2402.19173

Essence

BigCode 프로젝트에서 개발한 StarCoder2와 The Stack v2는 619개 프로그래밍 언어를 지원하는 대규모 오픈소스 코드 데이터셋과 이를 기반으로 훈련된 3B, 7B, 15B 규모의 코드 생성 모델로, 동일 규모의 기존 모델들을 능가하고 2배 이상 큰 모델과 비교 가능한 성능을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 코드 LLM 분야에서 완전한 투명성을 구현한 획기적인 작업으로, 대규모 오픈소스 데이터셋과 이를 활용한 효율적인 모델 훈련을 통해 기존 폐쇄형 모델과 경쟁 가능한 성능을 달성했으며, 특히 다언어 지원과 거버넌스 측면에서 과학 커뮤니티에 실질적 기여를 제공한다. 다만 중간 규모(7B) 모델의 성능 이상과 copyleft 코드 제외의 정당성 심화 분석이 개선 필요 영역이다.

#64 2026.02 4/5

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

저자: David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S, Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Vahab Mirrokni | 날짜: 2026.02 | DOI: 10.48550/arXiv.2602.03837

그림 1: 다양한 증거사례에 사용된 추론 아키텍처 개요: 솔루션 공간의 광범위한 탐색과 깊이 있는 추론, 그리고 자동화 및 인간 검증의 연쇄

Essence

본 논문은 Google의 Gemini Deep Think 및 그 고도화 모형들을 활용하여 이론 컴퓨터 과학, 경제학, 최적화, 물리학 등 다양한 분야에서 미해결 문제를 해결하고 새로운 정리를 생성한 실제 사례들을 제시한다. 저자들은 인간-AI 협력의 일반화된 기법들을 추출하여 과학 연구 가속화를 위한 체계적 방법론을 제안한다.

Evaluation

Overall: 4

본 논문은 최신 LLM이 단순 자동화 도구를 넘어 진정한 과학 연구 파트너로 기능할 수 있음을 광범위한 실제 사례와 메타 방법론으로 입증하는 중요한 기여이다. 특히 신경기호 루프와 적대적 검토 프레임워크 같은 새로운 활용 방식은 주목할 만하다. 다만 형식 검증, 실패 분석, 그리고 일반화 가능성 제시가 보강된다면 더욱 강력한 가이드라인이

#65 2025.02 4/5

Knowledge-guided large language model for material science

저자: Guanjie Wang, Jingjing Hu, Jian Zhou, Sen Liu, Qingjiang Li, Zhimei Sun | 날짜: 2025.02 | DOI: 10.1016/j.revmat.2025.100007

그림 1: 최근 년도별 대규모 언어모델의 발전 timeline. 오픈소스 LLM은 노란색으로 표시

Essence

![Fig. 1](figures/fig1.webp) *그림 1: 최근 년도별 대규모 언어모델의 발전 timeline. 오픈소스 LLM은 노란색으로 표시* ChatGPT로 촉발된 대규모 언어모델(LLM)의 혁신을 재료과학 분야에 체계적으로 적용하기 위한 지식-안내식 도메인 특화 모델 개발 및 활용 방법론을 제시한 종합 리뷰 논문이다. 본 논문은 LLM 구축부터 재료 발견에의 실제 응용까지 전주기적 가이드라인을 제공한다.

Evaluation

Overall: 4

본 논문은 ChatGPT 시대의 재료과학 연구 혁신을 위해 LLM을 실제로 구축하고 활용하는 방법을 체계적으로 정리한 중요한 종합 리뷰이며, 도메인-특화 LLM 개발의 실용적 로드맵을 제공한다는 점에서 학술적·실무적 가치가 높으나, 재료과학 특정 데이터셋과 할루시네이션 방지 기술의 고도화 같은 후속 연구가 절실하다.

#66 2025.04 4/5

MatterChat: A Multi-Modal LLM for Material Science

저자: Yingheng Tang, Wenbin Xu, Jie Cao, Weilu Gao, Steve Farrell, Benjamin Erichson, Michael W. Mahoney, Andy Nonaka, Zhi Yao | 날짜: 2025.04 | DOI: 10.48550/arXiv.2502.13107

그림 1: (a) 물질 처리, 언어 처리, 브리지 모듈 세 핵심 컴포넌트, (b) 주기표상 원소 분포 (142,899개 물질), (c) 공간군별 결정 구조 분포

Essence

원자 구조 정보를 완전히 보존하면서 대규모 언어 모델(LLM)과 통합하는 구조-인식 멀티모달 LLM으로, 물질의 성질 예측과 과학적 추론에서 GPT-4를 능가하는 성능을 달성했다.

Evaluation

Overall: 4

원자간 포텐셜과 LLM의 창의적 결합으로 물질 과학에서 구조-인식 멀티모달 AI의 새로운 패러다임을 제시한 의미 있는 연구이나, 대규모 물질 데이터셋 확보와 물리적 해석성 향상을 통해 산업 적용 가능성을 높일 필요가 있다.

#67 2025 4/5

HiPerRAG: High-performance retrieval augmented generation for scientific insights

저자: Ozan Gökdemir, Carlo Siebenschuh, Alexander Brace, Azton I. Wells, Brian Hsu, Kyle Hippe, Priyanka V. Setty, Aswathy Ajith, J. Gregory Pauloski, Varuni Sastry, Sam Foreman, Huihuo Zheng, Heng Ma, Bharat Kale, Nicholas Chia, Tom Gibbs, Michael E. Papka, Thomas Brettin, Francis J. Alexander, Anima Anandkumar | 날짜: 2025 | DOI: 10.1145/3732775.3733586

HiPerRAG 워크플로우: 멀티모달 문서 파싱(Oreo), 질의-인식형 인코더 미세조정(ColTrast), 그리고 대규모 벡터 검색을 통합한 과학 문헌 RAG 시스템

Essence

![Figure 1](figures/fig1.webp) *HiPerRAG 워크플로우: 멀티모달 문서 파싱(Oreo), 질의-인식형 인코더 미세조정(ColTrast), 그리고 대규모 벡터 검색을 통합한 과학 문헌 RAG 시스템* 본 논문은 360만 개 이상의 과학 논문을 처리하기 위해 고성능 컴퓨팅(HPC)을 활용한 검색-증강 생성(RAG) 시스템 HiPerRAG를 제시하며, 과학 문헌의 복잡한 구조를 처리하는 새로운 문서 파싱 기법(Oreo)과 과학 텍스트 특화 인코더(ColTrast)를 개발했다.

Evaluation

Overall: 4

본 논문은 대규모 과학 문헌 처리를 위한 RAG 시스템의 실용적이고 확장 가능한 솔루션을 제시한다. Oreo 파서와 ColTrast 인코더는 개별적으로 의미 있는 기여를 하며, HPC와의 통합은 산업 적용 가능성을 높인다. 다만 새로운 벤치마크 대부분이 단일 도메인(단백질 예측)에 한정되고, 검색-생성 통합 최적화, LLM 환각 저감의 근본적 해결책 제시는 미흡하다. 과학 커뮤니티의 정보 과부하 문제 해결에 기여할 실용적 시스템이지만, 학술적 혁신성 측면에서는 기존 기법의 공학적 우수 조합에 가깝다.

Scientific Code Generation 16 ▶

저자: Sujit Kumar, Anshul Sharma, Siddharth Hemant Khincha, Gautam Shroff, Sanasam Ranbir Singh, Rahul Mishra | 날짜: 2025

Essence

본 논문은 과학 논문에서 추출한 대규모 научных 주장 검증 데이터셋 SciClaimHunt와 SciClaimHunt Num을 소개한다. 정치적 주장과 달리 과학적 주장의 검증은 도메인 전문성과 복잡한 기술 용어를 요구하는 고도의 과제이며, 이를 해결하기 위해 87,109개의 주장과 이를 지원하거나 반박하는 과학 논문 증거로 구성된 대규모 데이터셋을 제시한다.

Evaluation

Overall: 4

본 논문은 과학 주장 검증을 위한 기존의 규모 제한적이고 초록 중심적인 데이터셋의 한계를 실질적으로 해결하며, 결과/토론/결론 섹션을 포함한 전체 논문 컨텍스트와 수치 인식 검증이라는 새로운 평가 차원을 도입함으로써 과학 팩트체킹 연구에 상당한 기여를 할 것으로 기대된다.

#73 4/5

A GENTIC H YPOTHESIS : A SURVEY ON HYPOTHESIS GENERATION USING LLM SYSTEMS

저자: Adib Bazgir, Yuwen Zhang, Rama chandra, Praneeth Madugula

Figure 1: Taxonomy of Methods for Scientiﬁc Hypothesis Generation (SHG).

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Taxonomy of Methods for Scientiﬁc Hypothesis Generation (SHG).* 본 논문은 과학적 가설 생성(Scientific Hypothesis Generation)에서 대규모 언어모델(LLM)의 활용을 종합적으로 조사하는 설문 논문으로, 기존 방법론부터 최신 LLM 기반 접근법까지의 분류 체계와 평가 전략을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 설문 논문은 LLM 기반 가설 생성 분야의 첫 종합 리뷰로서, 방법론의 진화 경로와 현재 상황을 명확히 정리하고 향후 연구 방향을 제시한다는 점에서 높은 학술적 가치를 가진다. 다만 실제 과학적 검증 사례와 정량적 평가 기준이 보강된다면 더욱 강력한 기여가 될 수 있을 것으로 판단된다.

저자: Anna Severin, Matthias Egger, Martin Paul Eve, Daniel Hürlimann | 날짜: 2020 | DOI: 10.12688/f1000research.17328.2

Essence

지난 30년간 학술출판은 폐쇄형에서 개방형(OA, Open Access)으로 전환되었으나, 이러한 변화는 학문 분야별로 매우 불균등하게 나타나고 있다. 본 연구는 학문 분야별 OA 출판 관행의 차이와 변화의 장애 요인을 체계적으로 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 OA 출판의 학문 분야별 차이를 단순한 채택률 차이가 아닌 역사적·사회문화적 요인으로 체계적으로 분석한 점에서 학술출판 정책 입안에 중요한 기여를 한다. 다만 메타합성의 이질성과 심화된 메커니즘 분석이 부족한 점은 추후 연구의 과제이다.

#78 2025 4/5

Re 2: A consistency-ensured dataset for full-stage peer review and multi-turn rebuttal discussions

저자: Daoze Zhang, Zhijian Bao, Sihang Du, Zhiyi Zhao, Kuangling Zhang, Dezheng Bao, Yang Yang | 날짜: 2025

Essence

본 논문은 OpenReview에서 수집한 24개 학술회의와 21개 워크숍의 19,926개 논문, 70,668개 리뷰 의견, 53,818개 재반박(rebuttal)으로 구성된 Re2 데이터셋을 제시하며, 일관성이 보장된 피어리뷰 데이터를 통해 대언어모델(LLM)의 리뷰 및 재반박 능력을 향상시키고자 한다.

Evaluation

Overall: 4

Re2는 기존 피어리뷰 데이터셋의 다양성, 일관성, 기능성 문제를 체계적으로 해결한 의미 있는 자원 기여이며, 특히 초기 제출 버전 보증과 다중 턴 재반박 구조화는 향후 LLM 기반 리뷰 시스템 개발에 실질적 가치를 제공할 것으로 기대된다.

#79 2025 4/5

Reimagining urban science: Scaling causal inference with large language models

저자: Yutong Xia, Ao Qu, Yunhan Zheng, Yihong Tang, Dingyi Zhuang, Yuxuan Liang, Shenhao Wang, Cathy Wu, Lijun Sun, Roger Zimmermann, Jinhua Zhao | 날짜: 2025 | DOI: arXiv:2504.12345

논문의 구조적 논리: 현황 검토에서 프레임워크, 그리고 광범위한 논의로 진행되는 계층적 구조

Essence

![Figure 1](figures/fig1.webp) *논문의 구조적 논리: 현황 검토에서 프레임워크, 그리고 광범위한 논의로 진행되는 계층적 구조* 본 논문은 대규모 언어모델(LLM)을 활용하여 도시 인과 추론(Urban Causal Inference) 연구의 자동화와 확장성을 달성하는 UrbanCIA 프레임워크를 제시한다. 이를 통해 가설 생성부터 정책 해석까지 전체 도시과학 연구 파이프라인을 지능형 멀티에이전트 시스템으로 재구성하고자 한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 도시 인과 연구의 현황을 첫 대규모로 진단하고, LLM 기반 멀티에이전트 시스템으로 전체 인과 추론 파이프라인 자동화라는 야심찬 비전을 제시한다는 점에서 매우 의미 있다. 특히 지역 불균형, 구조화 데이터 과의존, 낮은 재현성 등 도시과학의 실제 문제를 정량화하고 기술적 솔루션을 제안한 점이 강점이다. 다만 개념적 프레임워크에 치중되어 있으며, 실제 구현, 실증적 검증, LLM의 환각과 편향 제어 방안이 구체적으로 제시되지 않아 기술적 건전성에서 개선 여지가 있다. 향후 프로토타입 구현과 다양한 도시 사례 검증이 논문의 주장을 강화할 것으로 기대된다.

#80 2025.05 4/5

Scientific Hypothesis Generation and Validation: Methods, Datasets, and Future Directions

저자: Adithya Kulkarni, Fatimah Alotaibi, Xinyue Zeng, Longfeng Wu, Tong Zeng, Barry Menglong Yao, Minqian Liu, Shuaicheng Zhang, Lifu Huang, Dawei Zhou | 날짜: 2025.05 | DOI: 10.48550/arXiv.2505.04651

과학적 가설 생성 및 검증 파이프라인: LLM, 통계 모델, 온톨로지를 통합하는 데이터 입력에서 반복적 검증 및 실제 배포까지의 단계를 보여줌

Essence

![Figure 1](figures/fig1.webp) *과학적 가설 생성 및 검증 파이프라인: LLM, 통계 모델, 온톨로지를 통합하는 데이터 입력에서 반복적 검증 및 실제 배포까지의 단계를 보여줌* 본 논문은 대규모 언어모델(LLM)을 활용한 과학적 가설 생성 및 검증의 체계적 종합 분석을 제시하며, 부호화 프레임워크부터 현대적 LLM 파이프라인까지 진화 과정을 추적하고 생물의학, 재료과학, 환경과학 등 다양한 도메인에서의 적용을 통합적으로 조망한다.

Evaluation

Overall: 4

본 논문은 LLM 기반 과학적 가설 생성·검증의 현재 상태를 포괄적으로 정리한 중요한 설문이지만, 참신성 측정, 검증 비용-효과 분석, 윤리 구현의 구체화 측면에서 학문적 깊이를 보강할 필요가 있다. 실무 관점에서는 도메인별 성숙도 격차 완화와 인간-루프 시스템의 인지적 설계 원칙이 향후 연구의 중요한 과제이다.

#81 2025 3/5

Advancing the scientific method with large language models: From hypothesis to discovery

저자: Yanbo Zhang, Sumeer A. Khan, Adnan Mahmud, Huck Yang, Alexander Lavin, Michael Levin, Jeremy Frey, Jared Dunnmon, James Evans, Alan Bundy, Saso Dzeroski, Jesper Tegner, Hector Zenil | 날짜: 2025 | DOI: 미기재

Essence

![Figure 1](figures/fig1.webp) *LLM의 기본 작동 원리: (A) 토큰의 자동회귀적 생성, (B) 프롬프트 구조, (C) LLM 에이전트 시스템* 대규모 언어모델(LLM)이 과학 연구의 각 단계에서 생산성 향상과 과학적 발견을 지원하는 도구로서 변화하는 과학 방법론을 재정의하고 있으며, 이를 효과적으로 활용하기 위해서는 인간 과학자와의 협력 및 명확한 평가 지표가 필수적이다.

Evaluation

Overall: 3

본 논문은 LLM이 과학 연구의 생산성 도구에서 창의적 엔진으로 진화할 수 있는 가능성을 제시하는 중요한 관점을 제공하지만, 현실적 한계(할루시네이션, 기초 과학 기여도 제한)에 대한 구체적 해결책 제시와 실증적 검증이 보강되어야 할 것으로 보인다.

#82 2025.03 3/5

Using artificial intelligence for systematic review: the example of elicit

저자: Nathan Bernard, Yoshimasa Sagawa Jr, Nathalie Bier, Thomas Lihoreau, Lionel Pazart, Thomas Tannou | 날짜: 2025.03 | DOI: 10.1186/s12874-025-02528-y

Essence

Elicit는 체계적 문헌고찰(systematic review) 과정에서 보조 도구로 사용될 수 있으나, 아직까지는 전통적 방법을 완전히 대체하지 못하며 신중한 사용과 방법론적 엄격성 유지가 필수적이다.

Evaluation

Overall: 3

체계적 문헌고찰에서 AI 도구 Elicit의 실제 성능을 실증적으로 평가한 의미 있는 연구이지만, 방법론적 견고성과 일반화 가능성이 제한적이며, "신중한 보조 도구로 사용하되 완전 대체 불가"라는 예상된 결론을 확인한 수준이다. AI 도구 개발의 빠른 진전을 고려할 때 정기적인 재평가와 더욱 체계적인 벤치마킹 연구가 필요하다.

#83 2024 N/A

Scideator: Human-LLM scientific idea generation grounded in research-paper facet recombination

저자: Marissa Radensky, Simra Shahid, Raymond Fok, Pao Siangliulue, Tom Hope, Daniel S. Weld | 날짜: 2024 | DOI: arXiv:2409.14634

Scideator의 인터페이스: 사용자와 시스템이 논문의 핵심 요소(목적, 메커니즘, 평가)를 중심으로 상호작용하며 아이디어를 재조합하는 과정

Essence

![Figure 1](figures/fig1.webp) *Scideator의 인터페이스: 사용자와 시스템이 논문의 핵심 요소(목적, 메커니즘, 평가)를 중심으로 상호작용하며 아이디어를 재조합하는 과정* 과학 논문 작성에서 기존 연구의 핵심 측면들을 새로운 방식으로 결합하여 창의적 아이디어를 생성하는 것을 지원하는 사람-LLM 협력 시스템이다. 사용자가 선택한 논문들로부터 추출된 구조화된 요소(목적·메커니즘·평가)를 대화형으로 재조합하여 새로운 연구 아이디어를 탐색하도록 설계되었다.

Single-cell RNA Analysis 8 ▶

#84 2020 4/5

Integrated analysis of multimodal single-cell data

저자: Y. Hao, S. Hao, E. Andersen-Nissen, William M. Mauck, Shiwei Zheng 외 | 날짜: 2020 | DOI: 10.1101/2020.10.12.335331

Essence

단일세포 수준에서 여러 데이터 유형(RNA, 단백질 등)을 동시에 측정한 멀티모달 데이터를 통합 분석하기 위해 가중 최근접 이웃(Weighted-Nearest Neighbor, WNN) 방법론을 개발했다. 이를 통해 세포 상태를 더욱 정확하게 정의하고 이전에 미발견된 면역세포 아형들을 발견할 수 있음을 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

WNN 방법론은 멀티모달 단일세포 데이터 분석의 실질적 문제를 우아하게 해결하는 기여이며, 대규모 PBMC 아틀라스 구축과 COVID-19 응용을 통해 임상적 가치까지 입증한 의미있는 연구이다. 다만 파라미터 최적화와 3개 이상 모달리티 확장에 대한 보완이 필요하다.

#85 2025 4/5

scBaseCamp: an AI agent-curated, uniformly processed, and autonomously updated single cell data repository

저자: Nicholas D. Youngblut, Christopher Carpenter, Jaanak Prashar, Chiara Ricci-Tam, Rajesh Ilango, Noam Teyssier, Silvana Konermann, Patrick D. Hsu, Alexander Dobin, David P. Burke, Hani Goodarzi, Yusuf H. Roohani | 날짜: 2025 | DOI: 10.1101/2025.02.27.640494

scBaseCamp은 종(species)과 조직(tissue)에 걸쳐 2억 3천만 개 이상의 세포를 포함하는 가장 큰 공개 단일 세포 유전자 발현 데이터셋 저장소이다.

Essence

![Figure 1](figures/fig1.webp) *scBaseCamp은 종(species)과 조직(tissue)에 걸쳐 2억 3천만 개 이상의 세포를 포함하는 가장 큰 공개 단일 세포 유전자 발현 데이터셋 저장소이다.* AI 에이전트 기반의 자동화된 워크플로우를 통해 공개 10X Genomics 단일세포 RNA 시퀀싱 데이터를 발굴하고 표준화된 방식으로 처리하여, 가장 규모가 크고 다양한 단일세포 데이터 저장소 scBaseCamp를 구축했다. 이는 AI 기반 가상세포 모델 개발을 위한 훈련 데이터로 활용될 수 있으며, 데이터 처리 파이프라인의 표준화를 통해 분석 아티팩트를 최소화한다.

Evaluation

Overall: 4

scBaseCamp는 AI 에이전트 기반 자동화 및 표준화된 대규모 재처리를 통해 단일세포 생물학과 AI 모델 개발을 위한 획기적인 자원을 제공하며, 지속적 확장 메커니즘은 이 분야의 향후 발전을 크게 가속화할 것으로 예상된다. 다만 기술적 세부사항과 정량적 검증 데이터의 보강이 필요하다.

#86 2024 4/5

CellAgent: An LLM-driven Multi-Agent Framework for Automated Single-cell Data Analysis

저자: Yihang Xiao, Jinyi Liu, Yan Zheng, Xiaohan Xie, Jianye Hao | 날짜: 2024 | DOI: 10.48550/arXiv.2407.09811

CellAgent의 다중 에이전트 협업 워크플로우: (a) 사용자 입력, (b) 작업 분해, (c) 세부 실행 및 최적화, (d) 최종 결과 생성 과정

Essence

대규모 언어모델(LLM)을 기반으로 한 다중 에이전트 프레임워크인 CellAgent를 제안하여, 단일세포 RNA 염기서열 분석(scRNA-seq) 작업을 자동으로 수행하고 인간의 개입 없이 고품질의 분석 결과를 제공한다. 복잡한 생물정보학 분석 워크플로우의 자동화를 통해 생물학 연구자의 기술적 진입장벽을 크게 낮춘다.

Evaluation

Overall: 4

CellAgent는 대규모 언어모델을 생물정보학 자동화에 적용한 혁신적 시도로, 계층적 의사결정과 자기반복 최적화 메커니즘을 통해 실제 과학 데이터 분석의 자동화를 가능하게 한다. 다중 에이전트 협업 프레임워크의 설계가 우수하며 종합적인 평가가 이루어졌으나, 도구 확장성과 미세한 오류 처리에서는 개선의 여지가 있다.

#87 2025 4/5

Benchmarking AI Scientists in Omics Data-Driven Biological Research

저자: Erpai Luo, Jinmeng Jia, Yifan Xiong, Xiangyu Li, Xiaobo Guo, Baoqi Yu, Minsheng Hao, Lei Wei, Xuegong Zhang | 날짜: 2025 | DOI: arXiv:2505.08341

BAISBench의 개요: (A) 두 가지 보완적 태스크 구성, (B) BAIS-DPTA의 구축 방식, (C) BAIS-SD의 구축 방식

Essence

![Figure 1](figures/fig1.webp) *BAISBench의 개요: (A) 두 가지 보완적 태스크 구성, (B) BAIS-DPTA의 구축 방식, (C) BAIS-SD의 구축 방식* 단일세포 전사체(single-cell transcriptomics) 데이터를 활용하여 AI 과학자(AI scientist) 시스템의 생물학적 발견 능력을 평가하는 BAISBench 벤치마크를 제시한다. 현재 AI 과학자들은 완전한 자동화된 생물학적 발견에는 못 미치지만, 데이터 기반 생물학 연구 지원에 상당한 잠재력을 보이고 있음을 실증적으로 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 단순한 지식 기반 평가를 넘어 실제 생물학 데이터 분석 능력을 평가하는 현실적이고 실용적인 벤치마크를 제시함으로써, 빠르게 발전하는 AI 과학자 분야에 타당성 있는 평가 기준을 마련했다. 계층적 평가 체계와 공개 자원은 학계에 즉각적인 기여를 할 수 있으나, 평가 범위의 다양화와 개방형 발견 능력 평가 추가를 통해 더욱 포괄적인 벤치마크로 발전할 여지가 있다.

#88 2025 4/5

A retrieval-augmented knowledge mining method with deep thinking LLMs for biomedical research and clinical support

저자: Yichun Feng, Jiawei Wang, Ruikun He, Lu Zhou, Yixue Li | 날짜: 2025 | DOI: 10.1093/gigascience/giaf109

Figure 1: Overview of the proposed framework for biomedical knowledge mining. (A) Biomedical knowledge sources, such

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of the proposed framework for biomedical knowledge mining. (A) Biomedical knowledge sources, such* 생의학 연구를 위해 Deep Thinking LLM과 Retrieval-Augmented Generation(RAG)을 통합한 지식 채굴 방법론을 제안하며, BioStrataKG 지식 그래프와 BioCDQA 데이터셋을 구축하고 IP-RAR 프레임워크로 문서 간 추론 능력을 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

생의학 지식 채굴을 위한 포괄적이고 체계적인 프레임워크를 제시한 우수한 연구이며, LLM의 깊은 추론 능력과 RAG 기법의 효과적인 통합으로 문서 간 추론 능력을 획기적으로 향상시켰다. 실제 임상 의사결정과 연구 전략 수립을 지원할 수 있는 높은 실용성을 갖추고 있다.

#89 2025.06 4/5

Agentomics-ML: Autonomous Machine Learning Experimentation Agent for Genomic and Transcriptomic Data

저자: Vlastimil Martinek, Andrea Gariboldi, Dimosthenis Tzimotoudis, Aitor Alberdi Escudero, Edward Blake, David Cechak, Luke Cassar, Alessandro Balestrucci, Panagiotis Alexiou | 날짜: 2025.06 | DOI: 미제공

Agentomics-ML의 아키텍처: 에이전트가 ML 개발 파이프라인의 사전정의된 단계를 따르면서 순차적으로 단계를 완료하여 최종적으로 작동하는 ML 모델을 출력한다.

Essence

![Figure 1](figures/fig1.webp) *Agentomics-ML의 아키텍처: 에이전트가 ML 개발 파이프라인의 사전정의된 단계를 따르면서 순차적으로 단계를 완료하여 최종적으로 작동하는 ML 모델을 출력한다.* LLM 기반 자율 에이전트를 게노믹 및 트랜스크립토믹 데이터 분류 작업에 특화시킨 시스템으로, 기존 대규모 언어 모델 에이전트 방법론을 초과하는 재현성과 일반화 성능을 달성한다.

Evaluation

Overall: 4

Agentomics-ML은 게노믹 및 트랜스크립토믹 데이터의 ML 분석을 자동화하기 위해 도메인 특화 설계와 엄격한 평가 프레임워크를 결합한 의미 있는 기여를 제시하며, 기존 에이전트 기반 방법론을 현저히 초과하는 성능을 달성했으나, 도메인 전문가 모델과의 격차와 작업 범위의 제한성이 실무 활용성을 다소 제약한다.

#90 2025 4/5

Deep active learning based experimental design to uncover synergistic genetic interactions for host targeted therapeutics

저자: Haonan Zhu, Mary Silva, Jose Cadena, Braden C. Soper, Michal Lisicki, Braian Peetoom, Sergio Baranzini, Shivshankar Sundaram, P. Ray, J. Drocco | 날짜: 2025 | DOI: 미제공

Deep Active Learning 프레임워크의 전체 흐름: SPOKE 지식 그래프에서 생성된 유전자 임베딩을 초기화하고, 신경망을 통해 상호작용을 예측하며, 획득함수 기반 능동학습 루프로 다음 탐사 대상 유전자 쌍을 선정

Essence

![Figure 1](figures/fig1.webp) *Deep Active Learning 프레임워크의 전체 흐름: SPOKE 지식 그래프에서 생성된 유전자 임베딩을 초기화하고, 신경망을 통해 상호작용을 예측하며, 획득함수 기반 능동학습 루프로 다음 탐사 대상 유전자 쌍을 선정* 본 논문은 HIV 감염에서 숙주 유전자 쌍의 시너지 상호작용을 효율적으로 발견하기 위해 생물학적 지식 그래프(SPOKE)와 딥러닝 기반 능동학습(Deep Active Learning, DeepAL)을 통합한 프레임워크를 제시한다. 356개 유전자의 상호작용 공간(356×356 행렬)에서 실험 비용을 최소화하면서 효과적인 이중 녹다운(double knockdown) 쌍을 발견한다.

Evaluation

Overall: 4

본 논문은 생물학적 지식 그래프와 딥러닝 능동학습을 효과적으로 통합하여 대규모 유전자 상호작용 공간을 효율적으로 탐색하는 실용적이고 혁신적인 프레임워크를 제시한다. 특히 356×356 규모의 이중 녹다운 데이터 처리는 이 분야에서 획기적이며, 경로 분석을 통한 생물학적 해석가능성도 강점이다. 다만 실제 실험실 검증, 계산 효율성 분석, 그리고 다양한 질병 시스템에의 일반화 가능성에 대한 추가 연구가 필요하다.

#91 2026.01 4/5

PersonaAI: An Interactive Agentic-AI Framework for Autonomous Hypothesis Generation and Validation in Aging

저자: Byounggook Cho, Gi-Young Lee, Junghyun Jung, Junyeop Kim, GunHo Park, Patrick C.N. Martin, Hyobin Kim, Jeein Oh, Jong-Soo Kim, Jongpil Kim, Tae-Hyung Kim, Kyoung-Jae Won | 날짜: 2026.01 | DOI: 10.64898/2026.01.16.699755

Figure 1. PersonaAI의 자동 가설 생성 및 실리코 검증 프레임워크

Essence

노화 연구의 복잡성(확률적 특성, 세포 이질성, 560,000개 이상의 논문)을 극복하기 위해 인공지능이 인간 과학자의 디지털 동료로서 문헌 기반 추론과 자동화된 실리코 검증(single-cell RNA-seq)을 통합하여 가설을 생성하고 검증하는 프레임워크를 제시한다.

Evaluation

Overall: 4

PersonaAI는 LLM 기반 생물학적 발견 가속화의 실질적 사례를 제시하며, 특히 인간 직관과 자동화 검증의 균형 있는 결합으로 신뢰도 높은 가설을 생성한다. 시간 절단 검증은 AI 시스템의 예측력을 입증하는 유효한 전략이나, 현재 preprint 단계로서 생체 내 실험 검증과 방법론의 상세 공개가 필요하다.

Geometric Prior Learning 4 ▶

#92 2023 4/5

Scientific discovery in the age of artificial intelligence

저자: Hanchen Wang, Tianfan Fu, Yuanqi Du, Wenhao Gao, Kexin Huang, Ziming Liu, Payal Chandak, Shengchao Liu, Peter Van Katwyk, Andreea Deac, Anima Anandkumar, Karianne Bergen, Carla P. Gomes, Shirley Ho, Pushmeet Kohli, Joan Lasenby, Jure Leskovec, Tie-Yan Liu, Arjun Manrai, Debora Marks | 날짜: 2023 | DOI: 10.1038/s41586-023-06221-2

Essence

![Figure 1](figures/fig1.webp) *과학적 발견의 다단계 프로세스에서 AI의 역할: 가설 형성, 실험 설계, 데이터 수집 및 분석 단계 전반에 걸친 AI 통합* 본 리뷰 논문은 자기지도학습(self-supervised learning), 기하 심층학습(geometric deep learning), 생성형 AI 등 최근 10년간의 주요 AI 기술을 통해 과학적 발견이 어떻게 변모하고 있는지 종합적으로 조망한다. AI는 대규모 데이터셋 통합, 가설 탐색, 실험 설계 자동화 등을 통해 전통적 과학방법론만으로는 불가능한 새로운 과학적 통찰을 제공할 수 있다.

Evaluation

Overall: 4

본 논문은 AI와 과학의 융합이라는 시대적 화두를 Nature라는 최고 권위의 플랫폼에서 다학제적 전문가 30여 명이 체계적으로 조망한 획기적 리뷰이다. 기술적 혁신과 함께 현실적 한계와 미해결 과제를 균형있게 제시함으로써 AI4Science 생태계의 건전한 발전을 위한 나침반 역할을 한다.

#93 2024 4/5

Inverse designing metamaterials with programmable nonlinear functional responses in graph space

저자: Marco Maurizi, Derek Xu, Yu-tong Wang, Desheng Yao, D. Hahn 외 | 날짜: 2024 | DOI: 10.48550/arXiv.2408.06300

그래프 공간에서의 메타머터리얼-응답 설계 공간. (A) 메타머터리얼의 그래프 표현: 연결재(strut)는 간선(edge), 교점은 노드(node)로 인코딩

Essence

![Fig 1](figures/fig1.webp) *그래프 공간에서의 메타머터리얼-응답 설계 공간. (A) 메타머터리얼의 그래프 표현: 연결재(strut)는 간선(edge), 교점은 노드(node)로 인코딩* 본 논문은 그래프 신경망(Graph Neural Networks, GNN), 강화학습(Reinforcement Learning, RL), 그리고 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 결합한 GraphMetaMat 프레임워크를 제시하여, 사용자 정의 비선형 기능 반응(응력-변형률 곡선, 파동 전송 응답)을 가진 3D 메타머터리얼을 역설계할 수 있는 방법론을 개발했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 그래프 신경망과 강화학습을 결합하여 복잡한 비선형 기능 반응을 가진 메타머터리얼의 역설계를 효과적으로 해결한 혁신적인 연구로, 설계 공간의 제약을 제거하고 실제 응용(보호장비, 전기차 진동 제어)까지 검증한 점에서 높은 가치를 지니고 있다. 다만 로딩 조건, 재료 다양성, 시뮬레이션-실제 간극 등의 실용적 한계가 후속 개선의 과제이다.

#94 2026.03 4/5

Foundation-Model Surrogates Enable Data-Efficient Active Learning for Materials Discovery

저자: Jeffrey Hu, Rongzhi Dong, Ying Feng, Ming Hu, Jianjun Hu | 날짜: 2026.03 | DOI: 10.48550/arXiv.2603.12567

그림 1: 기초 모델이 능동 학습의 서로게이트 모델링 딜레마를 해결함. (a) 기존 모델들은 예측 능력과 불확실성 추정 간의 트레이드오프 직면 (b) 기초 모델은 메타 학습된 사전 정보를 통해 표현력 높은 예측과 보정된 불확실성 결합

Essence

![Figure 1](figures/fig1.webp) *그림 1: 기초 모델이 능동 학습의 서로게이트 모델링 딜레마를 해결함. (a) 기존 모델들은 예측 능력과 불확실성 추정 간의 트레이드오프 직면 (b) 기초 모델은 메타 학습된 사전 정보를 통해 표현력 높은 예측과 보정된 불확실성 결합* 소재 발견을 위한 능동 학습(Active Learning, AL)에서 기존 가우스 프로세스(GP)와 랜덤 포레스트(RF) 서로게이트 모델의 한계를 극복하기 위해, 트랜스포머 기반의 기초 모델(Foundation Model, FM)인 TabPFN을 서로게이트로 도입하는 문맥 내 능동 학습(In-Context Active Learning, ICAL) 프레임워크를 제안한다. TabPFN은 메타 학습을 통해 소량의 실험 데이터에서도 표현력 높은 예측과 보정된 불확실성을 동시에 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 기초 모델의 메타학습 능력을 소재 발견 능동 학습의 핵심 문제(표현력 vs. 불확실성 트레이드오프)에 창의적으로 적용하였으며, 광범위한 벤치마크로 우월성을 입증했다. 다만 실제 실험 환경 검증과 고차원 특성 공간 확장이 완성되면 임팩트가 더욱 강화될 것으로 예상된다.

#95 2026.02 4/5

Transforming Behavioral Neuroscience Discovery with In-Context Learning and AI-Enhanced Tensor Methods

저자: Paimon Goulart, Jordan Steinhauser, Dawon Ahn, Kylene Shuler, Edward Korzus, Jia Chen, Evangelos E. Papalexakis | 날짜: 2026.02

Essence

![Figure 1](figures/fig1.webp) *제안된 파이프라인 개요: In-Context 데이터 준비, AI 강화 텐서 분석, AI 기반 패턴 해석의 세 가지 주요 단계* 본 논문은 행동신경과학 연구에서 데이터 준비부터 패턴 해석까지 시간 소비적이고 전문가 의존적인 단계들을 AI로 자동화하는 통합 파이프라인을 제시한다. In-Context Learning(ICL)과 향상된 텐서 분해를 활용하여 도메인 전문가가 프로그래밍 지식 없이도 공포 과일반화(fear generalization) 연구에서 신경 패턴을 발굴할 수 있는 사용자 친화적 인터페이스를 구현했다.

Evaluation

Overall: 4

본 논문은 In-Context Learning이라는 접근성 높은 AI 패러다임을 도메인 전문가 중심의 신경과학 분석 파이프라인에 성공적으로 도입한 의미 있는 사례 연구이다. 기술적 엄밀성 향상과 다양한 도메인으로의 일반화 검증이 필요하지만, 실제 협업 경험에 기반한 실용적 기여가 돋보인다.

Automated Peer Review 6 ▶

#96 2024.05 4/5

What Can Natural Language Processing Do for Peer Review?

저자: Ilia Kuznetsov, Osama Mohammed Afzal, Koen Dercksen, Nils Dycke, Alexander Goldberg, Tom Hope, Dirk Hovy, Jonathan K. Kummerfeld, Anne Lauscher, Kevin Leyton-Brown, Sheng Lu, Mausam, Margot Mieskes, Aurélie Névéol, Danish Pruthi, Lizhen Qu, Roy Schwartz, Noah A. Smith, Thamar Solorio, Jingyan Wang, Xiaodan Zhu, Anna Rogers, Nihar B. Shah, Iryna Gurevych | 날짜: 2024.05 | DOI: 10.48550/arXiv.2405.06563

그림 1: 동료 심사(Peer Review)를 하나의 과정으로 보는 관점과 그로 인해 생성되는 산출물들. 각 단계별로 색상 코딩됨.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 동료 심사(Peer Review)를 하나의 과정으로 보는 관점과 그로 인해 생성되는 산출물들. 각 단계별로 색상 코딩됨.* 본 논문은 과학 출판의 핵심 질관리 메커니즘인 동료 심사 과정에서 자연언어처리(NLP)가 구체적으로 어떤 역할을 할 수 있는지를 체계적으로 매핑하고, 실현 가능한 NLP 지원 방안을 제시하는 포괄적인 기초 연구이다. 저자들은 원고 제출부터 최종 출판까지 전체 심사 과정의 각 단계에서의 도전과제와 NLP 적용 기회를 상세히 분석하며, 완전 자동화보다는 리뷰어와 편집자의 효율성을 높이는 지원 도구 개발에 초점을 맞춘다.

Evaluation

Overall: 4

본 논문은 NLP가 동료 심사 개선에 기여할 수 있는 영역을 최초로 체계적으로 매핑한 중요한 기초 연구이다. 완전 자동화의 불가능성을 냉철히 인식하면서도 현실적이고 단계적인 개선안을 제시하는 성숙함을 보여주며, 구체적인 call-for-action과 데이터셋 저장소 구축으로 후속 연구의 기반을 마련했다는 점에서 높이 평가할 수 있다. 다만 현재 분석이 AI 학회에 편중되고, 각 단계별 기술적 실현 방안이 개략적 수준에 머물러 있으며, 데이터 부족 및 평가 메트릭 부재 등 구조적 장애물들이 상당히 남아 있다는 점은 향후 극복해야 할 과제이다.

#97 2024 4/5

Pre: A peer review based large language model evaluator

저자: Zhumin Chu, Qingyao Ai, Y. L. Tu, Haitao Li, Yiqun Liu | 날짜: 2024

Essence

학술지의 동료 평가(peer review) 메커니즘에서 영감을 받아, 여러 대규모 언어모델(LLM)을 평가자로 활용하여 다른 LLM들의 성능을 자동으로 평가하는 프레임워크를 제안한다. 자격 시험으로 신뢰할 수 있는 평가자를 선별한 후 이들의 평가 결과를 집계하여 편향 없는 LLM 평가를 실현한다.

Evaluation

Overall: 4

본 논문은 학술적 동료 평가 원리를 LLM 자동 평가에 창의적으로 도입하여 비용, 편향, 일반화 문제를 동시에 해결하는 실질적인 해결책을 제시한 의미 있는 연구이다. 다만 평가 과제의 다양화와 메커니즘의 이론적 심화를 통해 주장의 보편성을 더욱 강화할 여지가 있다.

#98 2023 4/5

Experiential co-learning of software-developing agents

저자: Cheng Qian, Yufan Dang, Jiahao Li, Wei Liu, Weize Chen, Cheng Yang, Zhiyuan Liu, Maosong Sun | 날짜: 2023

Experiential Co-Learning 프레임워크: Co-Tracking, Co-Memorizing, Co-Reasoning 세 모듈을 통해 Instructor와 Assistant 에이전트가 과거 경험을 학습하고 활용하여 소프트웨어 개발 작업을 효율적으로 수행

Essence

![Figure 1](figures/fig1.webp) *Experiential Co-Learning 프레임워크: Co-Tracking, Co-Memorizing, Co-Reasoning 세 모듈을 통해 Instructor와 Assistant 에이전트가 과거 경험을 학습하고 활용하여 소프트웨어 개발 작업을 효율적으로 수행* 본 논문은 대규모 언어모델(LLM) 기반 다중 에이전트 시스템이 과거 작업 경험을 축적하고 활용하는 "경험적 협력학습(Experiential Co-Learning)" 프레임워크를 제안한다. 이를 통해 소프트웨어 개발 작업에서 반복적인 오류를 감소시키고 에이전트 간의 협력 효율성을 현저히 향상시킨다.

Evaluation

Overall: 4

본 논문은 LLM 기반 다중 에이전트의 협력학습에 경험 축적과 활용이라는 중요한 개념을 처음 도입한 의미 있는 연구이며, 작업 실행 그래프 기반 지름길 추출이라는 창의적인 방법론을 제시한다. 실제 소프트웨어 개발 자동화에서의 효율성 증대를 입증했으나, 도메인 특화성과 경험 표현의 단순성이 향후 개선 과제로 남아있다.

#99 2023 4/5

When large language models meet citation: A survey

저자: Yang Zhang, Yufei Wang, Kai Wang, Quan Z. Sheng, Lina Yao, A. Mahmood, Wei Emma Zhang, Rongying Zhao | 날짜: 2023 | DOI: 10.48550/arXiv.2309.09727

LLM과 인용 간의 상호 이익적 관계

Essence

![Figure 1](figures/fig1.webp) *LLM과 인용 간의 상호 이익적 관계* 대규모 언어 모델(LLM)과 학술 인용 분석 간의 상호 보완 관계를 체계적으로 정리한 최초의 종합 조사 연구이다. LLM이 인용 분석 작업의 성능을 향상시키고, 역으로 인용 데이터가 LLM의 텍스트 표현을 개선하는 양방향 이익 구조를 제시한다.

Evaluation

Overall: 4

본 논문은 LLM과 인용 분석 간의 상호 이익 관계를 최초로 체계적으로 정리한 중요한 조사 연구이며, 향후 학술 정보 처리 및 LLM 개선 분야에 명확한 연구 방향을 제시한다. 다만 실증적 성과와 정량적 비교가 강화되면 더욱 강력한 기여가 될 수 있을 것으로 예상된다.

#100 2024.06 3/5

RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance

저자: Paulo Henrique Couto, Quang Phuoc Ho, Nageeta Kumari, Benedictus Kent Rachmat, Thanh Gia Hieu Khuong, Ihsan Ullah, Lisheng Sun-Hosoya | 날짜: 2024.06 | DOI: 10.48550/arXiv.2406.10294

Essence

![Figure 1](https://arxiv.org/html/2406.10294v1/x1.png) *그림 1: 프롬프트와 논문 간 코사인 유사도 분포. 4개의 관련성 범주별로 명확한 구분이 나타남* 본 논문은 대규모 언어 모델(LLM)을 활용하여 학술 논문의 관련성을 자동으로 평가하는 분류 시스템 RelevAI-Reviewer를 제안하고, 25,164개의 인스턴스로 구성된 벤치마크 데이터셋을 공개한다. BERT 기반 종단(end-to-end) 분류기가 기존의 지도학습 방법들을 능가하는 성능을 달성했음을 보였다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

본 논문은 학술 논문 관련성 평가의 자동화를 위한 실용적인 벤치마크를 최초로 제공하며 공개 플랫폼을 통해 커뮤니티 참여를 유도하는 점이 가치있으나, 인공 데이터 생성의 신뢰성 문제와 단일 평가 기준만 다룬 점에서 개선의 여지가 있다.

#101 2023 3/5

Through the lens of core competency: Survey on evaluation of large language models

저자: Ziyu Zhuang, Qiguang Chen, Longxuan Ma, Mingda Li, Yi Han, Yushan Qian, Haopeng Bai, Zixian Feng, Weinan Zhang, Ting Liu | 날짜: 2023 | DOI: arXiv:2308.07902

Essence

대규모 언어 모델(LLM)의 평가 방법론을 체계화하기 위해 "핵심 역량(Core Competency)" 프레임워크를 제안하는 종합 조사 논문이다. 540개 이상의 평가 과제를 분석하여 LLM의 4가지 핵심 역량(지식, 추론, 신뢰성, 안전성)으로 통합함으로써 산재된 평가 벤치마크를 체계적으로 정리한다.

Evaluation

Overall: 3

본 논문은 빠르게 증식하는 LLM 평가 과제를 핵심 역량 중심으로 체계화한 중요한 조사 연구이며, 커뮤니티를 위한 실용적 도구를 제공한다. 다만 부분적 공개와 평가 지표의 정량화 부족으로 완성도에서 아쉬움이 있으며, 추후 완전 버전 공개와 함께 Reliability/Safety 역량에 대한 보다 깊이 있는 논의가 필요하다.

Scientific Agent Experimentation 15 ▶

#102 2025 4/5

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

저자: Bang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He 외 다수 | 날짜: 2025 | DOI: arXiv:2504.01990v2

Essence

본 논문은 대규모 언어모델(LLM) 기반의 지능형 에이전트의 현황을 종합적으로 검토한 대규모 리뷰 논문이다. 뇌 기능에서 영감을 받은 모듈식 아키텍처를 기반으로 에이전트의 설계, 진화, 협력, 안전성 등 다층적 측면을 체계적으로 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 LLM 시대 지능형 에이전트에 대한 가장 종합적이고 체계적인 리뷰로, 뇌 기능의 계산적 모델링과 에이전트 아키텍처의 통합을 통해 학제적 기여를 제시한다. 다만 구체적인 구현 사례와 실증적 검증이 강화된다면 더욱 영향력 있는 기초 자료가 될 수 있을 것으로 판단된다.

#103 2025 4/5

El Agente: An Autonomous Agent for Quantum Chemistry

저자: Yunheng Zou, Austin H. Cheng, Abdulrahman Aldossary, Jiaru Bai, Shi Xuan Leong | 날짜: 2025 | DOI: 10.1016/j.matt.2025.102263

El Agente Q의 개요: LLM 기반 다중 에이전트 시스템으로 자동화된 계획, 일정 조정, 실행 및 문제 해결을 수행

Essence

![Figure 1](figures/fig1.webp) *El Agente Q의 개요: LLM 기반 다중 에이전트 시스템으로 자동화된 계획, 일정 조정, 실행 및 문제 해결을 수행* 본 연구는 LLM 기반 다중 에이전트 시스템(El Agente Q)을 통해 양자화학 워크플로우를 자연언어 프롬프트로부터 동적으로 생성·실행하는 자율 시스템을 제시한다. 계층적 메모리 프레임워크, 적응적 도구 선택, 자동 오류 복구를 특징으로 하며, 대학 수준의 과제에서 >87%의 성공률을 달성한다.

Evaluation

Overall: 4

El Agente Q는 LLM 기반 다중 에이전트 시스템을 통해 양자화학 자동화의 접근성과 유연성을 크게 향상시킨 의미 있는 연구로, 계층적 메모리 아키텍처와 적응적 오류 복구 능력이 돋보인다. 다만 episodic memory 미활성화, hallucination 문제 해결, 실제 대규모 계산에서의 효율성 검증 등이 향후 개선 과제이다.

#104 2025 4/5

Scienceboard: Evaluating multimodal autonomous agents in realistic scientific workflows

저자: Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu 외 다수 | 날짜: 2025 | DOI: arXiv:2505.19897v2

Essence

![Figure 1](figures/fig1.webp) *AlphaFold를 통한 단백질 구조 예측과 Celestia에서 행성 궤도 표시 등 실제 과학 소프트웨어와 상호작용하는 에이전트* 본 논문은 현실적인 과학 워크플로우에서 멀티모달 자율 에이전트를 평가하기 위한 **SCIENCEBOARD** 환경과 벤치마크를 제시한다. 생화학, 천문학, 지정보학 등 6개 과학 도메인에서 169개의 고품질 작업을 통해 최신 LLM/VLM 기반 에이전트들이 15% 이하의 성공률을 보이며, 현재 기술의 한계를 명시적으로 드러낸다.

Evaluation

Overall: 4

SCIENCEBOARD는 컴퓨터-사용 에이전트를 현실적인 과학 워크플로우에서 평가하기 위한 획기적인 환경이자 벤치마크로, 현재 기술의 명확한 한계(15% 성공률)를 드러내면서 동시에 AI 기반 과학 자동화 연구의

#105 2025 4/5

SciToolAgent: a knowledge-graph-driven scientific agent for multitool integration

저자: Keyan Ding, Jing Yu, Junjie Huang, Yuchen Yang, Qiang Zhang | 날짜: 2025 | DOI: 10.1038/s43588-025-00849-y

SciToolAgent의 전체 개요: (a) 다양한 생물학, 화학, 재료과학 도구 포함, (b) 도구 간 관계를 인코딩한 SciToolKG, (c) 계획-실행-요약의 LLM 기반 워크플로우

Essence

![Figure 1](figures/fig1.webp) *SciToolAgent의 전체 개요: (a) 다양한 생물학, 화학, 재료과학 도구 포함, (b) 도구 간 관계를 인코딩한 SciToolKG, (c) 계획-실행-요약의 LLM 기반 워크플로우* 본 논문은 대규모 언어 모델(LLM)을 과학 도구 지식 그래프(SciToolKG)와 통합하여 생물학, 화학, 재료과학 등 다양한 분야의 수백 개 과학 도구를 자동으로 활용할 수 있는 지능형 과학 에이전트를 제시한다. 복잡한 다중 도구 과학 워크플로우 자동화에서 기존 방식 대비 10% 이상의 성능 향상을 달성했다.

Evaluation

Overall: 4

SciToolAgent는 과학 도구 자동화의 중요한 진전을 보여주는 체계적이고 포괄적인 시스템으로, 지식 그래프 기반 접근과 안전성 고려가 돋보인다. 다만 지식 그래프의 확장성 문제와 더 정교한 오류 처리 메커니즘 개발이 향후 과제이다.

#106 2025.10 4/5

Autonomous Agents for Scientific Discovery: Orchestrating Scientists, Language, Code, and Physics

저자: Lianhao Zhou, Hongyi Ling, Cong Fu, Yepeng Huang, Michael Sun, Wendi Yu, Xiaoxuan Wang, Xiner Li, Xingyu Su, Junkai Zhang, Xiusi Chen, Chenxing Liang, Xiaofeng Qian, Heng Ji, Wei Wang, Marinka Zitnik, Shuiwang Ji | 날짜: 2025.10 | DOI: -

Essence

![Figure 1](https://arxiv.org/html/2510.09901v1/x1.png) *그림 1: AI 기반 과학 발견을 위한 3단계 워크플로우 개요. 가설 발견(Phase 1) → 실험 설계 및 실행(Phase 2) → 결과 분석 및 개선(Phase 3)* 대규모 언어 모델(LLM) 기반 자율 에이전트(Scientific Agents)가 과학 발견의 전체 생명주기를 자동화하고 가속화할 수 있는 새로운 패러다임을 제시한다. 이들 에이전트는 자연언어, 프로그래밍 코드, 물리 정보를 통합하여 인간 과학자, 계산 도구, 물리 장비와 유연하게 상호작용한다.

Evaluation

Overall: 4

이 논문은 LLM 기반 과학 에이전트의 현황을 가장 포괄적으로 정리한 의미 있는 리뷰 논문으로, 과학 발견의 전체 사이클을 통합하는 프레임워크와 정보이론적 형식화를 제시한 점에서 학술적·실무적 기여가 크다. 다만 상위 아키텍처의 통합보다는 기존 방법들의 조직적 분류에 무게가 있으며, 제시된 한계점들(일반화 능력, 안전성, 실제 효율성)이 실제 응용 단계에서 얼마나 극복되었는지에 대한 심화 분석이 필요하다.

#107 2025.03 4/5

TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

저자: Shanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik | 날짜: 2025.03 | DOI: 미제공

Essence

정밀 치료(precision therapeutics)를 위해 211개의 생의학 도구(biomedical tools)를 활용한 다단계 추론 AI 에이전트 TxAgent를 제시하며, FDA 승인 약물 정보와 Open Targets 임상 정보를 통합하여 약물 상호작용, 금기사항, 환자별 맞춤 치료 전략을 분석한다.

Evaluation

Overall: 4

TxAgent는 대규모 생의학 도구 통합과 다단계 추론 능력으로 약물 치료 추천에서 기존 LLM을 크게 능가하는 의의 있는 성과이며, 정밀 의료 분야에서 즉각적 임상 응용이 가능하나 실제 환자 데이터 기반 임상 검증을 통한 보완이 필수적이다.

#108 2024 4/5

Agents for self-driving laboratories applied to quantum computing

저자: Shuxiang Cao, Zijian Zhang, Mohammed Alghadeer, Simone D Fasciati, Michèle Piscitelli, Mustafa Bakr, Peter Leek, Alán Aspuru‐Guzik | 날짜: 2024

k-agents 프레임워크 개요: 자연언어로 된 절차를 실행 에이전트(execution agent)가 에이전트 기반 상태 머신으로 분해하여 실행

Essence

![Figure 1](figures/fig1.webp) *k-agents 프레임워크 개요: 자연언어로 된 절차를 실행 에이전트(execution agent)가 에이전트 기반 상태 머신으로 분해하여 실행* 본 연구는 대규모 멀티모달 실험실 지식과 복잡한 워크플로우를 자동화하기 위해 LLM 기반 에이전트 시스템인 k-agents를 개발했다. 초전도 양자 프로세서의 캘리브레이션과 얽힌 양자상태 생성을 통해 인간 수준의 자동화 성능을 입증했다.

Evaluation

Overall: 4

본 논문은 LLM 기반 에이전트를 실제 양자 실험실 자동화에 성공적으로 적용한 의미 있는 연구로, 에이전트 기반 상태 머신과 선택적 활성화 에이전트 시스템은 기술적 기여도가 높다. 다만 평가 규모 확대 및 타 분야 일반화 검증이 필요하다.

#109 2024 4/5

AtomAgents: Alloy design and discovery through physics-aware multi-modal multi-agent artificial intelligence

저자: Alireza Ghafarollahi, Markus J. Buehler | 날짜: 2024 | DOI: 10.48550/arXiv.2407.10022

Essence

![Figure 1](figures/fig1.webp) *다중 모달 다중 에이전트 접근법의 개념도: 시뮬레이션, 실험, 재료 데이터베이스, 이론 모델 등 다양한 소스의 다중 모달 데이터를 통합* 본 논문은 대규모 언어 모델(LLM)과 물리 기반 시뮬레이션을 결합한 다중 에이전트 AI 시스템(AtomAgents)을 제안하여, 합금 설계 및 발견 과정을 자동화하고 인간 개입을 최소화하면서도 물리적 정확성을 유지하는 혁신적인 접근법을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 생성형 AI와 물리 기반 과학 계산의 의미 있는 통합을 시도한 중요한 선행 연구로, 재료 과학의 자동화와 대민족 접근성 향상에 실질적 기여를 한다. 다만 대규모 실계(real-world) 검증, 오류 처리 메커니즘 강화, 다양한 재료 시스템으로의 확장성 입증이 추가로 필요하다.

#110 2024.03 4/5

DeepCRE: Transforming Drug R&D via AI-Driven Cross-drug Response Evaluation

저자: Yushuai Wu, Ting Zhang, Hao Zhou, Hainan Wu, Hanwen Sunchu, Lei Hu, Xiaofang Chen, Suyuan Zhao, Gaochao Liu, Chao Sun, Jiahuan Zhang, Yizhen Luo, Peng Liu, Zaiqing Nie | 날짜: 2024.03 | DOI: 10.48550/arXiv.2403.03768

Essence

![Figure 1](figures/fig1.webp) *약물 R&D 과정의 다양한 단계에서 교차 약물 반응 평가(CRE)의 역할* DeepCRE는 도메인 분리 네트워크(Domain Separation Network, DSN) 기반의 AI 모델로, 세포주 데이터로 학습하여 환자 수준의 약물 반응을 예측함으로써 신약 개발 후기 단계에서의 약물 효과 비교 평가를 가능하게 한다. 이를 통해 기존 모델 대비 17.7% 성능 향상과 5배의 적응증(indication) 수준 개선을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

DeepCRE는 도메인 적응 기반의 효과적인 모델로 환자 수준 약물 반응 예측에서 현저한 성능 향상을 달성했으나, 다양한 암 종류 및 대규모 임상 데이터에 대한 추가 검증과 예측 결과의 생물학적 해석 강화가 신약 개발 분야의 실제 혁신으로 이어지기 위해 필수적이다.

#111 2025 4/5

Multi-agent risks from advanced AI

저자: Lewis Hammond, Alan Chan, Jesse Clifton, Jason Hoelscher-Obermaier, Akbir Khan, Euan McLean, Chandler Smith, Wolfram Barfuß, Jakob Foerster, Tomáš Gavenčiak, The Anh Han, Edward Hughes, Vojtěch Kovařík, Jan Kulveit, Joel Z. Leibo, Caspar Oesterheld, Christian Schroeder de Witt, Nisarg Shah, Michael P. Wellman, Paolo Bova | 날짜: 2025 | DOI: arXiv:2502.14143

Essence

다중 에이전트 AI 시스템의 대규모 배포로 인해 발생하는 새로운 위험들을 체계적으로 분류하고, 3가지 주요 실패 모드(miscoordination, conflict, collusion)와 7가지 위험 요소(information asymmetries, network effects, selection pressures 등)를 제시한 구조화된 분류 체계이다.

Evaluation

Overall: 4

본 논문은 급속히 증가하는 다중 에이전트 AI 시스템의 고유한 위험을 처음으로 체계적으로 분류하고, 금융, 군사, 인프라 등 이미 배포 중인 현실 사례를 통해 긴급성을 강조한 중요한 기술 보고서이다. 실증적 기초와 실행 가능한 권장사항을 제시했으나, 정량적 모델링과 구체적 기술적 완화 전략의 깊이는 향후 연구과제로 남아있다.

저자: Mingwei Ding, Chen Huang, Yibo Hu, Yifan Li, Zitian Lu, Xingtai Yu, Duo Zhang, Wenxi Zhai, Tong Zhu, Qiangqiang Gu, Jinzhe Zeng | 날짜: 2026.03 | DOI: 논문 제출 중

OpenClaw는 중앙 제어와 감독을 제공하고, 스키마 정의 계획 스킬이 과학적 목표를 실행 가능한 작업 명세로 변환하며, 도메인 스킬이 계산화학 절차를 캡슐화하고, DPDispatcher가 이질적 HPC 환경에서 작업 실행을 관리한다.

Essence

본 논문은 **OpenClaw를 기반으로 한 분리된(decoupled) 에이전트-스킬(agent-skill) 설계**를 통해 다단계 계산화학 작업의 자동화를 달성한다. 일반 목적의 대언어모델 기반 에이전트가 추론과 조정을 담당하고, 재사용 가능한 도메인 스킬이 구체적인 화학 계산 절차를 캡슐화하여 확장성과 유지보수성이 높은 시스템을 실현했다.

AI-guided Manufacturing Control 4 ▶

#117 2024 4/5

Efficient Evolutionary Search Over Chemical Space with Large Language Models

저자: Haorui Wang, Marta Skreta, C. Ser, Wenhao Gao, Lingkai Kong | 날짜: 2024 | DOI: 10.48550/arXiv.2406.16976

Essence

![Figure 1](figures/fig1.webp) *MOLLEO 프레임워크 개요: 초기 분자 풀에서 출발하여 LLM을 교차(crossover) 및 돌연변이(mutation) 연산자로 활용하는 진화 알고리즘* 대규모 언어모델(LLM)을 진화 알고리즘(EA)의 유전 연산자로 통합하여 화학 공간 탐색의 효율성을 획기적으로 향상시키는 MOLLEO 프레임워크를 제안한다. 이는 검은 상자 분자 최적화 문제에서 필요한 목적 함수 평가 횟수를 대폭 감소시킨다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

MOLLEO는 LLM과 EA의 시너지를 체계적으로 입증한 혁신적 연구로, 분자 최적화 분야의 샘플 효율성 문제를 실질적으로 해결하며 ICLR 2025 게재 기준의 높은 수준을 충족한다. 다만 실제 산업 적용을 위한 경제성 분석과 프롬프트 최적화 전략의 심화가 후속 과제로 남아있다.

#118 2025 4/5

Generative machine learning in adaptive control of dynamic manufacturing processes: A review

저자: S. Lee, Hyunwoong Ko | 날짜: 2025 | DOI: 논문 ID: arXiv:2505.00210v2

Essence

동적 제조 프로세스(Dynamic Manufacturing Process)의 적응형 제어를 위해 생성형 머신러닝(Generative Machine Learning)을 통합하는 방법론을 제시하는 종합 리뷰 논문으로, 확률적 이해를 제어 가능한 실행 계획으로 변환하는 제어 지향적 관점을 제공한다.

Evaluation

Overall: 4

이 논문은 생성형 머신러닝을 동적 제조 프로세스의 적응형 제어에 통합하는 방법론을 체계적으로 제시하는 중요한 리뷰 논문으로, 제어 지향적 기능 분류 프레임워크와 함께 기존 방식의 한계를 명확히 지적하고 미래 연구 방향을 제안한다. 다만 실증 사례와 구체적 기술 개발 결과를 보강하면 더욱 실용적 가치가 높을 것으로 판단된다.

#119 2024 4/5

Fragment and Geometry Aware Tokenization of Molecules for Structure-Based Drug Design Using Language Models

저자: Cong Fu, Xiner Li, Blake Olson, Heng Ji, Shuiwang Ji | 날짜: 2024 | DOI: arXiv:2408.09730

Essence

본 논문은 구조 기반 약물 설계(Structure-Based Drug Design, SBDD)를 위해 언어 모델(Language Models, LMs)을 활용하는 새로운 방법인 Frag2Seq를 제시한다. SE(3)-동변(equivariant) 좌표계를 통해 3D 분자 기하학 정보를 보존하면서 프래그먼트 기반 시퀀스로 변환하고, 단백질 포켓 임베딩을 교차 주의(cross-attention)로 통합하여 표적 단백질에 높은 결합 친화도를 가진 약물 유사 리간드를 효율적으로 생성한다.

Evaluation

Overall: 4

본 논문은 SE(3)-동변 이론을 기반으로 3D 분자 기하학을 보존하면서 언어 모델을 SBDD에 최초로 프래그먼트 단위로 적용한 창의적인 접근이다. 수학적 근거(Lemma 3.2)와 높은 생성 효율(~300배 속도향상)은 강점이지만, 휴리스틱한 프래그먼트 분해 전략, 단백질 포켓 임베딩의 한계, 그리고 실험 검증의 범위가 제한적인 점은 개선이 필요하다. 향후 더 넓은 스펙트럼의 약물학적 성질 평가와 실험적 검증을 통해 임상 적용 가능성을 입증할 수 있다면 상당한 임팩트를 가질 수 있는 논문이다.

#120 2025 4/5

Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review

저자: Masatoshi Uehara, Yulai Zhao, Chenyu Wang, Xiner Li, Aviv Regev | 날짜: 2025 | DOI: 10.48550/arXiv.2501.09685

Figure 1: 미세조정 없이 사전학습 생성 모델과 보상 모델을 통합하여 기능성 높은 자연스러운 설계 생성

Essence

![Figure 2: 대표적인 추론 시간 알고리즘들의 요약](figures/fig2.webp) *Figure 2: 최적화 목표 달성을 위한 다양한 추론 시간 기법들 (Best-of-N, 분류기 가이던스, SMC 기반 가이던스, 값 기반 중요도 샘플링)* 본 튜토리얼은 사전학습된 확산 모델을 미세조정하지 않으면서 추론 시간(inference time)에 보상 함수(reward function)를 최대화하는 정렬(alignment) 기법들을 통일된 관점에서 리뷰하고, 단백질 설계 같은 과학 분야에서 실제로 유용한 비미분 가능한 보상 피드백을 다루는 방법론들을 포괄적으로 다룬다.

Evaluation

Overall: 4

본 튜토리얼은 확산 모델의 추론 시간 정렬 기법들을 처음으로 체계적으로 통합하는 시도로서, 특히 비미분 보상이 실제인 과학 도메인의 관점에서 현실적 가치가 높으며, 제시된 프레임워크는 향후 연구의 이론적 기초가 될 수 있다. 다만 각 기법의 근사 품질, 수렴성, 값 함수 오차의 영향 등에 대한 정량적 이론 분석이 보강된다면 더욱 강력한 참고 자료가 될 것이다.

Knowledge Graph Reasoning 7 ▶

#121 2024 4/5

Mustard: Mastering uniform synthesis of theorem and proof data

저자: Yinya Huang, Xiaohan Lin, Zhengying Liu, Qingxing Cao, Huajian Xin, Haiming Wang, Zhenguo Li, Linqi Song, Xiaodan Liang | 날짜: 2024 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *다양한 중간 추론 단계 생성 및 검증 방법 비교* 본 논문은 대규모언어모델(LLM)과 형식 정리 증명기(formal theorem prover)의 상호작용을 통해 고품질의 수학 정리와 증명 데이터를 대규모로 생성하는 MUSTARD 프레임워크를 제안한다. 생성된 5,866개의 검증된 데이터로 구성된 MUSTARDSAUCE 벤치마크를 통해 미세조정된 언어모델의 수학적 추론 능력을 평균 15.41% 상대성능 향상으로 입증한다.

Evaluation

Overall: 4

MUSTARD는 LLM과 형식 정리 증명기의 상호작용을 통해 대규모 고품질 수학 데이터를 자동 생성하는 효과적인 프레임워크를 제시하며, 공개 벤치마크 MUSTARDSAUCE의 실제 성능 향상으로 실용성을 입증한 우수한 논문이다.

#122 2024 4/5

OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining

저자: Fanjin Zhang, Shijie Shi, Yifan Zhu, Bo Chen, Yukuo Cen, Jifan Yu, Yelin Chen, Lulu Wang, Qingfei Zhao, Yuqing Cheng, Tianyi David Han, Yuwei An, Dan Zhang, Weng Lam Tam, Kun Cao, Yunhe Pang, Xinyu Guan, Huihui Yuan, Jian Song, Xiaoyan Li | 날짜: 2024 | DOI: 10.1145/3637528.3672354

Essence

![Figure 1](figures/fig1.webp) *그림 1: OAG-Bench의 포괄적 개요 - 10개 과제, 20개 데이터셋, 70+ 베이스라인 방법* 본 논문은 학술 그래프 마이닝(academic graph mining)을 위한 포괄적인 인간-주석(human-curated) 벤치마크인 OAG-Bench를 제시한다. 개방학술그래프(Open Academic Graph, OAG)를 기반으로 저자 이름 중복 제거, 논문 추천, 학자 프로파일링 등 10개의 다양한 과제를 포함하며, 세밀한 다중 관점 주석과 표준화된 평가 프로토콜을 제공한다.

Evaluation

Overall: 4

OAG-Bench는 학술 그래프 마이닝 분야에 필요한 포괄적이고 고품질의 벤치마크를 제시하며, 70+ 베이스라인과 LLM 성능 분석을 통해 현재 알고리즘의 한계를 명확히 드러낸다. 개방성과 확장성으로 인해 학술 그래프 관련 연구의 중요한 참조점이 될 것으로 예상되나, 주석 프로토콜의 세부 기술화와 도메인 편향성 분석이 보완되면 더욱 견고한 자원이 될 것이다.

#123 2022 4/5

Predicting the future of ai with ai: High-quality link prediction in an exponentially growing knowledge network

저자: Mario Krenn, Lorenzo Buffoni, Bruno Coutinho, Sagi Eppel, Jacob Gates Foster, Andrew Gritsevskiy, Harlin Lee, Yichao Lu, João P. Moutinho, Nima Sanjabi, Rishi Sonthalia, Ngoc Mai Tran, Francisco Valente, Yangxinyu Xie, Rose Yu, Michael Kopp | 날짜: 2022 | DOI: arXiv:2210.00881

Essence

![Figure 2](AI학습/fig2.png) *Figure 2: arXiv에서 Science4Cast로의 변환 과정. 143,000개의 AI/ML 논문으로부터 64,000개의 개념 노드와 1,800만 개의 엣지를 가진 의미적 네트워크 구축* 본 논문은 AI 연구의 지수적 성장에 대응하기 위해 의미적 네트워크(semantic network)에서의 링크 예측(link prediction) 문제를 통해 미래의 AI 연구 방향을 예측한다. 143,000개의 arXiv 논문으로부터 구축된 64,000개 개념 노드의 네트워크에서 향후 함께 연구될 개념 쌍을 예측하는 것을 목표로 한다.

Evaluation

Overall: 4

본 논문은 급증하는 AI 학술 문헌에서 미래 연구 방향을 예측하는 혁신적인 접근법을 제시하며, 대규모 실제 데이터 기반의 벤치마크와 다양한 방법론 비교를 통해 학문적 가치가 높다. 다만 개념 추출의 정확성 개선과 예측 결과의 과학적 임팩트 검증이 필요하다.

#124 2023 4/5

Lego-prover: Neural theorem proving with growing libraries

저자: Huajian Xin, Haiming Wang, Chuanyang Zheng, Lin Li, Zhengying Liu, Qingxing Cao, Yinya Huang, Jing Xiong, Han Shi, Enze Xie, Jian Yin, Zhenguo Li, Xiaodan Liang, Heng Liao | 날짜: 2023

LEGO-Prover의 구조: (a) Plain prover와의 비교 - LEGO-Prover는 모듈식 증명 구성, (b) 프로버(Prover)와 에볼버(Evolver)로 이루어진 전체 프레임워크

Essence

![Figure 1(a) and (b)](figures/fig1.webp) *LEGO-Prover의 구조: (a) Plain prover와의 비교 - LEGO-Prover는 모듈식 증명 구성, (b) 프로버(Prover)와 에볼버(Evolver)로 이루어진 전체 프레임워크* 대규모 언어모델(LLM)을 이용한 신경 정리 증명(Neural Theorem Proving)에서 검증된 보조정리(lemma)를 재사용 가능한 기술(skill)로 활용하는 성장 가능한 라이브러리를 도입함으로써, 모듈식 증명 구성을 통해 증명 능력을 대폭 향상시킨다. 이를 통해 miniF2F 벤치마크에서 최첨단 성능을 달성하고 22,532개의 검증된 기술을 자동 생성한다.

Evaluation

Overall: 4

LEGO-Prover는 신경 정리 증명에 성장 가능한 검증된 보조정리 라이브러리를 도입하는 창의적 접근으로 명확한 성능 향상을 달성하였으며, 생성된 대규모 기술 라이브러리의 실용적 가치를 입증했다. 다만 더 복잡한 수학 문제로의 확장성과 계산 비용 효율성에 대한 추가 검증이 필요하다.

#125 2024 4/5

Graphusion: a rag framework for knowledge graph construction with a global perspective

저자: Rui Yang, Boming Yang, Xinjie Zhao, Fan Gao, Aosong Feng, Sixun Ouyang, Moritz Blum, Tianwei She, Yuang Jiang, Freddy Lecue, Jinghui Lu, Irene Li | 날짜: 2024 | DOI: TBD

Figure 1: Zero-shot LLM, RAG 프레임워크, Graphusion의 지식그래프 구축 방식 비교

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Zero-shot LLM, RAG 프레임워크, Graphusion의 지식그래프 구축 방식 비교* 본 논문은 대규모언어모델(LLM)을 활용하여 자유로운 텍스트에서 **전역적 관점(global perspective)**을 고려한 과학 분야의 지식그래프(Knowledge Graph, KG)를 구축하는 새로운 프레임워크 Graphusion을 제안한다. 기존 로컬 중심의 방법을 넘어 엔티티 병합, 충돌 해결, 신규 관계 발견을 통해 통합된 지식그래프를 생성한다.

Evaluation

Overall: 4

Graphusion은 LLM 기반 지식그래프 구축에서 로컬에서 전역적 관점으로의 전환을 효과적으로 구현하며, 특히 체계적인 지식 융합 모듈과 교육 도메인의 실제 적용을 통해 실질적 기여를 제시한다. 다만 도메인 특화성, 충돌 해결 메커니즘의 상세 기술화, 대규모 확장성 검증이 추가로 필요하다.

#126 2025 4/5

Research hypothesis generation over scientific knowledge graphs

저자: Agustín Borrego, D. Dessí, Daniel Ayala, Inma Hernández, Francesco Osborne | 날짜: 2025 | DOI: 10.1016/j.knosys.2025.113280

Essence

과학적 지식 그래프(Scientific Knowledge Graphs)를 활용하여 새로운 연구 가설을 자동으로 생성하는 방법론을 제시한다. 특히 대규모 언어모델(LLM)과 구조화된 지식 표현을 결합하여 학제 간 연구 연결과 숨겨진 지식을 발굴하는 접근법을 제안한다.

Evaluation

Overall: 4

본 논문은 지식 그래프와 대규모 언어모델을 통합하여 과학적 가설 생성의 신뢰성과 창의성을 동시에 추구하는 유의미한 접근법을 제시하지만, 평가 자동화, 다양한 도메인 적용 사례, 인간-AI 협력 모델의 구체적 설계가 강화되면 더욱 완성도 있는 기여가 될 것으로 판단된다.

#127 2024 3/5

Enhancing natural language inference performance with knowledge graph for covid-19 automated fact-checking in indonesian language

저자: Arief Purnama Muharram, Ayu Purwarianti | 날짜: 2024

Essence

인도네시아어 COVID-19 자동 팩트체킹 성능 향상을 위해 지식 그래프(Knowledge Graph)를 외부 지식으로 활용하여 자연어 추론(Natural Language Inference, NLI)을 개선하는 연구이다. 세 개 모듈(NLI 모듈, 팩트 모듈, 분류기 모듈)로 구성된 아키텍처를 통해 최대 0.8616의 정확도를 달성했다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

저자원 언어 기반 COVID-19 팩트체킹에 지식 그래프를 활용한 실용적 연구로, 사회적 가치는 높으나 기술적 혁신성은 제한적이다. 단순한 검색 메커니즘 개선과 더 정교한 지식 통합 방식이 필요하다.

Biomedical Research Agents 5 ▶

#128 2023 4/5

Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis

저자: Kexin Chen, Jiamin Lu, Junyou Li, Xiaoran Yang, Yuyang Du, Kunyi Wang, Qiannuan Shi, Jiahui Yu, Lanqing Li, Jiezhong Qiu, Jianzhang Pan, Yi Huang, Qun Fang, Pheng Ann Heng, Guangyong Chen | 날짜: 2023

Chemist-X의 3단계 반응 조건 최적화(RCO) 프레임워크: LLM 에이전트에 의해 완전 자동 실행됨

Essence

![Figure 1](figures/fig1.webp) *Chemist-X의 3단계 반응 조건 최적화(RCO) 프레임워크: LLM 에이전트에 의해 완전 자동 실행됨* 본 논문은 대규모 언어 모델(LLM)을 기반으로 한 화학 합성 반응 조건 최적화를 위한 통합 AI 에이전트 Chemist-X를 제시한다. 검색 증강 생성(RAG) 기술, 컴퓨터 보조 설계(CAD) 도구, 자동화 로봇 시스템을 결합하여 인간 화학자의 문제 해결 방식을 모방하며, 완전 자동화 습식 실험실(wet-lab) 실행을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Chemist-X는 RAG, LLM, 자동화 로봇을 통합하여 반응 조건 최적화의 완전 자동화를 시도한 야심 찬 연구로, 기술적 건전성과 실

#129 2024 4/5

Autonomous microscopy experiments through large language model agents

저자: Indrajeet Mandal, Jitendra Soni, Mohd Zaki, Morten M. Smedskjær, Katrin Wondraczek, Lothar Wondraczek, Nitya Nand Gosvami, N. M. Anoop Krishnan | 날짜: 2024 | DOI: 미제공

그림 1: AILA 프레임워크 및 구현. (a) 시스템 아키텍처 (b) AFM 실험 설정 (c) 사용자 쿼리 해석에서 실행까지의 대표적 동작 예시

Essence

대규모 언어모델(LLM) 기반 자동화 현미경 실험 시스템(AILA)을 구축하고, 원자력 현미경(AFM) 실험의 완전한 과학적 워크플로우를 평가하는 종합 벤치마크(AFMBench)를 개발했다. 최첨단 AI 모델들도 기본 작업에서 어려움을 겪으며, 도메인 특화 질의응답 성능이 실제 에이전트 능력으로 전환되지 않음을 밝혔다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 자동화 실험실의 신뢰성을 체계적으로 검증하는 현실적이고 중요한 연구로, 도메인 QA 성능과 실무 능력의 불일치 현상 같은 중요한 통찰을 제시한다. 다만 AFM 특화 평가, 프롬프트 불안정성의 근본 원인 분석 미흡, 그리고 현재 모델의 저조한 성능으로 인해 실제 배포에 이르는 경로는 아직 명확하지 않다는 점이 한계이다.

#130 2025 4/5

Biomni: A General-Purpose Biomedical AI Agent

저자: Kexin Huang, Serena Zhang, Hanchen Wang, Yuanhao Qu, Yingzhou Lu | 날짜: 2025 | DOI: 10.1101/2025.05.30.656746

Figure 1: Biomni의 통합 생의학 행동 공간 및 에이전트 환경 개요. (a) 생의학 논문에서 체계적으로 행동을 발견하는 워크플로우

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Biomni의 통합 생의학 행동 공간 및 에이전트 환경 개요. (a) 생의학 논문에서 체계적으로 행동을 발견하는 워크플로우* 본 논문은 생의학 연구의 단편화된 워크플로우 문제를 해결하기 위해 일반목적 생의학 AI 에이전트 Biomni를 제시한다. 이는 150개의 전문 도구, 105개의 소프트웨어 패키지, 59개의 데이터베이스를 통합한 최초의 통합 생의학 행동 공간(Biomni-E1)과 이를 활용하는 지능형 에이전트 아키텍처(Biomni-A1)로 구성되어 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 생의학 연구의 실질적 병목을 해결하기 위한 최초의 일반목적 생의학 AI 에이전트를 제시하는 역작으로, 대규모 통합 환경 구축과 다양한 현실 사례 입증을 통해 높은 임팩트를 보이나, 정량적 벤치마킹과 기술 상세 설명의 강화로 더욱 견실한 기여가 될 수 있다.

#131 2024 4/5

Aiscivision: A framework for specializing large multimodal models in scientific image classification

저자: Brian Hogan, Anmol Kabra, F. Pacheco, Laura Greenstreet, Joshua Fan, Aaron Ferber, Marta Eichemberger Ummus, Agostinho M. Brito, Olivia Graham, Lillian R. Aoki, C. Drew Harvell, Alexander S. Flecker, Carla Gomes | 날짜: 2024 | DOI: arXiv:2410.21480

Visual Retrieval-Augmented Generation(VisRAG)과 도메인 특화 도구를 결합하여 과학 이미지 분류를 수행하는 AISciVision의 워크플로우. 테스트 이미지에 대해 유사한 긍정/부정 예시를 검색한 후, LMM 에이전트가 여러 라운드에서 도구를 사용하여 분석을 정제하고 최종 예측과 추론 기록(transcript)을 생성한다.

Essence

![Figure 1: AISciVision 프레임워크의 개념도](figures/fig1.webp) *Visual Retrieval-Augmented Generation(VisRAG)과 도메인 특화 도구를 결합하여 과학 이미지 분류를 수행하는 AISciVision의 워크플로우. 테스트 이미지에 대해 유사한 긍정/부정 예시를 검색한 후, LMM 에이전트가 여러 라운드에서 도구를 사용하여 분석을 정제하고 최종 예측과 추론 기록(transcript)을 생성한다.* 대규모 다중모달 모델(LMM)을 과학 영상 분류 작업에 특화시키는 프레임워크로, 시각적 검색 기반 생성(VisRAG)과 도메인 특화 도구를 활용하여 해석 가능하고 신뢰할 수 있는 AI 시스템을 구현했다.

Evaluation

Overall: 4

AISciVision은 투명성과 성능을 결합한 실용적인 과학 AI 프레임워크로, 실제 배포를 통해 과학 연구에 기여하는 점이 강점이다. 다만 기술적 세부사항과 광범위한 평가 분석이 보강되면 더욱 견고한 논문이 될 수 있다.

#132 2026.02 4/5

EAA: Automating materials characterization with vision language model agents

저자: Ming Du, Yanqi Luo, Srutarshi Banerjee, Michael Wojcik, Jelena Popovic, Mathew J. Cherukara | 날짜: 2026.02

Figure 1: EAA의 주요 구성 요소 및 상호작용. 작업 관리자(Task Manager)가 채팅 루프 또는 워크플로우를 포함하며, 에이전트 객체를 생성 및 유지하고 문맥을 관리한다.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: EAA의 주요 구성 요소 및 상호작용. 작업 관리자(Task Manager)가 채팅 루프 또는 워크플로우를 포함하며, 에이전트 객체를 생성 및 유지하고 문맥을 관리한다.* 본 논문은 비전 언어 모델(Vision Language Model, VLM) 기반 에이전트 시스템인 EAA(Experiment Automation Agents)를 제시하며, 이는 복잡한 미시경 실험 워크플로우를 자동화하기 위해 멀티모달 추론, 도구 기반 행동, 장기 메모리를 통합한다. Advanced Photon Source의 이미징 빔라인에서 자동 영역판 초점 맞춤, 자연언어 기반 특성 검색, 대화형 데이터 획득을 구현하여 사용자 접근성을 대폭 개선한다.

Evaluation

Overall: 4

본 논문은 과학 실험 자동화라는 실제 문제 영역에서 VLM 에이전트의 실용적 응용을 체계적으로 설계하고 구현한 좋은 사례를 제시한다. 특히 세 단계 LLM-논리 제어 모델과 MCP 양방향 호환성은 산업 생산 환경에서의 에이전트 신뢰성 확보와 생태계 호환성을 고려한 실용적 기여이나, 단일 시설 실증과 정량적 평가 부재로 인한 일반화 가능성과 성능 개선 정도의 객관적 입증이 약점이다.

AI-driven Bioinformatics Integration 6 ▶

#133 2024 4/5

Evaluation of openai o1: Opportunities and challenges of agi

저자: Tianyang Zhong, Zheng Liu, Yi Pan, Yutong Zhang, Yifan Zhou, Shizhe Liang, Zihao Wu, Yanjun Lyu, Peng Shu, Xiaowei Yu, C. Cao, Hanqi Jiang, Hanxu Chen, Yiwei Li, Junhao Chen, Huawen Hu, Yihe Liu, Huaqin Zhao, Shaochen Xu, Haixing Dai | 날짜: 2024 | DOI: 10.48550/arXiv.2409.18486

Essence

OpenAI의 o1-preview 대규모 언어 모델(LLM)을 다양한 복잡 추론 작업에 걸쳐 포괄적으로 평가한 결과, 컴퓨터 과학, 수학, 자연과학, 의학, 언어학, 사회과학 등 여러 영역에서 인간 수준 이상의 성능을 달성했으며, 이는 인공일반지능(AGI) 달성을 위한 중요한 진전을 시사한다.

Evaluation

Overall: 4

본 논문은 OpenAI o1의 능력을 가장 광범위하게 평가한 첫 종합 연구로서, 다양한 분야에서 인간 수준 이상의 성능을 실증함으로써 AGI 달성에 대한 중요한 근거를 제시했으며, 제시된 AGI-Benchmark 1.0은 향후 LLM 평가의 표준이 될 수 있는 중대한 기여이다. 다만 멀티모달 통합, 도메인 외 일반화, 그리고 실제 배포 시 윤심사항 등에서 추가 연구가 필요하다.

#134 2025.04 4/5

Foundation Models for Environmental Science: A Survey of Emerging Frontiers

저자: Runlong Yu, Shengyu Chen, Yiqun Xie, Huaxiu Yao, Jared Willard, Xiaowei Jia | 날짜: 2025.04 | DOI: 미제공

그림 1: 파운데이션 모델이 가능하게 하는 응용 중심의 목표 및 발전

Essence

본 논문은 환경과학 분야에서 파운데이션 모델(Foundation Models)의 응용을 포괄적으로 검토한 최신 서베이이며, 대규모 사전학습을 통해 복잡한 환경생태계 모델링의 새로운 패러다임을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 빠르게 발전하는 파운데이션 모델 기술과 환경과학의 시급한 과제를 연결하는 의미 있는 시도로, 학제 간 협력의 중요성을 강조하며 향후 연구 방향을 제시하는 가치 있는 서베이이나, 더욱 깊이 있는 기술 사례와 실제 구현 경험에 대한 보완이 필요하다.

#135 2025.12 4/5

AI for Science 2025

저자: Gavin Farrell, Eleni Adamidi, Rafael Andrade Buono, Mihail Anton, Omar Abdelghani Attafi, Salvador Capella Gutierrez, Emidio Capriotti, Leyla Jael Castro, Davide Cirillo, Lisa Crossman, Christophe Dessimoz, Alexandros C. Dimopoulos, Raúl Fernández-Díaz, Styliani-Christina Fragkouli, Carole Goble, Wei Gu, John M. Hancock, Alireza Khanteymoori, Tom Lenaerts, Fabio Liberante | 날짜: 2025.12 | DOI: 10.1038/d42473-025-00161-3

Essence

본 논문은 AI(인공지능)와 과학 연구의 융합을 포괄적으로 다룬 보고서로, 과학적 발견의 새로운 패러다임으로서 "AI for Science(AI4S)"의 정의, 발전 추세, 그리고 9개 분야에서의 구체적 적용 현황을 제시한다. 2015-2024년 글로벌 학술 출판 데이터를 기반으로 AI 혁신이 기존의 실험 과학, 이론 과학, 계산 과학에 이어 새로운 다섯 번째 연구 패러다임을 형성하고 있음을 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 보고서는 AI 혁신이 단순한 기술 도구를 넘어 과학 연구의 근본적 패러다임 변화를 주도하고 있음을 국제적 관점에서 체계적으로 검증하며, 각 분야별 구체적 성과와 미해결 과제를 균형있게 제시하여 학계·산업·정책 영역에 거대한 참고 자료를 제공한다. 다만 인과성 규명, 합성 데이터의 과학적 타당성, AI의 진정한 창의성 같은 근본적 한계에 대한 심층적 성찰이 향후 보완될 필요가 있다.

#136 2025.03 4/5

Foundation models in bioinformatics

저자: Fei Guo, Renchu Guan, Yaohang Li, Qi Liu, Xiaowo Wang, Can Yang, Jianxin Wang | 날짜: 2025.03 | DOI: 10.1093/nsr/nwaf028

그림 1: 생물정보학의 기초 모델. 고처리량 데이터(DNA, RNA, 단백질, 분자)로부터 다양한 다운스트림 작업(게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석)을 수행하는 기초 모델의 종류 및 활용.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 생물정보학의 기초 모델. 고처리량 데이터(DNA, RNA, 단백질, 분자)로부터 다양한 다운스트림 작업(게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석)을 수행하는 기초 모델의 종류 및 활용.* 기초 모델(FM)이 생물정보학에 도입되면서 AI는 대규모 미표지 데이터 처리, 사전학습(pre-training) 프레임워크, 모델 평가 및 해석 가능성 등 역사적 과제들을 해결하고 있다. 본 논문은 언어 FM, 시각 FM, 그래프 FM, 다중모달 FM의 4가지 유형으로 분류된 기초 모델들이 게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석 등 다양한 생물정보학 응용에서 달성한 최근 성과를 종합적으로 검토한다.

Evaluation

Overall: 4

본 논문은 급속히 발전하는 생물정보학 기초 모델 분야를 종합적으로 정리한 중요한 리뷰로, 4가지 FM 유형과 5가지 응용분야의 이원 분류체계를 통해 실무자의 모델 선택을 돕는 실질적 가치가 있다. 다만 해석 가능성, 환각 문제, 벤치마크 표준화 같은 개방된 과제들에 대한 구체적 해결 방안이 추가되면 논문의 완성도가 더욱 높아질 것으로 예상된다.

#137 2025 4/5

Perspective on utilizing foundation models for laboratory automation in materials research

저자: Kan Hatakeyama‐Sato, Toshihiko Nishida, Koji Kitamura, Yoshitaka Ushiku, Koichi TAKAHASHI, Yuta Nabae, Teruaki Hayakawa | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *기초 모델의 실험실 자동화를 위한 주요 역할: 인지 기능(두뇌)과 물리 기능(신체)* 본 논문은 재료 과학 연구의 실험실 자동화를 위해 기초 모델(foundation models)을 활용할 수 있는 방안을 탐색하는 종합 리뷰이다. 기초 모델의 인지적 역할(실험 계획, 데이터 분석)과 물리적 역할(하드웨어 제어)을 강조하며, 개방형 환경에서의 완전 자동화 실험실 구현을 위한 로드맵을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 기초 모델과 로봇 자동화의 결합이라는 시의적절한 주제를 다루며, 현 단계 실험실 자동화의 한계를 명확히 하고 개방형 환경 자동화라는 비전을 제시하는 가치 있는 전망(perspective)이다. 다만 구체적인 기술 검증(예: 안전성 검증, 멀티모달 통합 알고리즘)과 실제 구현 사례가 더 상세히 필요하며, 현재는 개념 제시 수준에 머물러 있다는 한계가 있다.

#138 2023.12 4/5

ChatGPT and science: the AI system was a force in 2023 — for good and bad

저자: Richard Van Noorden, Richard Webb | 날짜: 2023.12 | DOI: 10.1038/d41586-023-03930-6

Essence

ChatGPT는 2023년 과학 분야에 광범위한 영향을 미친 생성형 AI로, 연구 지원의 기회와 동시에 표절, 오류, 편향 등의 위험을 초래했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 분석은 ChatGPT라는 현상을 과학 커뮤니티의 관점에서 균형잡게 조망한 의미 있는 보도이며, 생성형 AI가 과학에 미치는 이중적 영향을 명확히 인식하도록 촉구한다. 다만 구체적 해결책 제시가 미흡하여 후속 정책 논의와 기술 개발을 위한 더 깊이 있는 연구가 필요하다.

Physics-informed Neural Networks 5 ▶

#139 2023.03 4/5

Uncertainty quantification in scientific machine learning: Methods, metrics, and comparisons

저자: Apostolos F. Psaros, Xuhui Meng, Zongren Zou, Ling Guo, George Em Karniadakis | 날짜: 2023.03 | DOI: 10.1016/j.jcp.2022.111902

Essence

신경망(Neural Networks, NN) 기반의 과학 기계학습(Scientific Machine Learning, SciML)에서 예측 불확실성을 체계적으로 정량화하는 포괄적 프레임워크를 제시하고, 다양한 UQ 방법들을 함수 근사, 편미분방정식 풀이, 연산자 학습 문제에서 비교 평가한다. 특히 물리정보신경망(Physics-Informed Neural Network, PINN)과 심층연산자망(DeepONet)을 중심으로 불확실성 모델링, 정량화 방법, 평가 지표를 통합적으로 다룬다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 과

#140 2023.02 4/5

A Survey on Uncertainty Quantification Methods for Deep Learning

저자: Wenchong He, Zhe Jiang, Tingsong Xiao, Zelin Xu, Yukun Li | 날짜: 2023.02

그림 1: 기존 UQ 방법 설문의 분류 체계 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1: 기존 UQ 방법 설문의 분류 체계 비교* 본 논문은 딥러닝의 불확실성 정량화(Uncertainty Quantification, UQ) 방법을 불확실성의 원천(데이터 불확실성 vs 모델 불확실성)에 따라 체계적으로 분류하는 최초의 종합 설문이다. 기존 설문과 달리 신경망 아키텍처나 베이지안 형식이 아닌 불확실성 원천 관점에서 UQ 방법들을 분석함으로써 실무 응용에 적합한 방법 선택을 용이하게 한다.

Evaluation

Overall: 4

본 설문은 불확실성 원천이라는 실용적 관점에서 처음으로 UQ 방법을 체계화하여, 다양한 응용에서 적절한 UQ 방법 선택을 돕는 가치 있는 참고자료가 된다. 특히 고위험 응용과 신뢰성 있는 AI 개발의 시대에 시의적절한 기여를 하나, 각 방법의 비교 분석과 계산 효율성 논의가 더욱 심화된다면 더욱 실용적일 것으로 예상된다.

#141 2025.10 4/5

Architectures, variants, and performance of neural operators: A comparative review

저자: Shengjun Liu, Yu Yu, Ting Zhang, Hanchao Liu, Xinru Liu, Deyu Meng | 날짜: 2025.10 | DOI: 10.1016/j.neucom.2025.130518

신경 연산자의 발전 역사

Essence

![Figure 1](figures/fig1.webp) *신경 연산자의 발전 역사* 편미분방정식(PDE) 해법으로 전통 수치해석 방법을 대체할 수 있는 신경 연산자(Neural Operators, NOs)의 아키텍처, 변형, 성능을 종합적으로 비교 분석한 체계적 리뷰 논문이다. DeepONet, 적분 커널 연산자, 트랜스포머 기반 신경 연산자의 세 가지 주요 아키텍처와 이들의 물리정보 통합 변형, 복잡계 응용을 다룬다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

신경 연산자의 주요 아키텍처와 변형을 체계적으로 정리하고 성능을 실증적으로 비교한 가치 있는 종합 리뷰로, PDE 해법 분야에서 신경 연산자 적용을 추진하는 연구자와 실무자에게 실질적 가이드라인을 제공한다. 다만 이론적 수렴성 분석이 부족하고 고차원 문제에서의 근본적 한계가 여전히 미해결 상태인 점이 한계이다.

#142 2022.01 4/5

Scientific Machine Learning through Physics-Informed Neural Networks: Where we are and What's next

저자: Salvatore Cuomo, Vincenzo Schiano di Cola, Fabio Giampaolo, Gianluigi Rozza, Maziar Raissi, Francesco Piccialli | 날짜: 2022.01

Essence

물리 방정식을 신경망의 손실함수에 직접 인코딩하는 PINN(Physics-Informed Neural Networks)에 관한 종합적 문헌 리뷰로, 이 기법의 발전, 변형, 적용 사례 및 미해결 이론적 문제들을 다룬다.

Evaluation

Overall: 4

본 논문은 Physics-Informed Neural Networks 분야의 종합적이고 신뢰할 수 있는 현황 보고서로, 명확한 분류 체계와 미해결 이론적 문제를 제시함으로써 과학계산 기계학습의 다음 단계 발전을 위한 로드맵을 제공한다. 다만 각 기법의 정량적 성능 비교와 이론적 분석이 더 심화되면 더욱 값진 참고자료가 될 수 있다.

#143 2026.03 4/5

SPINONet: Scalable Spiking Physics-informed Neural Operator for Computational Mechanics Applications

저자: Shailesh Garg, Luis Mandl, Somdatta Goswami, Souvik Chakraborty | 날짜: 2026.03

모든 수치 예제에서 branch 네트워크 VSN 레이어의 계층별 평균 스파이킹 활동도

Essence

본 논문은 에너지 효율성을 갖춘 물리정보신경망(Physics-informed Neural Network, PINN) 기반의 연산자 학습 모델을 제안한다. 신경과학에 영감을 받은 스파이킹 뉴런(spiking neuron)을 통해 희소 이벤트 기반 연산을 구현하면서도 물리 제약 조건 시행에 필요한 미분 가능성을 유지하는 아키텍처적 분리(architectural separation)를 핵심으로 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

Academic Publication Review Systems 33편 ▶

Academic Publication Review Systems Timeline

Evaluation

Overall: 4

본 논문은 AI 컨퍼런스 피어 리뷰 위기의 근본 원인을 체계적으로 분석하고, 권력 불균형 해소와 심사자 동기부여라는 두 가지 관점에서 실행 가능한 개혁안을 제시한 의미 있는 위치 논문이다. 다만 양방향 피드백 시스템의 세부 구현과 보복 방지 메커니즘, 보상 시스템의 실질적 운영 방안에 대한 더욱 정교한 설계가 필요하다.

Citation Generation Systems 8 ▶

#151 2024 4/5

HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction

저자: Jingyang Fan, Qianyue Hao, Yong Li, Fengli Xu, Jian Yuan | 날짜: 2024

Figure 1: (a) 핵심 인용(Core Citation) 정의. (b)(c) 핵심 인용과 표면적 인용의 통계적 차이: 키워드 겹침(b)과 주요 텍스트 내 언급 빈도(c)

Essence

![Figure 1](figures/fig1.webp) *Figure 1: (a) 핵심 인용(Core Citation) 정의. (b)(c) 핵심 인용과 표면적 인용의 통계적 차이: 키워드 겹침(b)과 주요 텍스트 내 언급 빈도(c)* 본 논문은 과학 논문의 인용 예측 문제를 단순한 이진 분류에서 벗어나 **핵심 인용(core citations)**을 표면적 인용 및 비인용과 구별하는 다단계 분류 문제로 재정의하고, 임베딩 모델과 생성형 LLM을 결합한 하이브리드 워크플로우(HLM-Cite)를 제안한다.

Evaluation

Overall: 4

본 논문은 인용 예측 문제를 개념적으로 재정의하고 하이브리드 모델을 통해 실질적인 확장성을 달성한 견실한 연구이다. 특히 100K 후보 집합 처리와 17.6% 성능 개선은 실무적 가치가 높으나, 핵심 인용 정의의 순환성과 LLM 기반 추론의 효율성 개선이 향후 중요한 과제로 남아있다.

#152 2025 4/5

ScholarSearch: Benchmarking Scholar Searching Ability of LLMs

저자: Junting Zhou, Wang Li, Yiyan Liao, Nengyuan Zhang, Tingjia Miao, Zhihui Qi, Yuhan Wu, Tong Yang (Peking University) | 날짜: 2025 | DOI: 10.48550/arXiv.2506.13784

ScholarSearch의 데이터 수집 파이프라인: 학생들이 수집한 데이터를 여러 LLM으로 필터링한 후 전문 검토팀이 유일성, 출처 접근성, 학술적 정확성을 검증

Essence

![Figure 1](figures/fig1.webp) *ScholarSearch의 데이터 수집 파이프라인: 학생들이 수집한 데이터를 여러 LLM으로 필터링한 후 전문 검토팀이 유일성, 출처 접근성, 학술적 정확성을 검증* 본 논문은 LLM의 복잡한 학술 정보 검색 능력을 평가하기 위한 첫 번째 전문 벤치마크인 **ScholarSearch**를 제시한다. 기존의 학술 벤치마크(MMLU, GPQA)나 일반 웹 검색 벤치마크(BrowseComp)로는 충분하지 않은 깊이 있는 학술 연구 검색 능력을 측정한다.

Evaluation

Overall: 4

ScholarSearch는 LLM의 학술 정보 검색 능력을 평가하기 위한 실질적이고 도전적인 벤치마크로서, 기존 벤치마크의 공백을 효과적으로 메운다. 데이터 수집의 엄격성과 학문 분야의 다양성이 강점이나, 규모 확장과 평가 메커니즘의 정교화를 통해 더욱 강력한 평가 도구로 발전할 수 있는 잠재력을 보유하고 있다.

#153 2024 4/5

Benchmark for evaluation and analysis of citation recommendation models

저자: Puja Maharjan | 날짜: 2024

Essence

인용문헌 추천 시스템(citation recommendation systems)의 평가를 위한 표준화된 벤치마크를 제안하는 논문으로, 다양한 모델, 데이터셋, 평가 지표의 불일치 문제를 해결하고자 진단 데이터셋(diagnostic datasets)과 일관된 평가 메트릭을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

인용 추천 시스템 평가의 표준화라는 절실한 문제를 해결하고, 다층적 진단 데이터셋을 제시한 점에서 학술 가치가 높다. 다만, 다양한 신경망 모델에 대한 벤치마크 결과 제시와 공정성·저자원 시나리오에 대한 더 심층적 분석이 보강되면 더욱 영향력 있는 연구가 될 것으로 예상된다.

#154 2023 4/5

Generating a structured summary of numerous academic papers: Dataset and Method

저자: Shuaiqi Liu, Jiannong Cao, Ruosong Yang, Zhiyuan Wen | 날짜: 2023 | DOI: arXiv:2302.04580

Essence

수천 개의 학술논문을 다수 입력 문서로 하여 구조화된 요약(structured summary)을 자동으로 생성하는 첫 번째 대규모 데이터셋 BigSurvey와 카테고리 기반 정렬 및 희소 트랜스포머(CAST) 방법을 제안한다.

Evaluation

Overall: 4

BigSurvey 데이터셋과 CAST 방법은 수십 개 학술논문의 구조화된 요약 자동 생성이라는 실질적 문제를 처음으로 체계적으로 다루었으며, 특히 카테고리 기반 정렬을 통해 다양한 출처의 콘텐츠 조직화라는 핵심 과제를 창의적으로 해결한 점에서 높이 평가된다. 다만 모델 아키텍처의 신규성은 제한적이고, 추후 더 큰 사전학습 모델과의 비교 및 다언어 확장 연구가 기대된다.

#155 2025 4/5

How deep do large language models internalize scientific literature and citation practices? arXiv preprint arXiv:2504.02767, 2025.

저자: Andres Algaba, Vincent Holst, Floriano Tori, Melika Mobini, Brecht Verbeken, Sylvia Wenmackers, Vincent Ginis | 날짜: 2025

그림 1: 논문의 제목, 저자, 연도, 학술지, 초록을 기반으로 LLM이 생성한 참고문헌과 인간의 인용 패턴을 비교하는 실험 개요

Essence

![Figure 1](figures/fig1.webp) *그림 1: 논문의 제목, 저자, 연도, 학술지, 초록을 기반으로 LLM이 생성한 참고문헌과 인간의 인용 패턴을 비교하는 실험 개요* 대규모 언어 모델(LLM)이 과학 논문의 참고문헌 생성 시 이미 인용도가 높은 논문들을 지속적으로 선호함으로써 인용의 마태 효과(Matthew effect)를 강화하며, 이는 학문 영역 간 편향의 차이에도 불구하고 일관되게 나타난다. 이러한 현상은 과학 지식의 발견과 확산 방식을 재형성할 가능성이 있다.

Evaluation

Overall: 4

본 논문은 LLM이 과학 참고문헌 생성 시 체계적으로 마태 효과를 강화하며 인간의 인용 관행과 차이를 보인다는 중요한 발견을 대규모 실증 데이터로 제시하여, AI 도입이 과학적 지식 발견의 형태를 재편할 수 있음을 시사한다. 다만 순수 매개변수 지식 기반 평가라는 제한과 학문 영역 표본 편향을 고려할 때, 실제 운영 환경에서의 영향은 추가 검증이 필요하다.

#156 2025 4/5

Lag: Llm agents for leaderboard auto generation on demanding

저자: Jian Wu, Jiayu Zhang, Dongyuan Li, Linyi Yang, Aoxiao Zhong, Renhe Jiang, Qingsong Wen, Yue Zhang | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *Figure 2: The League framework for leaderboard automatic generation. In Stage 1, we automatically* League는 arXiv와 학술지에서 자동으로 논문을 수집하여 LLM 기반으로 실험 결과를 추출하고 통합함으로써 동적으로 리더보드를 자동 생성하는 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

League는 급증하는 학술 논문에 대응하여 자동으로 최신 리더보드를 생성하는 혁신적 프레임워크이며, 실험 설정을 포함한 공정한 비교라는 새로운 관점을 제시한다. 인간 성능에 근접한 결과와 5-10배의 효율성 향상으로 실질적 가치를 입증하나, LLM 오류 처리 및 다분야 일반화 개선이 필요하다.

#157 2023 4/5

Causal intervention for abstractive related work generation

저자: Jiachang Liu, Qi Zhang, Chongyang Shi, Usman Naseem, Shoujin Wang, Liang Hu, Ivor W. Tsang | 날짜: 2023

Essence

![Figure 2](figures/fig2.webp) *관련 업무 생성을 위한 인과 그래프. do-calculus를 적용하여 경로 c→x를 차단하고 허위 상관관계 c→x→y의 영향을 완화* 본 논문은 학술 논문의 관련 업무(Related Work) 섹션을 자동으로 생성하는 과정에서 인과 관계 이론을 도입하여, 문장 순서와 같은 허위 상관관계(spurious correlation)를 제거하고 문서 간 실제 의미 관계에 기반한 고품질 요약을 생성한다.

Evaluation

Overall: 4

관련 업무 생성 분야에 인과 이론을 창의적으로 도입한 우수한 논문으로, 허위 상관관계 제거의 중요성을 체계적으로 다루었다. 다만 인과 모델의 단순성과 구현의 일부 휴리스틱 선택이 기술적 엄밀성을 다소 감소시킨다.

#158 2023 3/5

The open review-based (orb) dataset: Towards automatic assessment of scientific papers and experiment proposals in high-energy physics

저자: Jarosław Szumega, Lamine Bougueroua, Blerina Gkotse, Pierre Jouvelot, Federico Ravotti | 날짜: 2023 | DOI: 미명시

Essence

본 논문은 OpenReview.net과 SciPost.org에서 수집한 36,000개 이상의 과학논문과 89,000개 이상의 피어리뷰로 구성된 공개 피어리뷰 데이터셋(ORB: Open Review-Based dataset)을 소개한다. NLP 기반 자동 논문 평가 및 고에너지물리 실험 제안의 자동 심사를 지원하기 위한 포괄적인 데이터 인프라를 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 3 Overall: 3

ORB 데이터셋은 오픈 피어리뷰 분야의 데이터 부족 문제를 크게 완화할 수 있는 중요한 자원이며, 특히 고에너지물리 실험 제안 자동 평가라는 구체적 응용을 지원한다는 점에서 가치가 있다. 다만 데이터 통합의 복잡성, NLP 실험의 기초적 수준, 플랫폼 의존성 등으로 인해 기술적 견고성에서 개선 여지가 있고, 대규모 실제 응용까지는 추가 연구가 필요하다. 오픈 사이언스 커뮤니티에 긍정적 기여를 할 수 있는 리소스이나, 개별 논문으로서의 기술적 혁신성은 제한적이다.

Expert Review Automation 10 ▶

#159 2025.05 4/5

From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

저자: Tianshi Zheng, Zheye Deng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Zihao Wang, Yangqiu Song | 날짜: 2025.05 | DOI: 미제공

과학적 방법의 6단계와 각 단계의 LLM 응용 분야

Essence

![Figure 1](figures/fig1.webp) *과학적 방법의 6단계와 각 단계의 LLM 응용 분야* 대규모 언어모델(LLM)이 과학 발견에서 단순한 작업 자동화 도구에서 자율적 에이전트로 진화하는 패러다임 변화를 체계적으로 분석한 종합 조사 논문이다. 과학적 방법론의 단계별 관점에서 LLM의 자율성 수준을 3단계 분류법으로 제시하며, 미래의 AI 기반 과학 발견의 방향을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

LLM의 과학 발견 응용을 자율성 진화라는 새로운 관점에서 체계적으로 분석한 중요한 종합 논문으로, 학문 분야 간 통합적 이해를 제공하고 미래 연구 방향을 명확히 제시하나, 각 사례의 실제 과학적 유효성 검증과 윤리적 논의의 심화가 필요하다.

#160 2025 4/5

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation

저자: Ming Zhang, Yujiong Shen, Zelin Li, Huayu Sha, Binze Hu, Yuhui Wang, Chenhao Huang, Shichun Liu, Jingqi Tong, Changhao Jiang, Mingxu Chai, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang | 날짜: 2025 | DOI: -

데이터 소스 및 LLMEval-Med의 인스턴스. 실제 임상 데이터와 공개 데이터셋에서 도출된 데이터를 의료 전문가들이 여러 차수의 정제를 통해 참고 답변, 프롬프트, 평가 체크리스트를 작성

Essence

![Figure 1](figures/fig1.webp) *데이터 소스 및 LLMEval-Med의 인스턴스. 실제 임상 데이터와 공개 데이터셋에서 도출된 데이터를 의료 전문가들이 여러 차수의 정제를 통해 참고 답변, 프롬프트, 평가 체크리스트를 작성* 본 논문은 실제 전자의무기록(EHR)과 임상 시나리오에서 도출된 2,996개 문제로 구성된 종합적 의료 LLM 평가 벤치마크 LLMEval-Med를 제시한다. 의료 전문가 검증과 동적 평가 프레임워크를 통해 의료 AI 시스템의 안전하고 효과적인 배포를 위한 신뢰성 있는 평가 도구를 제공한다.

Evaluation

Overall: 4

LLMEval-Med는 실제 임상 데이터 기반의 포괄적 벤치마크와 의료 전문가 검증을 통한 신뢰성 있는 평가 프레임워크를 제공함으로써 의료 LLM의 임상 배포를 위한 중요한 도구를 제시한다. 특히 윤리·안전성 평가 항목의 명시적 포함과 개방형 질문 중심의 설계는 기존 벤치마크의 공백을 의미 있게 메우나, 단일 언어권 범위와 자동화 평가의 복잡한 임상 판단에 대한 검증 강화가 후속 과제이다.

#161 2025 4/5

DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process

저자: Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang | 날짜: 2025 | DOI: arXiv:2503.08569v1

*데이터셋 구성 (DeepReview-13K)

Essence

본 논문은 LLM(Large Language Models)을 이용한 학술지 논문 심사를 개선하기 위해, 인간 전문가의 심사 과정을 모방하는 다단계 구조화된 프레임워크 DeepReview를 제안한다. DeepReview-13K 데이터셋으로 훈련된 DeepReviewer-14B 모델은 기존 모델들(CycleReviewer-70B, GPT-o1, DeepSeek-R1)을 능가하면서도 더 적은 토큰을 사용한다.

Evaluation

Overall: 4

DeepReview는 LLM 기반 논문 심사 시스템의 신뢰성과 효율성을 크게 향상시키는 구조화된 접근법을 제시하며, 대규모 공개 데이터셋과 모델을 통해 학술 커뮤니티에 즉시적 기여를 한다. 다만 다양한 학문 분야로의 일반화, 인간-AI 협력 효과의 실증적 검증, 기술적 세부 사항의 더욱 충실한 설명이 후속 과제로 남아있다.

저자: Tanisha Mishra, Edward Sutanto, Rini Rossanti, Nayana Pant, Anum Ashraf, Akshay Raut, Germaine Uwabareze, Ajayi Oluwatomiwa, Bushra Zeeshan | 날짜: 2024.12 | DOI: 10.1038/s41598-024-81370-6

Essence

본 연구는 글로벌 의학 및 보건의료 관련 연구자 226명(59개국)을 대상으로 대규모 언어 모델(LLM)의 학술 출판 활용 현황, 인식도, 그리고 향후 영향에 대한 종합적 실태조사를 제시한다. LLM 인식도가 높은 연구자일수록 논문 발표 건수가 유의미하게 많았으나, 실제 사용 시에는 대다수가 이를 공개하지 않는 학술 윤리 문제를 드러낸다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 LLM 시대 학술 출판의 투명성과 윤리를 다룬 시의적절하고 광범위한 실태조사로, 특히 사용-공개 불일치 현상을 정량화하여 저널과 규제당국이 즉시 대응할 수 있는 근거를 제시한다. 다만 표본의 동질성과 응답률 한계, 단순 현상 기술에 그친 점은 보완이 필요하다.

#167 2025.03 3/5

SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models

저자: Chuan Qin, Xin Chen, Chengrui Wang, Pengmin Wu, Xi Chen, Yihang Cheng, Jingyi Zhao, Meng Xiao, Xiangchao Dong, Qingqing Long, Boya Pan, Han Wu, Chengzan Li, Yuanchun Zhou, Hui Xiong, Hengshu Zhu | 날짜: 2025.03 | DOI: 10.48550/arXiv.2503.13503

Essence

과학 AI(AI4Science)의 준비 상태를 평가하기 위한 통합 벤치마킹 프레임워크로, 과학 데이터의 AI 준비도와 대규모 언어모델(LLM)의 과학 분야별 능력을 체계적으로 평가하는 종합 평가 체계를 제시한다.

Evaluation

Overall: 3

SciHorizon은 AI4Science의 현재 준비 상태를 진단하기 위한 야심찬 통합 프레임워크로, 특히 과학적 가치 평가와 공개 플랫폼 제공을 통해 학계에 의미 있는 기여를 하고 있다. 다만 평가 방법론의 자동화, 전문가 편향 제어, 시간에 따른 동적 업데이트 메커니즘 강화가 필요하며, 프레임워크의 장기적 유효성 검증을 위한 후속 연구가 지속되어야 한다.

#168 2025.03 3/5

Cross sectional pilot study on clinical review generation using large language models

저자: Zining Luo, Yang Qiao, Xinyu Xu, Xiangyu Li, Mengyan Xiao, Aijia Kang, Dunrui Wang, Yueshan Pang, Xing Xie, Sijun Xie, Dachen Luo, Xuefeng Ding, Zhenglong Liu, Ying Liu, Aimin Hu, Yixing Ren, Jiebin Xie | 날짜: 2025.03 | DOI: 10.1038/s41746-025-01535-z

Essence

대규모 언어모델(LLM)이 생성한 임상 리뷰와 인간 저자의 리뷰를 체계적으로 비교한 결과, LLM이 빠르게 리뷰를 생성할 수 있지만 참고문헌 수가 적고, 논리적 일관성이 낮으며, 인용 정확도와 신뢰성이 부족함을 발견했다.

Evaluation

Overall: 3

본 논문은 LLM 기반 임상 리뷰 생성의 현실적 한계를 최초로 체계적으로 규명한 귀중한 실증 연구로, 학술 출판 투명성과 윤리 강화의 시급함을 강조한다. 다만 예상된 결과의 확인 수준이며, 기술적 개선 방향보다는 문제 지적에 더 초점을 두어 실질적 해결책 제시는 부족하다.

Academic Publishing Trends 8 ▶

#169 2024.06 4/5

A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery

저자: Yu Zhang, Xiusi Chen, Bowen Jin, Sheng Wang, Shuiwang Ji, Wei Wang, Jiawei Han | 날짜: 2024.06

Figure 1 depicts three major types of scien-

Essence

![Figure 1](figures/fig1.webp) *Figure 1 depicts three major types of scien-* 260개 이상의 과학 분야 대규모 언어 모델(LLM)을 포괄적으로 조사하여 다양한 분야와 모달리티에서의 아키텍처, 사전학습 기법, 데이터셋, 평가 과제를 통합적으로 분석하고 과학 발견에의 응용을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 과학 분야의 LLM 연구를 처음으로 통합적이고 체계적으로 조사한 중요한 참고 자료로, 260개 이상 모델의 아키텍처와 사전학습 기법을 3가지 프레임워크로 단순화하여 분야 간 연결성을 명확히 한다. 과학 발견의 실제 응용까지 다루어 실무적 가치가 높으나, 정량적 비교 분석과 다모달 상호작용의 깊이 있는 탐구가 추가되면 더욱 완성도 높은 조사가 될 수 있다.

#170 2024.10 4/5

A multimodal generative AI copilot for human pathology

저자: Ming Y. Lu, Bowen Chen, Drew F. K. Williamson, Richard J. Chen, Melissa Zhao, Aaron K. Chow, Kenji Ikemura, Ahrong Kim, Dimitra Pouli, Ankush Patel, Amr Soliman, Chengkuan Chen, Tong Ding, Judy J. Wang, Georg Gerber, Ivy Liang, Long Phi Le, Anil V. Parwani, Luca L. Weishaupt, Faisal Mahmood | 날짜: 2024.10 | DOI: 10.1038/s41586-024-07618-3

Figure 1

Essence

![Figure 1](figures/fig1.webp) *Figure 1* PathChat는 병리학에 특화된 시각-언어 기반 생성형 AI 어시스턴트로, 조직병리 이미지와 자연어를 모두 이해하고 복잡한 병리학 관련 질의에 답변할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

PathChat은 병리학 분야에 특화된 최초의 실용적 다중모달 생성형 AI 어시스턴트로, 대규모 도메인 특화 데이터 구축과 체계적인 평가를 통해 높은 임상적 가치를 시연한 획기적인 연구이다.

#171 2021.07 4/5

Attracting new users or business as usual? A case study of converting academic subscription-based journals to open access

저자: Lars Wenaas | 날짜: 2021.07 | DOI: 10.1162/qss_a_00126

Essence

노르웨이의 11개 인문사회과학(SSH) 학술지가 2017년 구독 기반에서 오픈액세스로 전환한 후의 효과를 분석한 연구로, 전환 후 모든 저널에서 방문 수가 유의미하게 증가했으며 이는 기존 구독 기관이 아닌 다른 부문의 방문자 증가로 인한 것임을 밝혔다.

Evaluation

Overall: 4

로컬 오픈액세스 저널 전환의 실제 효과를 실증하는 가치 있는 연구로, 특히 경제적으로 취약한 국가 학술 인프라 정책에 중요한 근거를 제공하지만, 일반화 가능성과 장기적 지속가능성 분석에서 더 확장된 연구가 필요하다.

#172 2019.01 4/5

Google Scholar to overshadow them all? Comparing the sizes of 12 academic search engines and bibliographic databases

저자: Michael Gusenbauer | 날짜: 2019.01 | DOI: 10.1007/s11192-018-2958-5

Essence

본 연구는 12개의 주요 학술 검색 엔진 및 서지 데이터베이스(Academic Search Engines and Bibliographic Databases, ASEBDs)의 규모를 비교 분석한 최초의 포괄적 연구이다. 반복적 질의 최적화를 통해 Google Scholar의 규모가 약 3억 8,900만 건으로 이전 추정치보다 50% 이상 크다는 것을 발견했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 Google Scholar을 포함한 주요 학술 검색 엔진의 규모를 처음으로 종합 비교한 중요한 경험적 연구이며, Google Scholar의 규모를 이전보다 대폭 상향 수정함으로써 학술정보 커뮤니티의 통념을 재정립하였다. 다만 Query Hit Count 방법론의 근본적 한계와 단일 시점 스냅샷의 제약이 있으므로, 향후 질적 지표 결합과 종단면 추적 연구로 보완될 필요가 있다.

#173 2023.09 4/5

Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

저자: Zonglin Yang, Xinya Du, Junxian Li, Jie Zheng, Soujanya Poria, Erik Cambria | 날짜: 2023.09 | DOI: 미제공

Essence

본 논문은 대규모 언어모델(LLM)을 활용하여 원본 웹 코퍼스로부터 자동으로 새로운 사회과학 학술 가설을 발견하는 첫 번째 시스템을 제안한다. 기존의 제한된 폐쇄 도메인 환경과 상식 수준의 가설을 넘어, 개방 도메인 관찰로부터 학술 문헌에 존재하지 않는 혁신적이고 타당한 과학 가설 생성을 달성했다.

Evaluation

Overall: 4

본 논문은 LLM을 활용한 자동 학술 가설 발견이라는 도전적이고 실질적인 문제를 제시하며, 개방 도메인 데이터로부터 신규이면서도 타당한 과학 가설을 생성할 수 있음을 최초로 실증했다. 다만 기술적 혁신성은 상대적으로 제한적이며, 실제 학술 적용을 위한 추가 검증과 개선이 필요하다.

#174 2026.03 4/5

Towards AI for science: developing a conceptual basis for transforming research support services in university libraries

저자: Lihong Zhou, Hanyu Miao, Tim Zijlstra, Zengmin Wang | 날짜: 2026.03 | DOI: 10.47989/ir31iconf64182

Essence

AI4S(AI for Science) 시대에 대학 도서관의 연구지원 서비스(RSS)를 재정의하기 위해 체계적 문헌분석을 통해 21개의 서비스와 5개 주제로 구성된 개념 모델을 제시하는 연구이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 AI4S 시대 대학 도서관의 역할 변화를 체계적으로 규명한 중요한 선행 연구로, 21개 서비스와 5개 주제로 구조화된 개념 모델은 도서관 정책 수립과 실무 개선의 이론적 기초를 제공한다. 다만 개념 모델의 실제 구현 타당성 검증과 다양한 맥락에서의 적용 가능성 확인을 위한 후속 실증 연구가 필수적이다.

#175 2025.03 4/5

Unlocking the Potential of AI Researchers in Scientific Discovery: What Is Missing?

저자: Hengjie Yu, Yaochu Jin | 날짜: 2025.03 | DOI: 10.48550/arXiv.2503.05822

Essence

![Figure 1](figures/fig1.webp) *Nature Index 저널에 게재된 AI 관련 연구의 출판 추세(2015-2024)와 로지스틱 성장 모델을 통한 예측(2050년까지 약 25%에 도달)* 본 논문은 과학 발견(scientific discovery)에서 AI 연구자의 잠재력이 여전히 미충분하게 활용되고 있다는 실증적 분석을 제시하며, AI4Science의 미래 확대를 위한 구조화된 전략과 실행 방안을 제안한다. Nature Index 저널 분석을 통해 AI 관련 연구가 지난 10년간 9배 증가했으나 실험 과학자(experimental scientists)가 주도하는 구조 속에서 AI 연구자의 직접적 역할이 제한적임을 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 대규모 실증 데이터와 이론적 틀을 결합하여 AI4Science의 현황을 분석하고, AI 연구자의 역할 확대를 위한 구조화된 전략을 제시함으로써 학문적·정책적 가치를 제공한다. 다만 저자 소속 기관의 단순 이진 분류 방식과 Nature Index 저널의 선별적 특성이라는 방법론적 제약이 있으며, 제안된 세 가지 방향의 구현 로드맵이 다소 개괄적일 수 있다. 그럼에도 불구하고 과학 생태계 내 AI 인재 활용의 시급성을 명확히 하고, 실행 가능한 개선 방향을 제시한 점에서 높은 가치를 지닌다.

#176 2024.10 3/5

A year in review: open access at OUP

저자: Adam Kilgarriff, Vít Baisa, Jan Bušta, Miloš Jakubíček, Vojtěch Kovář, Jan Michelfeit, Pavel Rychlý, Vít Suchomel | 날짜: 2024.10

Essence

Oxford University Press는 2024년 국제 오픈액세스 주간을 맞아 지난 1년간 오픈액세스(Open Access, OA) 출판 분야에서 달성한 진전 상황을 보고하며, 전체 학술지 출판물의 50% 이상이 OA로 출판되는 이정표를 달성했다.

Evaluation

Novelty: 3 Technical Soundness: 2 Significance: 4 Clarity: 4 Overall: 3

본 보고서는 OUP의 오픈액세스 출판 전략의 성과를 종합적으로 제시하며, Read and Publish 협약 확대와 학술지 전환을 통한 체계적인 OA 확대가 연구의 접근성과 영향력을 동시에 향상시킨 점에서 의미가 있다. 다만 OA 확대 과정의 구체적 도전 과제와 지속가능성 논의가 보강된다면 학술 출판 정책 입안자들에게 더욱 유용한 자료가 될 수 있을 것이다.

Chemical Intelligence and Benchmarking 72편 ▶

Chemical Intelligence and Benchmarking Timeline

Category Overview

# Chemical Intelligence and Benchmarking 카테고리 개요 "Chemical Intelligence and Benchmarking" 카테고리는 화학 분야에서 인공지능의 신뢰성과 성능을 평가하고, 복잡한 화학 문제 해결을 위한 AI 에이전트 개발에 관한 62편의 논문을 포함하고 있다. 이 분야는 AI 모델의 추론 능력과 신뢰도 평가(AI Trustworthiness Benchmarking)를 중심으로, 대규모 언어모델(LLM)의 유효성을 다각적으로 검증하는 연구들[822, 846]과 자동화된 합성 경로 계획(Retrosynthesis Planning) 및 화학 시뮬레이션 기능을 강화하는 연구들[504, 232]을 아우른다. 특히 Multi-Hop Reasoning과 Working Memory Benchmarks 측면에서는 복잡한 다단계 추론 과정을 수행하는 에이전트 설계[400, 361]와 장시간 컨텍스트 유지 능력 평가[876]에 초점을 맞추고 있다. 또한 분자 및 게놈 규모의 모델링(Cognitive Cell Modeling, AI Chemistry Planning)을 통해 생명과학과 화학의 통합적 이해를 추구하는 연구들[382, 749, 271]이 포함되어 있으며, 이러한 모든 노력은 화학 분야에서의 AI 기술 신뢰성 확보와 벤치마크 개발이라는 궁극적 목표를 지향한다.

Cognitive Cell Modeling: # Cognitive Cell Modeling (인지 세포 모델링) Cognitive Cell Modeling은 대규모 언어 모델(Large Language Models, LLM)과 멀티 에이전트 시스템(Multi-agent Systems)을 활용하여 과학적 사고 과정과 문제 해결 능력을 모델링하고 평가하는 분야입니다. [844]에서는 대규모 언어 모델의 유동적 지능(Fluid Intelligence)을 체계적으로 평가하는 방법론을 제시하며, [189]에서는 참조 없이 복합적인 과학적 과제를 수행할 수 있는 멀티 에이전트 LLM 시스템(CASSIA)을 개발했습니다. 이 분야는 기호적 미분 방정식 발견[275], 코드 생성[143], 과학 데이터 평가[713] 등 다양한 응용 분야를 포괄하며, 에이전트 기반의 과학적 컴퓨팅 기반(Agentic Scientific Computing Substrate)[254]의 구축을 목표로 합니다. Cognitive Cell Modeling은 인공지능 시스템이 인간과 유사한 인지적 특성을 보유하도록 하여 자동화된 과학 연구와 발견을 가능하게 하는 핵심 기술입니다.
AI Trustworthiness Benchmarking: AI 신뢰성 벤치마킹(AI Trustworthiness Benchmarking)은 인공지능 시스템의 신뢰도를 측정하고 평가하기 위한 체계적인 방법론을 연구하는 분야입니다. 이 영역은 대규모 언어모델(Large Language Models, LLM)의 신뢰성 평가 [846], 자율 AI 에이전트(Autonomous AI Agents)의 안정성 분석 [822], 그리고 추론 메커니즘의 투명성 검증 등을 포함하며, AI 시스템이 실제 환경에서 안전하고 신뢰할 수 있도록 작동하는지를 판단하는 핵심 지표들을 개발합니다. 특히 모델의 신뢰성 측정을 위해 기계학습 해석가능성(Mechanistic Interpretability) [017], 사실성 검증(Claim Veracity) [124], 그리고 계획 수립 능력(Planning Capabilities) [625] 등 다양한 벤치마크 기준들이 활용됩니다. 이러한 벤치마킹 작업은 AI 시스템의 의사결정 과정을 이해하고 검증함으로써 신뢰할 수 있는 AI 기술 발전에 기여합니다.
Chemical Language Evolution: Chemical Language Evolution (화학언어 진화)는 대규모 언어 모델(Large Language Model, LLM)을 활용하여 화학 및 생물학적 정보를 효과적으로 표현하고 진화시키는 분야입니다. [271]에서 제시된 ChemDFM과 같은 화학 특화 파운데이션 모델(Foundation Model)들은 분자 구조부터 게놈 규모까지 다양한 계층의 데이터를 처리할 수 있도록 설계되었습니다. [749]의 시퀀스 모델링(Sequence Modeling) 기법은 분자 수준에서 게놈 규모로 확장되는 설계 능력을 제공하며, 이는 자동 진화 에이전트(Self-Evolving Agent) [750]의 검증된 합성(Verified Synthesis)을 가능하게 합니다. 또한 [503]의 LLM-ODE와 같은 데이터 기반 동적 시스템 발견(Data-driven Discovery of Dynamical Systems) 방법론은 복잡한 생물학적 프로세스를 모델링하는 데 활용됩니다. 이러한 화학언어 진화 기술들은 신약 개발, 물질 설계, 생명공학 분야에서 새로운 가능성을 제시하고 있습니다.
Multi-Hop Reasoning: Multi-Hop Reasoning은 화학 지능 및 벤치마킹 분야에서 복수의 추론 단계를 거쳐 복잡한 문제를 해결하는 능력을 의미합니다. 이는 단순한 단일 단계의 질의응답을 넘어 여러 정보를 연결하고 통합하여 심화된 분석을 수행하는 것을 요구합니다. [744] 자동 실험실(Self-Driving Laboratories)과 같은 시스템에서는 화학 및 재료과학 연구에 Multi-Hop Reasoning을 적용하여 실험 설계와 최적화를 자동화하고 있습니다. [508] 연구 도구로서의 대규모 언어 모델(LLMs as Research Tools) 활용 조사에서도 연구자들이 복잡한 과학적 질문에 답하기 위해 다단계 추론 능력이 필수적임을 보여줍니다. [064] Agentic AI 기반의 과학적 발견 조사 연구에서도 이러한 다중 추론 경로를 통해 약물 발견, 재료 개발 등 다양한 화학 분야의 도전 과제들을 해결하고 있습니다.
AI Chemistry Planning: AI 화학 계획(AI Chemistry Planning)은 인공지능 기술을 화학 분야에 적용하여 분자 설계, 합성 경로 예측, 화학 실험 최적화 등을 자동화하는 분야입니다. 대규모 언어 모델(Large Language Model, LLM)을 화학 도메인 지식과 결합하여 복잡한 화학 문제를 해결하는 방식이 주목받고 있으며, [210]에서는 화학 전문 도구를 활용한 LLM 증강 시스템을 제시하고 있습니다. 특히 역합성 계획(Retrosynthesis Planning)은 목표 분자로부터 출발 물질까지의 합성 경로를 역으로 추론하는 중요한 과제로, [461]에서 인간 수준의 제약 조건 기반 역합성 계획 방법론을 다루고 있습니다. 과학 발견 벤치마크(Scientific Discovery Benchmarking) [669]와 같이 LLM의 화학 계획 능력을 체계적으로 평가하는 연구도 진행되고 있어, AI 기술이 화학 연구의 효율성과 혁신성을 크게 향상시킬 수 있음을 보여줍니다.
Retrosynthesis Planning: 역합성 계획(Retrosynthesis Planning)은 목표 분자로부터 출발물질까지의 합성 경로를 역으로 추적하는 화학 인공지능의 핵심 분야입니다. 최근 대규모 언어 모델(Large Language Model, LLM)을 활용한 접근 방식들이 과학 방정식 발견과 화학 반응 예측 성능을 획기적으로 향상시키고 있습니다 [504][316]. 차트 이해 및 지시 학습(Instruction Tuning) 기법의 도입으로 모델의 복잡한 화학 정보 처리 능력이 강화되었으며, MapReduce 기반의 엔트로피 주도 전략(Entropy-Driven Strategy)이 추론 정확도를 개선하고 있습니다 [199][495]. 또한 원자 단위 특징 추출부터 작업 수준까지 통합적으로 매칭하는 범용 접근법(Universal Matching)은 소수 샘플 학습(Few-shot Learning) 환경에서도 우수한 성능을 보여주고 있습니다 [856]. 이러한 기술들의 발전은 신약 개발과 화학 산업의 효율성 향상에 직접적인 기여를 하고 있습니다.
Working Memory Benchmarks: 워킹 메모리 벤치마크(Working Memory Benchmarks)는 대규모 언어모델(Large Language Models, LLM)이 복잡한 작업을 수행할 때 정보를 효과적으로 관리하고 활용할 수 있는 능력을 평가하는 중요한 지표입니다. [412]에서 제시된 계층적 워킹 메모리 관리(Hierarchical Working Memory Management) 방식은 에이전트(Agent) 시스템이 다단계 문제 해결 과정에서 관련 정보를 우선순위에 따라 처리할 수 있도록 합니다. [016]의 AutoML 도구 평가와 같은 실무적 벤치마크들은 모델의 메모리 활용 효율성과 작업 성능의 상관관계를 실증적으로 검증합니다. 또한 [494]의 과학적 창의성 평가(Scientific Creativity and Ideation) 벤치마크는 워킹 메모리가 단순한 정보 보유를 넘어 새로운 아이디어 생성에도 영향을 미친다는 점을 시사합니다. 이러한 벤치마크들은 LLM의 인지 능력(Cognitive Abilities)을 다각적으로 평가하는 데 필수적인 역할을 합니다.

Cognitive Cell Modeling 18 ▶

#177 2025.09 4/5

Discovery of Unstable Singularities

저자: Yongji Wang, Mehdi Bennani, James Martens, Sébastien Racanière, Sam Blackwell, Alex Matthews, Stanislav Nikolov, Gonzalo Cao-Labora, Daniel S. Park, Martin Arjovsky, Daniel Worrall, Chongli Qin, Ferran Alet, Borislav Kozlovskii, Nenad Tomašev, Alex Davies, Pushmeet Kohli, Tristan Buckmaster, Bogdan Georgiev, Javier Gómez-Serrano, Ray Jiang, Ching-Yao Lai | 날짜: 2025.09 | DOI: 10.48550/arXiv.2509.14185

그림 1: 고정밀 자기유사해(Self-similar solution) 발견을 위한 연구 방법론. (a) 해의 발견: PINN과 Gauss-Newton 최적화기를 이용한 다단계 학습으로 자기유사 스케일링 계수 λ를 찾음. (b) 해의 분석: 선형화된 PDE의 안정성 분석을 통해 불안정 모드 특성화.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 고정밀 자기유사해(Self-similar solution) 발견을 위한 연구 방법론. (a) 해의 발견: PINN과 Gauss-Newton 최적화기를 이용한 다단계 학습으로 자기유사 스케일링 계수 λ를 찾음. (b) 해의 분석: 선형화된 PDE의 안정성 분석을 통해 불안정 모드 특성화.* 기계학습과 고정밀 수치해석을 결합하여 **3D 오일러 방정식, 비압축성 다공질 매질 방정식, Boussinesq 방정식에서 처음으로 불안정 특이점(unstable singularities)의 체계적인 발견**을 보여주는 연구이다. 불안정 특이점은 무한 정밀도의 초기조건이 필요하며, 미량의 교란으로도 폭발 궤적에서 벗어나는 특수한 현상으로, 이전에는 안정 특이점만 수치적으로 발견되었다.

Evaluation

Overall: 4

불안정 특이점이라는 오랫동안 포착 불가능했던 수학적 현상을 고정밀 머신러닝과 수치해석의 결합으로 처음 발견하고 측정한 획기적 연구. 경계 조건 확장과 CAP 연계를 통해 밀레니엄 상 문제 해결의 구체적

#178 2025 4/5

Truly assessing fluid intelligence of large language models through dynamic reasoning evaluation

저자: Yue Yang, Mingkang Chen, Qihua Liu, Mengkang Hu, Qiguang Chen, Gengrui Zhang, Shuyue Hu, Guangtao Zhai, Yu Qiao, Yu Wang, Wenqi Shao, Ping Luo | 날짜: 2025

그림 1: (a) 숨겨진 잠재 규칙의 예시, (b) 기존 벤치마크와의 비교, (c) DRE-Bench의 LLM 지능 리더보드

Essence

![Figure 1](figures/fig1.webp) *그림 1: (a) 숨겨진 잠재 규칙의 예시, (b) 기존 벤치마크와의 비교, (c) DRE-Bench의 LLM 지능 리더보드* 본 논문은 대규모 언어모델(LLM)의 진정한 유동 지능(fluid intelligence)을 평가하기 위해 계층적 인지 프레임워크를 바탕으로 한 동적 추론 평가 벤치마크 **DRE-Bench**를 제안한다. 4가지 인지 수준(속성, 공간, 순차, 개념)의 36개 추상 추론 과제와 복잡도 변화를 포함한 약 4,000개의 사례를 통해 LLM의 규칙 일반화 능력을 체계적으로 측정한다.

Evaluation

Overall: 4

본 논문은 LLM의 진정한 유동 지능 평가를 위해 인지 심리학 기반의 계층적 구조와 동적 데이터 생성 엔진을 결합한 혁신적인 벤치마크를 제시한다. 광범위한 모델 평가를 통해 현재 LLM의 근본적인 한계를 명확히 규명했으며, 이는 향후 추론 능력 강화 연구의 객관적 기준점이 될 것으로 기대된다. 다만 평가 범위의 확장성과 실패 원인 분석의 깊이 측면에서 추가 개선의 여지가 있다.

#179 2025 4/5

Enhancing chart-to-code generation in multimodal large language models via iterative dual preference learning

저자: Zhihan Zhang, Yixin Cao, Lizi Liao | 날짜: 2025 | DOI: 10.1145/3746027.3755596

차트-to-코드 생성 작업의 예시로, 실행 가능성(Executability), 시각적 충실도(Visual Fidelity), 속성 정확도(Attributes Correctness) 등 다중 차원으로 평가됨

Essence

![Figure 1](figures/fig1.webp) *차트-to-코드 생성 작업의 예시로, 실행 가능성(Executability), 시각적 충실도(Visual Fidelity), 속성 정확도(Attributes Correctness) 등 다중 차원으로 평가됨* 차트 이미지를 실행 가능한 플로팅 코드로 변환하는 차트-to-코드 생성 작업에서, 다중모달 대규모 언어 모델(MLLM)의 성능을 향상시키기 위해 이중 모드(code + image) 보상 메커니즘과 반복적 선호도 학습을 결합한 프레임워크를 제시한다.

Evaluation

Overall: 4

차트-to-코드 생성의 본질적 이중성(코드 정확성 + 시각적 충실도)을 직접 반영한 이중 보상 메커니즘과 반복적 선호도 학습의 결합이 효과적이며, 범용 MLLM의 실질적 향상을 달성한 점이 주목할 만함. 다만 보상 함수의 휴리스틱 성격과 도메인 확장성에 대한 추가 검증이 필요함.

#180 2025.04 4/5

AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers

저자: Zijie Lin, Yiqing Shen, Qilin Cai, He Sun, Jinrui Zhou, Mingjun Xiao | 날짜: 2025.04

Essence

![Figure 1](figures/fig1.webp) *"Paper-to-Code" (P2C) 작업의 개요: 학술 논문의 다중모달 콘텐츠(텍스트, 이미지, 표)를 처리하여 완전히 실행 가능한 코드 저장소와 설명 다이어그램 생성* 학술 논문의 텍스트, 다이어그램, 표 등 다중모달 콘텐츠를 자동으로 처리하여 완전히 실행 가능한 코드 저장소를 생성하는 혁신적인 다중에이전트 LLM 프레임워크를 제시한다. 이는 기존의 단순 코드 스니펫 생성을 넘어 연구 논문 구현의 전체 자동화를 목표로 한다.

Evaluation

Overall: 4

AutoP2C는 학술 논문의 자동 코드화라는 실제적이고 중요한 문제를 다중모달 이해와 다중에이전트 협력으로 효과적으로 해결한 혁신적 연구이다. 기존 방법 대비 8배 우월한 성공률은 실무적 가치를 입증하나, 벤치마크 규모 확대와 복잡한 시나리오에 대한 검증이 필요하며, 반복적 디버깅 메커니즘의 이론적 보장도 강화되어야 한다.

#181 2025 4/5

CASSIA: a multi-agent large language model for reference free, interpretable, and automated cell annotation of single-cell RNA-sequencing data

저자: Elliot Xie, Lingxin Cheng, Jack M. Shireman, Yujia Cai, Jihua Liu | 날짜: 2025 | DOI: 10.1101/2024.12.04.626476

CASSIA의 다중 에이전트 LLM 시스템 구조. 온보딩 플랫폼을 통해 사용자 입력을 받고, Annotator, Validator, Formatter, Scorer, Reporter 에이전트가 순차적으로 작동하며, 선택적 에이전트들(Subclustering, Uncertainty Quantification, RAG)도 활용 가능

Essence

![Figure 1](figures/fig1.webp) *CASSIA의 다중 에이전트 LLM 시스템 구조. 온보딩 플랫폼을 통해 사용자 입력을 받고, Annotator, Validator, Formatter, Scorer, Reporter 에이전트가 순차적으로 작동하며, 선택적 에이전트들(Subclustering, Uncertainty Quantification, RAG)도 활용 가능* CASSIA는 단일세포 RNA-seq 데이터의 자동화된 세포주석(cell annotation)을 위한 다중 에이전트 대규모 언어모델(LLM) 시스템으로, 기존 방법보다 12-41% 높은 정확도를 달성하면서 해석 가능한 품질 점수와 불확실성 정량화를 제공한다.

Evaluation

Overall: 4

CASSIA는 다중 에이전트 LLM 시스템을 통해 세포주석의 정확도, 해석 가능성, 품질 평가를 동시에 달성한 혁신적 방법으로, 특히 복잡한 세포 집단과 비모델 생물종 분석에서 실질적 가치를 입증했으나, peer review 전 상태이고 계산 효율성 및 기술적 세부 사항에 대한 추가 검증이 필요하다.

#182 2026.02 4/5

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

저자: Dimitri Yatsenko, Thinh T. Nguyen (DataJoint Inc.) | 날짜: 2026.02 | DOI: 미제공

Essence

과학 데이터 파이프라인을 위한 운영 엄격성(operational rigor)이 AI 에이전트와 인간 협업의 성공을 결정하므로, DataJoint 2.0은 관계형 워크플로우 모델을 통해 데이터 구조, 계산 의존성, 무결성 제약을 단일 형식 시스템으로 통합하여 SciOps(과학 운영)의 기반을 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

DataJoint 2.0은 과학 데이터 관리와 AI 에이전트 협업의 근본적 문제를 관계형 패러다임의 창의적 확장으로 해결하는 충실한 논문이며, SciOps 개념 도입은 학제적 중요성이 높으나 실제 시스템의 대규모 검증과 AI 자동화 메커니즘의 심화가 필요하다.

#183 2025 4/5

Discovering symbolic differential equations with symmetry invariants

저자: Jianke Yang, M. A. Bhat, B. L. Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose Yu | 날짜: 2025 | DOI: 10.48550/arXiv.2505.12083

Essence

![Figure 1](figures/fig1.webp) *프레임워크는 대칭 불변량(symmetry invariants)을 사용하여 방정식 발견에서 대칭성을 강제한다. 원형 영역에서의 예측 함수는 불변량 사용 시 대칭 출력을 보장함을 시각화한다.* 데이터로부터 미분방정식을 발견할 때 물리법칙을 위반하는 복잡한 해를 얻는 문제를 해결하기 위해, 대칭 불변량(differential invariants)을 기본 단위로 사용하여 방정식 발견 알고리즘을 제약하는 일반적 프레임워크를 제안한다.

Evaluation

Overall: 4

본 논문은 대칭 불변량이라는 우아한 수학적 개념을 기호 회귀에 적용하여 물리적으로 타당한 방정식 발견을 효율적으로 달성하는 창의적인 방법을 제시하며, 다양한 기본 알고리즘과의 호환성과 실제 노이즈 조건에서의 강건성이 돋보인다. 다만 Lie 군 이론의 사전 지식 요구와 고차 미분 시스템에서의 확장성이 향후 개선 과제이다.

#184 2025 4/5

Multimodal deepresearcher: Generating text-chart interleaved reports from scratch with agentic framework

저자: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Luoxuan Weng, Yingchaojie Feng, Haozhe Feng, Minfeng Zhu, Bo Zhang, Wei Chen | 날짜: 2025 | DOI: 미공개

Figure 1: Multimodal DeepResearcher가 생성한 다양한 차트 예시 (면적도, 산키도, 대시보드, 수평막대그래프, 원형차트, 인포그래픽)

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Multimodal DeepResearcher의 프레임워크 - 4단계(조사, 예시 보고서 텍스트화, 계획, 멀티모달 보고서 생성)로 분해* 본 논문은 대규모 언어 모델(LLM)을 활용하여 텍스트와 차트가 유기적으로 통합된 멀티모달 보고서를 자동으로 생성하는 시스템을 제안한다. 핵심 혁신은 시각화를 구조화된 텍스트 표현(FDV: Formal Description of Visualization)으로 변환하여 LLM의 맥락 학습(in-context learning)을 가능하게 한 점이다.

Evaluation

Overall: 4

본 논문은 LLM 기반 멀티모달 보고서 자동 생성이라는 중요한 미충족 문제를 처음 체계적으로 다루었으며, FDV라는 창의적인 표현 방식과 4단계 에이전틱 프레임워크로 강력한 성능(82% 승률)을 달성했다. 다만 평가 데이터의 규모 확장과 더 다양한 모델에 대한 검증이 필요하다.

#185 2025 4/5

Scicueval: A comprehensive dataset for evaluating scientific context understanding in large language models

저자: Jing Yu, Yuqi Tang, Kehua Feng, Lei Liang, Qiang Zhang, Keyan Ding, Huajun Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2505.15094

SciCUEval은 5개 과학 도메인, 3가지 데이터 모달리티, 4가지 질문 유형을 포함하는 포괄적 벤치마크

Essence

![Figure 1: Overview of the SciCUEval dataset](figures/fig1.webp) *SciCUEval은 5개 과학 도메인, 3가지 데이터 모달리티, 4가지 질문 유형을 포함하는 포괄적 벤치마크* 본 논문은 대규모 언어모델(LLM)의 과학적 맥락 이해 능력을 평가하기 위한 포괄적 벤치마크 데이터셋 SciCUEval을 제안한다. 생물학, 화학, 물리학, 생의학, 재료과학 등 5개 도메인에 걸친 10개의 부분 데이터셋으로 구성되며, 비정형 텍스트, 구조화된 표, 지식 그래프 등 다양한 데이터 모달리티를 통합하여 LLM의 과학적 맥락 이해 능력을 체계적으로 평가한다.

Evaluation

Overall: 4

SciCUEval은 과학 도메인 LLM 평가의 중요한 공백을 체계적으로 해결하는 포괄적 벤치마크로, 다중 도메인-다중 모달리티 조합과 4가지 핵심 역량 평가 프레임워크는 매우 우수하다. 다만 데이터 생성 방법론의 투명성 강화, 멀티모달 처리에 대한 명확한 전략 제시, 그리고 벤치마크 활용을 통한 실제 과학 LLM 개선 효과 입증이 필요하다.

#186 2024 4/5

Tree-of-table: Unleashing the power of llms for enhanced large-scale table understanding

저자: Deyi Ji, Lanyun Zhu, Siqi Gao, Peng Xu, Hongtao Lu, Jieping Ye, Feng Zhao | 날짜: 2024

그림 1: (a) 일반적 추론, (b) Chain-of-Table, (c) 제안된 Tree-of-Table 방법의 비교. Tree-of-Table은 대규모 관계형 테이블에 대해 계층적이고 구조화된 추론 프로세스를 통해 우수한 성능을 보여줌

Essence

![Figure 1](figures/fig1.webp) *그림 1: (a) 일반적 추론, (b) Chain-of-Table, (c) 제안된 Tree-of-Table 방법의 비교. Tree-of-Table은 대규모 관계형 테이블에 대해 계층적이고 구조화된 추론 프로세스를 통해 우수한 성능을 보여줌* 대규모 테이블 이해를 위해 테이블 응축 및 분해를 통해 관련 정보를 추출한 후, 계층적 Table-Tree를 구성하여 트리 구조 추론을 수행하는 새로운 방법론을 제시한다. 이는 기존의 선형 체인 기반 방식의 한계를 극복하고 복잡한 다중 테이블 관계를 효과적으로 처리한다.

Evaluation

Overall: 4

Tree-of-Table은 대규모 테이블 이해라는 중요한 실무 문제에 대해 트리 구조 추론을 통한 창의적인 해결책을 제시하며, 다양한 벤치마크에서 입증된 성능으로 충분한 기여가 있다. 다만 구체적인 알고리즘 설명과 계산 비용 분석이 보강되면 더욱 완성도 높은 연구가 될 것으로 판단된다.

#187 2025 4/5

Bridging social psychology and llm reasoning: Conflict-aware meta-review generation via cognitive alignment

저자: Wei Chen, Han Ding, Meng Yuan, Zhao Zhang, Deqing Wang, Fuzhen Zhuang | 날짜: 2025 | DOI: arXiv:2503.13879

그림 1: 인간의 메타-리뷰 작성에서 "빠른 사고"와 "느린 사고" 과정

Essence

![Figure 1](figures/fig1.webp) *그림 1: 인간의 메타-리뷰 작성에서 "빠른 사고"와 "느린 사고" 과정* 학술 동료심사 시스템의 메타-리뷰(종합의견) 자동생성을 위해 Kahneman의 이원인지이론(dual-process theory)을 LLM에 적용한 인지정렬프레임워크(CAF)를 제안하며, 기존 LLM 방식의 앵커링 효과(anchoring effect)와 동조편향(conformity bias)을 정량화하고 완화한다.

Evaluation

Overall: 4

사회심리학의 이원인지이론을 학술 메타-리뷰 생성이라는 실무적 과제에 창의적으로 접목하고, 기존 LLM의 앵커링·동조편향을 최초로 정량화한 의미 있는 연구이나, 평가 규모 확대와 갈등 판정 기준의 수학적 정교화가 필요하다.

#188 2024 4/5

A deep subgrouping framework for precision drug repurposing via emulating clinical trials on real-world patient data

저자: Seungyeon Lee, Ruoqi Liu, Feixiong Cheng, Ping Zhang | 날짜: 2024

Figure 1: Flowchart of a deep subgrouping framework for

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Flowchart of a deep subgrouping framework for* STEDR은 환자 하위군의 이질적 치료 반응을 고려하여 실제 환자 데이터에서 임상시험을 모의실험하고 정밀 약물 재창출(precision drug repurposing)을 수행하는 딥러닝 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

STEDR은 약물 재창출 분야에 정밀 의약학 관점의 하위군 분석을 처음 통합하여 새로운 문제 정의를 제시하며, 이중 수준 주의와 VAE 기반 하위군 네트워크로 기술적 혁신을 이루었다. 800만+ 환자 대규모 데이터에서 14개 AD 약물 후보를 발굴하고 임상적 해석성을 확보한 점에서 강한 실무 가치를 보유하나, 관찰 데이터의 편향 문제와 다질환군 일반화 검증이 후속 과제이다.

#189 2025.04 4/5

A Perspective on Foundation Models in Chemistry

저자: Junyoung Choi, Gunwook Nam, Jaesik Choi, Yousung Jung | 날짜: 2025.04 | DOI: 10.1021/jacsau.4c01160

Figure 1. Overview of a foundation model in chemistry for property prediction, machine learning interatomic potentials,

Essence

![Figure 1](figures/fig1.webp) *Figure 1. Overview of a foundation model in chemistry for property prediction, machine learning interatomic potentials, * 화학 분야에서 대규모 사전학습 모델(Foundation Models)의 발전 현황을 검토하는 관점 논문으로, 분자 특성 예측, 기계학습 상호작용 포텐셜(MLIP), 역설계 등 다양한 화학 문제 해결에 파운데이션 모델의 적용 가능성을 종합적으로 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 관점 논문은 화학 분야의 파운데이션 모델 연구를 체계적으로 정리한 종합 검토로, 단일 도메인과 다중 도메인 모델의 명확한 구분, 네 가지 응용 영역별 상세 분석, 화학-특화 사전학습 기법 종합을 통해 학계와 산업계에 실질적 가이드를 제공한다. 다만 기술적 심화나 새로운 알고리즘 개발보다는 현황 정리에 중점을 두고 있으며, 향후 다중 도메인 통합 모델 개발과 물리적 제약 조건 통합이 주요 과제로 제시된다.

#190 2024 4/5

Augmenting the veracity and explanations of complex fact checking via iterative self-revision with llms

저자: Xiaocheng Zhang, Xi Wang, Yifei Lu, Jianing Wang, Zhuangzhuang Ye, Mengjiao Bao, Peng Yan, Xiaohong Su | 날짜: 2024 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *TrendFact의 수치 추론을 포함하는 사실 검증 예제: 故宮(자금성)의 나이에 관한 주장과 검증 과정* 본 논문은 중국어 기반의 첫 번째 포괄적 사실 검증 벤치마크인 **TrendFact**를 제시하며, 설명 생성 일관성(ECS)과 핫스팟 인식 능력(HPA)을 평가하는 새로운 메트릭을 도입한다. 추가적으로 동적 증거 증강과 영향도 점수 기반 반복적 자기 성찰을 결합한 **FactISR** 프레임워크를 제안하여 대형 언어 모델의 사실 검증 성능을 향상시킨다.

Evaluation

Overall: 4

TrendFact 벤치마크는 중국어 기반 사실 검증에서 설명 생성과 고영향도 사건 처리 능력 평가라는 새로운 차원을 추가하여 의미 있는 기여를 하지만, 제안된 FactISR 방법의 이론적 깊이가 부족하고 영어 기반 연구 커뮤니티와의 연계성이 제한적이라는 점은 개선이 필요하다.

#191 2024 4/5

Cultural evolution in populations of large language models

저자: J'érémyPerez, Corentin Léger, Marcela Ovando-Tellez, Chris Foulon, Joan Dussauld, Pierre-Yves Oudeyer, Clément Moulin-Frier | 날짜: 2024 | DOI: 2403.08882

LLM 에이전트들이 네트워크 구조로 조직되어 이웃 에이전트들과 이야기를 교환하며, 각 에이전트는 특정 성격과 프롬프트를 통해 이전 세대의 이야기들을 변환하여 새로운 이야기를 생성한다.

Essence

![Figure 1](figures/fig1.webp) *LLM 에이전트들이 네트워크 구조로 조직되어 이웃 에이전트들과 이야기를 교환하며, 각 에이전트는 특정 성격과 프롬프트를 통해 이전 세대의 이야기들을 변환하여 새로운 이야기를 생성한다.* 이 논문은 대규모 언어모델(LLM) 인구에서 문화진화를 시뮬레이션하는 프레임워크를 제안하며, 네트워크 구조, 성격, 정보 변환 방식 등 문화진화의 주요 변수들을 조작하면서 기계가 생성하는 문화의 역학을 탐구한다.

Evaluation

Overall: 4

이 논문은 문화진화 이론과 생성AI라는 두 분야를 창의적으로 연결하여 기계문화 시대의 새로운 연구 방향을 제시하는 의미 있는 작업이나, 실험적 검증과 대규모 시뮬레이션을 통한 심화가 필요하다.

#192 2024 4/5

Scimage: How good are multimodal large language models at scientific text-to-image generation? arXiv preprint arXiv:2412.02368, 2024.

저자: Leixin Zhang, Steffen Eger, Yinjie Cheng, Weihe Zhai, Jonas Belouadi, Christoph Leiter, Simone Paolo Ponzetto, Fahimeh Moafian, Zhixue Zhao | 날짜: 2024 | DOI: arXiv:2412.02368

Essence

![Figure 1](figures/fig1.webp) *과학적 텍스트-이미지 생성의 예시. 일반 이미지(좌측)와 달리 과학 이미지는 정확한 공간 배치, 수치 표현, 객체 속성의 정확성을 요구한다.* 본 논문은 멀티모달 대규모 언어모델(LLM)의 과학적 이미지 생성 능력을 평가하기 위한 ScImage 벤치마크를 제시한다. 5가지 모델(GPT-4o, Llama, AutomaTikZ, DALL-E, StableDiffusion)을 공간(spatial), 수치(numeric), 속성(attribute) 이해 차원에서 평가한 결과, 모든 모델이 특히 복합 프롬프트에서 상당한 어려움을 겪는 것으로 나타났다.

Evaluation

Overall: 4

본 논문은 과학 이미지 생성이라는 중요하면서도 미탐색된 영역에 처음으로 체계적이고 광범위한 벤치마크를 제시한 점에서 가치있는 기여이다. 특히 현재의 멀티모달 LLM들이 복잡한 과학 이미지 생성에서 여전히 상당한 어려움을 겪고 있음을 명확히 보여줌으로써, 향후 연구의 방향성을 제시한다는 점에서 의미있다. 다만 인간 평가 규모 확대와 더 광범위한 과학 도메인 포함을 통한 벤치마크 보강이 필요할 것으로 보인다.

#193 2024 3/5

Litllm: A toolkit for scientific literature review

저자: Shubham Agarwal, Gaurav Sahu, Abhay Puri, Issam H. Laradji, Krishnamurthy DJ Dvijotham, Jason Stanley, Laurent Charlin, Christopher Pal | 날짜: 2024

LitLLM 인터페이스: 사용자 제공 초록을 기반으로 Retrieval Augmented Generation(RAG) 원칙을 적용하여 문헌 리뷰를 생성하는 시스템

Essence

![Figure 1](figures/fig1.webp) *LitLLM 인터페이스: 사용자 제공 초록을 기반으로 Retrieval Augmented Generation(RAG) 원칙을 적용하여 문헌 리뷰를 생성하는 시스템* LitLLM은 대규모 언어모델(LLM)과 검색 증강 생성(RAG) 기술을 결합하여 과학 논문의 관련 연구(Related Work) 섹션 작성을 자동화하는 대화형 도구이다. 시스템은 사용자 제공 초록으로부터 키워드 추출, 논문 검색 및 재순위화, 문헌 리뷰 생성의 모듈화된 파이프라인을 통해 환각(hallucination) 문제를 해결한다.

Evaluation

Overall: 3

LitLLM은 과학 문헌 리뷰 작성을 위한 실용적이고 잘 설계된 도구로, RAG 원칙을 통해 LLM의 환각 문제를 효과적으로 해결하고 모듈화된 파이프라인으로 체계적인 접근을 제시한다. 다만 개별 모듈의 성능 평가(특히 재순위화 정확도)와 생성 결과의 품질 검증이 부재하여, 학술적 엄밀성과 실제 유용성을 입증하기 위해서는 정량적 평가 및 사용자 연구가 필요하다.

#194 2026 N/A

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

저자: Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach | 날짜: 2026 | DOI: 10.48550/ARXIV.2602.06855

그림 1: AIRS-Bench 작업 예시. 각 작업은 {문제, 데이터셋, 메트릭} 삼중쌍으로 명시되며, 에이전트는 전체 작업 명세를 받고 테스트 레이블 파일에 대한 예측을 생성하는 솔루션을 개발한다.

Essence

LLM 기반 AI 연구 에이전트의 종합적 성능을 평가하기 위해, 최신 머신러닝 논문에서 추출한 20개의 다양한 작업으로 구성된 표준화된 벤치마크 AIRS-Bench를 제시한다. 본 벤치마크는 아이디어 생성부터 실험 분석 및 반복적 개선에 이르는 완전한 연구 생명주기를 평가하며, 현재 프론티어 LLM 모델들은 4개 작업에서만 인간 수준의 최고 성능(SOTA)을 초과하고 대부분의 작업에서 여전히 개선 여지가 있음을 보여준다.

Chemical Language Evolution 11 ▶

#195 2025 4/5

Genome modeling and design across all domains of life with Evo 2

저자: G. Brixi, Matthew G. Durrant, Jerome Ku, Michael Poli, Greg Brockman | 날짜: 2025 | DOI: 10.1101/2025.02.18.638918

그림 1: 원핵생물 생명에 걸친 게놈 파운데이션 모델 사전학습. (A) 단일 뉴클레오타이드 해상도의 게놈 수열 모델은 규제 DNA 및 중심 원리의 다른 양식(단백질, 코딩 RNA, 논코딩 RNA) 내의 모든 정보를 학습할 수 있음. (B) StripedHyena는 장문 수열용 심층 신호 처리 아키텍처. (C) 박테리아 및 바이러스 게놈으로 사전학습된 70억 파라미터 Evo 모델.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 원핵생물 생명에 걸친 게놈 파운데이션 모델 사전학습. (A) 단일 뉴클레오타이드 해상도의 게놈 수열 모델은 규제 DNA 및 중심 원리의 다른 양식(단백질, 코딩 RNA, 논코딩 RNA) 내의 모든 정보를 학습할 수 있음. (B) StripedHyena는 장문 수열용 심층 신호 처리 아키텍처. (C) 박테리아 및 바이러스 게놈으로 사전학습된 70억 파라미터 Evo 모델.* Evo는 131 킬로베이스(kb) 문맥 길이를 가진 70억 파라미터 게놈 파운데이션 모델로, 단일 뉴클레오타이드 해상도에서 분자 규모부터 전체 게놈 규모까지 DNA 수열의 예측 및 생성을 가능하게 한다. StripedHyena 아키텍처를 기반으로 하여 기존 방법보다 수백 배 긴 650 kb 길이의 코딩 수열을 생성할 수 있다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

Evo는 깊은 신호 처리 기반 아키텍처를 활용하여 DNA 수열 모델링의 확장성 문제를 혁신적으로 해결하고, 최초로 다중-양식·다중-스케일의 통합 게놈 파운데이션 모델을 제시함으로써 합성생물학과 게놈 공학 분야에 패러다임 전환을 기대하게 한다. 다만 생성 수열의 생물학적 타당성 검증과 진핵생물으로의 확장이 향후 실용화의 핵심 과제이다.

#196 2026.03 4/5

SEVerA: Verified Synthesis of Self-Evolving Agents

저자: Debangshu Banerjee, Changming Xu, Gagandeep Singh | 날짜: 2026.03

Essence

자기 진화하는 LLM 에이전트의 합성에 형식적 안전성 보증을 제공하는 프레임워크이다. FGGM(Formally Guarded Generative Models)을 통해 각 모델 호출에 형식적 계약을 지정하고, 검증-학습 단계를 분리하여 제약 조건 위반 없이 성능 개선을 달성한다.

Evaluation

Overall: 4

SEVerA는 자기 진화 LLM 에이전트에 형식적 안전성을 부여하는 선도적 작업으로, FGGM이라는 우아한 추상화와 Sound한 이론적 기초를 제공한다. 실험 결과도 제약 조건이 단순한 안전장치를 넘어 합성 품질을 향상시킴을 보여주는 점에서 의미 있으나, 검증 가능 언어 의존성과 계약 표현의 한계가 일반화 가능성을 제약한다.

#197 2025 4/5

CodePDE: An Inference Framework for LLM-driven PDE Solver Generation

저자: Shanda Li, Tanya Marwah, Junhong Shen, Weiwei Sun, Andrej Risteski | 날짜: 2025 | DOI: 10.48550/arXiv.2505.08783

CodePDE의 5단계 파이프라인: 작업 명세 → 코드 생성 → 디버깅 → 평가 → 해결자 개선

Essence

![Figure 1: CodePDE 프레임워크 개요](figures/fig1.webp) *CodePDE의 5단계 파이프라인: 작업 명세 → 코드 생성 → 디버깅 → 평가 → 해결자 개선* **핵심**: PDE(편미분방정식) 해석을 코드 생성 문제로 재정의하고, LLM(대형언어모델)의 추론 시간 알고리즘과 스케일링 전략을 활용하여 자동으로 수치 해석 솔버를 생성하는 첫 번째 프레임워크. 디버깅, 자체 개선, 테스트 타임 스케일링 메커니즘을 통해 단순 프롬프팅 대비 성능을 크게 향상시킴.

Evaluation

Overall: 4

CodePDE는 대형언어모델이 과학 컴퓨팅, 특히 PDE 해석 분야에서 어떤 기여를 할 수 있는지를 체계적으로 탐색한 의미 있는 연구. 자동 디버깅과 반복 개선이 LLM 기반 솔버 생성의 핵심 성공 요인임을 실증적으로 입증했고, 다양한 모델 간 특성 차이를 분석한 점이 주요 기여. 다만 고차원, 극도로 복잡한 PDE, 물리 제약 조건 명시 등에서의 확장성 검증이 필요하며, 전통적 수치 해석 소프트웨어와의 실무 수준 비교 심화가 향후 과제. 학술적 가치와 실용성을 모두 갖춘 중요한 논문.

#198 2024 4/5

Sequence modeling and design from molecular to genome scale with Evo

저자: Eric Nguyen, Michael Poli, Matthew G. Durrant, Armin W. Thomas, Brian Kang 외 | 날짜: 2024 | DOI: 10.1101/2024.02.27.582234

Essence

Evo는 131 kilobase의 매우 긴 문맥길이(context length)를 가진 70억 파라미터의 게놈 기초 모델(genomic foundation model)로, 단일 뉴클레오타이드 해상도에서 DNA 서열을 예측하고 생성할 수 있다. StripedHyena 아키텍처를 기반으로 270만 개의 원핵생물 및 박테리오파지 게놈으로 학습하여 분자 규모에서 게놈 규모까지 다양한 생물학적 예측 및 생성 작업을 수행한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Evo는 게놈 수준의 장문맥 시퀀스 모델링과 생성에서 획기적인 진전을 이루었으며, DNA 스케일링 법칙 제시와 다중 분자 복합체 생성 능력은 합성생물학 분야에 새로운 가능성을 열었다. 다만 생성된 서열의 실생물 검증과 더 광범위한 생물체로의 확장이 필요하다.

#199 2024 4/5

Developing ChemDFM as a large language foundation model for chemistry

저자: Zihan Zhao, Da Ma, Lu Chen, Liangtai Sun, Zihao Li | 날짜: 2024 | DOI: 10.1016/j.xcrp.2025.102523

화학 분야 LLM 개발을 위한 일반 영역 LLM에 화학 도메인 지식을 통합하는 개념도

Essence

![Figure 1](figures/fig1.webp) *화학 분야 LLM 개발을 위한 일반 영역 LLM에 화학 도메인 지식을 통합하는 개념도* 화학 분야의 다양한 작업을 처리할 수 있는 대규모 언어 모델 ChemDFM을 개발했으며, GPT-4를 능가하는 성능을 달성하면서도 화학 분야의 자유로운 대화형 AI 조수 역할을 수행할 수 있다.

Evaluation

Overall: 4

ChemDFM은 화학 분야의 LLM 개발에 있어 중요한 이정표를 세우며, 광범위한 화학 지식 통합과 우수한 실증 성능을 통해 AI 화학자의 실현 가능성을 보여준다. 다만, 분자 표현의 다양성 확대와 멀티모달 확장 등의 후속 개선이 필요하다.

#200 2024 4/5

LLMs can realize combinatorial creativity: generating creative ideas via LLMs for scientific research

저자: Tianyang Gu, Jingjin Wang, Zhihao Zhang, HaoHong Li | 날짜: 2024 | DOI: arXiv:2412.14141v2

그림 1: 조합적 창의성 에이전트 핵심 구조

Essence

본 논문은 대규모 언어모델(LLM)이 Boden의 조합적 창의성(combinatorial creativity) 이론에 기반하여 과학 아이디어를 생성할 수 있음을 보여준다. 일반화 수준의 검색 시스템과 구조화된 조합 프로세스를 통해 LLM이 이론적으로 근거 있는 창의적 아이디어 생성을 실현할 수 있음을 실증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 아이디어 생성에 창의성 이론을 의도적으로 적용한 점에서 이론과 실제의 간극을 좁히는 의미 있는 기여를 하고 있으나, 평가 방법론의 제약과 실제 과학적 임팩트 검증 부족이 한계이다. 향후 다중 도메인 검증과 미래 가치 판단 메커니즘의 개발이 논문의 영향력을 더욱 높일 수 있을 것으로 예상된다.

#201 2024 4/5

Nova: An iterative planning and search approach to enhance novelty and diversity of llm generated ideas

저자: Xiang Hu, Hongyu Fu, Jinge Wang, Yifeng Wang, Zhikun Li, Renjun Xu, Yu Lu, Yaochu Jin, Lu Pan, Zhenzhong Lan | 날짜: 2024

좌측: 다른 최신 기법들과의 성능 비교. 우측: 반복 단계별 생성된 고유한 새로운 아이디어의 수 증가 추이

Essence

![Figure 1](figures/fig1.webp) *좌측: 다른 최신 기법들과의 성능 비교. 우측: 반복 단계별 생성된 고유한 새로운 아이디어의 수 증가 추이* LLM의 연구 아이디어 생성 능력을 향상시키기 위해 반복적인 계획 수립과 지식 검색을 결합한 Nova 프레임워크를 제안한다. 이 방법은 기존 접근법 대비 새로운 아이디어 생성을 3.4배, 상위 평가 아이디어를 2.5배 이상 증가시킨다.

Evaluation

Overall: 4

Nova는 반복적 계획과 목표 지향적 지식 검색을 결합하여 LLM 기반 아이디어 생성의 새로움과 다양성을 크게 향상시키는 실질적으로 효과적인 방법론이다. 다만 평가 범위의 제한, 계산 비용, 그리고 타 분야에서의 일반화 가능성 검증이 필요하다.

#202 2026.03 4/5

LLM-ODE: Data-driven Discovery of Dynamical Systems with Large Language Models

저자: Amirmohammad Ziaei Bideh, Jonathan Gryak | 날짜: 2026.03 | DOI: 미제공

LLM-ODE의 개요: (1) 관찰된 궤적 데이터를 상태변수로 분해, (2) LLM이 진화 연산자로 작용하여 기호 방정식 모집단 진화 유도, (3) 방정식 수준 파레토 프론트의 카르테시안 곱에서 최종 시스템 선택

Essence

![Figure 1](figures/fig1.webp) *LLM-ODE의 개요: (1) 관찰된 궤적 데이터를 상태변수로 분해, (2) LLM이 진화 연산자로 작용하여 기호 방정식 모집단 진화 유도, (3) 방정식 수준 파레토 프론트의 카르테시안 곱에서 최종 시스템 선택* 본 논문은 대규모 언어모델(LLM)을 유전 프로그래밍(GP)에 통합하여 동역학 시스템의 지배 방정식 발견을 가속화하는 LLM-ODE 프레임워크를 제안한다. 기호 표현의 광대한 탐색 공간을 효율적으로 탐색하기 위해 LLM의 생성 능력을 진화 연산자로 활용한다.

Evaluation

Overall: 4

LLM-ODE는 대규모 언어모델의 생성 능력을 유전 프로그래밍의 진화 연산자로 창의적으로 활용하여 기호 회귀의 효율성과 확장성을 실질적으로 개선한 강력한 작업이다. 다만 이론적 분석 강화, 실제 데이터 검증, 계산 비용 평가를 통해 실용적 영향력을 더욱 입증할 필요가 있다.

#203 2025 4/5

MLDebugging: Towards benchmarking code debugging across multi-library scenarios

저자: Jinyang Huang, Xiachong Feng, Qiguang Chen, Hanzhang Zhao, Zheng Cheng, Jie Bai, Jingxuan Zhou, Min Li, L. Q. Qin | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *다중 라이브러리 코드 디버깅의 예시: (a) 단순 정적 버그 vs (b) 라이브러리 간 변수 적응 문제* 본 논문은 실제 소프트웨어 개발 환경에서 흔히 나타나는 **다중 라이브러리 시나리오에서의 코드 디버깅**을 체계적으로 평가하기 위한 MLDebugging 벤치마크를 제시한다. 126개의 Python 라이브러리를 포함하고 7가지 버그 유형으로 분류된 1,175개의 샘플로 구성되어 있다.

Evaluation

Overall: 4

MLDebugging은 코드 디버깅 연구의 중요한 공백인 다중 라이브러리 시나리오를 처음으로 체계적으로 다루는 실질적인 기여를 한다. 엄격한 데이터 수집 및 품질 관리 프로세스와 포괄적인 LLM 평가를 통해 이 분야의 토대를 마련했으나, 언어 제한, 샘플 규모, 버그 현실성 검증 측면에서 개선 여지가 있다.

#204 2025 4/5

scAgent: Universal Single-Cell Annotation via a LLM Agent

저자: Yuren Mao, Yu Mi, Peigen Liu, Mengfei Zhang, Hanqing Liu | 날짜: 2025 | DOI: 10.48550/arXiv.2504.04698

Essence

![Figure 1](figures/fig1.webp) *scAgent의 전체 프레임워크: (a) 다양한 사용자 쿼리에 대응하는 능력, (b) 계획 모듈의 구조, (c) 행동 공간의 구성, (d) 메모리 모듈의 정보* 대규모 언어 모델(LLM) 기반 에이전트를 활용한 범용 단일세포 주석(cell annotation) 프레임워크로, 조직 간 일반화, 신규 세포 타입 발견, 데이터 효율성을 동시에 달성한다. scAgent는 160개 세포 타입과 35개 조직에서 우수한 성능을 보여준다.

Evaluation

Overall: 4

scAgent는 LLM 기반 에이전트 아키텍처와 MoE-LoRA 플러그인을 결합하여 범용 세포 주석의 세 가지 과제(일반화, 신규 발견, 확장성)를 동시에 해결한 혁신적 접근법으로, 광범위한 실험적 검증을 통해 우수한 성능을 입증했다. 다만 LLM 계산 비용과 신규 세포 판별 기준의 생물학적 엄밀성에 대한 보완이 필요하다.

#205 2024 3/5

Large Language Model-Based Evolutionary Optimizer: Reasoning with elitism

저자: Shuvayan Brahmachary, S. Joshi, A. Panda, K. Koneripalli, A. Sagotra | 날짜: 2024 | DOI: 10.48550/arXiv.2403.02054

Essence

![Figure 4](figures/fig4.webp) *LEO 프레임워크의 구조적 개요* 대규모 언어모델(LLM)의 추론 능력을 활용하여 블랙박스 최적화 문제를 해결하는 LEO(Language-model-based Evolutionary Optimizer)라는 새로운 인구 기반 최적화 방법을 제안한다. 엘리티즘 기반의 탐색(exploration)과 개발(exploitation) 전략을 통해 LLM의 환각 현상을 완화하면서도 우수한 최적화 성능을 달성한다.

Evaluation

Overall: 3

본 논문은 LLM의 추론 능력을 체계적으로 최적화에 적용하려는 의미 있는 시도이며, 탐색-개발 이중 풀 구조를 통해 LLM 기반 최적화의 조기 수렴 문제를 실증적으로 해결한 점이 주요 기여이다. 다만 계산 비용, 신뢰성 평가 기준의 정량화, 다양한 LLM에 대한 검증 부족 등으로 인해 실무 적용 및 이론적 완성도에서 개선 여지가 있으며, 기존 최적화 방법 대비 명확한 우위 입증이 미흡하다.

AI Trustworthiness Benchmarking 19 ▶

#206 2026.02 4/5

Towards a Science of AI Agent Reliability

저자: Stephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan | 날짜: 2026.02 | DOI: 10.48550/arXiv.2602.16666

신뢰성 향상이 능력 향상보다 뒤처짐. 정확도는 꾸준히 상승하지만 신뢰성은 미미한 개선만 보임

Essence

![Figure 1](figures/fig1.webp) *신뢰성 향상이 능력 향상보다 뒤처짐. 정확도는 꾸준히 상승하지만 신뢰성은 미미한 개선만 보임* AI 에이전트(agents)의 실제 배포 환경에서 높은 정확도에도 불구하고 신뢰성 부족이 심각한 문제임을 보여주며, 안전-임계 엔지니어링(safety-critical engineering)의 원칙을 기반으로 일관성, 견고성, 예측가능성, 안전성의 4가지 차원으로 분해한 신뢰성 평가 메트릭 12개를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 AI 에이전트 평가의 근본적인 격차를 정확히 진단하고, 안전-임계 엔지니어링의 검증된 원칙을 적용하여 신뢰성의 다차원 프레임워크를 제시함으로써 이론과 실무 간의 괴리를 해소하는 데 중요한 기여를 한다. 특히 대규모 모델들의 실증적 신뢰성 프로필을 최초로 제공하고 정확도-신뢰성 괴리의 정량화는 향후 에이전트 개발의 우선순위 설정에 중요한 지침이 될 것으로 예상된다.

#207 2025 4/5

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

저자: M. Ferrag, N. Tihanyi, M. Debbah | 날짜: 2025 | DOI: 10.48550/arXiv.2504.19678

논문의 구조: LLM 벤치마크부터 AI 에이전트 프로토콜까지 포괄적 범주화

Essence

![Figure 1](figures/fig1.webp) *논문의 구조: LLM 벤치마크부터 AI 에이전트 프로토콜까지 포괄적 범주화* 본 논문은 2019년부터 2025년까지 개발된 약 60개의 LLM 및 자율 AI 에이전트(Autonomous AI Agents) 벤치마크를 체계적으로 통합하고, 2023-2025년 주요 에이전트 프레임워크와 실제 응용 사례를 종합적으로 리뷰한다. 특히 다중 에이전트 협력 프로토콜(Agent Communication Protocol, Model Context Protocol, Agent-to-Agent Protocol)을 조사하며 미래 연구 방향을 제시한다.

Evaluation

Overall: 4

본 논문은 LLM과 자율 AI 에이전트 분야의 빠른 기술 발전으로 인한 단편화 문제를 체계적인 분류체계, 종합적 비교 분석, 다양한 응용 사례를 통해 효과적으로 통합하는 중요한 리뷰 논문이다. 특히 다중 에이전트 협력 프로토콜 분석과 구체적 미래 연구 방향 제시가 학계와 산업계에 실질적 가치를 제공하나, 일부 전문 분야(보안, 멀티 에이전트 실패 분석)에서는 더욱 심화된 분석이 필요하다.

#208 2023 4/5

Large Language Models Cannot Self-Correct Reasoning Yet

저자: Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu | 날짜: 2023 | DOI: 10.48550/arXiv.2310.01798

Essence

대규모 언어 모델(LLM)들은 외부 피드백 없이 자신의 추론 오류를 자동으로 수정하지 못하며, 오히려 자기 수정(self-correction) 후 성능이 저하된다는 것을 실증적으로 증명한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 5 Overall: 4

이 논문은 LLM의 자기 수정 능력에 대한 기존 낙관적 주장들을 체계적으로 비판하고 실제 한계를 입증함으로써, 이 분야의 평가 기준을 높이고 향후 연구 방향을 재설정하는 중요한 기여를 한다. 특히 외부 피드백 없는 실제 조건에서의 성능 평가는 실용적 가치가 높다.

#209 2024 4/5

TrustLLM: Trustworthiness in Large Language Models

저자: Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang 외 40명 | 날짜: 2024 | DOI: 10.48550/arXiv.2401.05561

그림 1: TRUSTLLM에서 16개 LLM의 신뢰성 성능 순위카드

Essence

본 논문은 대규모 언어모델(Large Language Models, LLMs)의 신뢰성을 종합적으로 평가하기 위한 원칙 기반의 벤치마크 **TrustLLM**을 제시한다. 진실성, 안전성, 공정성, 견고성, 프라이버시, 기계윤리 등 6가지 핵심 차원에서 16개 주요 LLM을 평가하여 신뢰성의 다층적 특성을 규명한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 LLM 신뢰성에 대한 최초의 포괄적이고 원칙 기반의 벤치마크를 제시하여, AI 안전성과 신뢰성 연구에 중대한 기여를 한다. 8개 차원에 걸친 체계적 평가와 16개 모델에 대한 대규모 실증 연구는 큰 의미가 있으나, 평가 메트릭의 일부 주관성과 문화적 다양성 부족이 개선 과제이다. 오픈 액세스 제공으로 커뮤니티 기여 활성화 가능성이 높다.

#210 2022 4/5

A survey on table-and-text hybridqa: Concepts, methods, challenges and future directions

저자: Dingzirui Wang, Longxu Dou, Wanxiang Che | 날짜: 2022

Essence

![Figure 1](figures/fig1.webp) *HybridQA 과제의 종합 요약* 테이블과 텍스트 혼합 질의응답(Table-and-Text Hybrid Question Answering, HybridQA)은 이질적 데이터를 결합하여 답변을 생성하는 도전적인 NLP 과제이며, 본 논문은 현재까지의 벤치마크, 방법론, 핵심 과제, 향후 방향을 체계적으로 정리한 최초의 포괄적 설문이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

HybridQA 분야의 첫 포괄적 설문으로서 벤치마크·방법론·과제를 체계적으로 정리한 의미 있는 기여이나, 초기 LLM 시대의 급속한 방법론 발전을 충분히 반영하지 못한 점과 산업 적용 관점의 분석이 미흡한 것이 아쉬운 점이다.

#211 2025 4/5

Automatically evaluating the paper reviewing capability of large language models

저자: Hyungyu Shin, Jingyu Tang, Yoonjoo Lee, Nayoung Kim, Hyunseung Lim, Ji Yong Cho, Hwajung Hong, Moontae Lee, Juho Kim | 날짜: 2025 | DOI: arXiv:2502.17086

그림 1: LLM 리뷰 평가를 위한 포커스 레벨 평가 프레임워크. 사전정의된 패싯(facet)을 기반으로 포커스 분포를 계산하고 인간 리뷰어와 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1: LLM 리뷰 평가를 위한 포커스 레벨 평가 프레임워크. 사전정의된 패싯(facet)을 기반으로 포커스 분포를 계산하고 인간 리뷰어와 비교* 본 논문은 LLM이 생성한 학술지 리뷰의 신뢰성을 평가하기 위해 **포커스 레벨 평가 프레임워크**를 제안한다. 기존 표면적/내용적 평가와 달리, 리뷰가 문제점(problem), 방법(method), 실험(experiment) 등 다양한 측면을 얼마나 균형있게 다루는지를 분석하여 LLM 리뷰의 맹점(blind spots)을 체계적으로 드러낸다.

Evaluation

Overall: 4

본 논문은 LLM 생성 리뷰의 평가에 새로운 관점(포커스 레벨)을 도입하여 기존 평가의 맹점을 보완하고, 대규모 벤치마크 데이터셋을 공개함으로써 학술 출판의 질 향상에 실질적 기여를 한다. 다만 원인 규명과 개선 방법론이 후속 연구로 남겨있으며, 다른 분야로의 확장성 검증이 필요하다.

#212 2024 4/5

L-citeeval: Do longcontext models truly leverage context for responding? arXiv preprint arXiv:2410.02115, 2024.

저자: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang | 날짜: 2024 | DOI: 제공 안함

기존 장문맥 벤치마크(LongBench, Ruler, LongCite)와 L-CiteEval의 비교: 데이터 규모, 평가 방식, 작업 분포

Essence

![Figure 2](figures/fig2.webp) *L-CiteEval 벤치마크의 작업 형식 및 파이프라인: 장문 맥락이 주어졌을 때 모델이 답변과 함께 인용(citation)을 생성하도록 요구* 장문맥 언어모델(Long-Context Models, LCMs)이 실제로 주어진 맥락을 활용하여 응답하는지 평가하는 종합 벤치마크 L-CiteEval을 제시하며, 자동화된 평가를 통해 모델의 생성 품질뿐 아니라 인용 정확도(citation accuracy)를 동시에 측정한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

L-CiteEval은 LCM의 맥락 활용도를 자동화된 방식으로 평가하는 첫 대규모 벤치마크로서, 개폐형 모델 간의 현저한 차이를 정량적으로 입증했다는 점에서 중요한 기여를 한다. 다만 인용 청크 크기 설정, 인간 평가 검증, 작업 다양성 확대 측면에서 개선의 여지가 있으며, 자동 메트릭의 신뢰성 강화와 모델 개선 기법 개발이 향후 과제이다.

#213 2025 4/5

Mind the blind spots: A focus-level evaluation framework for llm reviews

저자: Hyungyu Shin, Jingyu Tang, Yoonjoo Lee, Nayoung Kim, Hyunseung Lim, Ji Yong Cho, Hwajung Hong, Moontae Lee, Ju-ho Kim | 날짜: 2025

그림 1: LLM 리뷰 평가를 위한 포커스 레벨 평가 프레임워크. 사전정의된 facet을 기반으로 포커스 분포를 계산하고 인간 리뷰와 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1: LLM 리뷰 평가를 위한 포커스 레벨 평가 프레임워크. 사전정의된 facet을 기반으로 포커스 분포를 계산하고 인간 리뷰와 비교* 본 논문은 LLM이 생성한 논문 리뷰가 인간 전문가와 동일한 비판적 측면(강점과 약점)에 주목하는지 평가하기 위한 **포커스 레벨 평가 프레임워크**를 제안한다. LLM 리뷰의 기술적 타당성 편향과 참신성 평가 간과라는 맹점을 정량적으로 드러낸다.

Evaluation

Overall: 4

본 논문은 피어 리뷰라는 사회적 중요성 높은 영역에서 LLM 리뷰의 포커스 분포 분석을 통해 체계적이고 해석 가능한 평가 프레임워크를 제공하며, 실제 데이터셋 공개와 함께 재현 가능성을 확보했다. 다만 다른 학문분야 일반화, 포커스 편향과 실제 리뷰 품질 저하 간의 인과성 입증, 그리고 개선된 LLM 학습 기법 제안으로의 발전이 필요하다.

#214 2025 4/5

PlanGenLLMs: A Modern Survey of LLM Planning Capabilities

저자: Hui Wei, Zihao Zhang, Shenghua He, Tian Xia, Shijia Pan | 날짜: 2025 | DOI: 10.48550/arXiv.2502.11221

Figure 1: LLM 계획 수립의 분류체계 - 6가지 핵심 성능 기준과 대표 기법들의 매핑

Essence

![Figure 1](figures/fig1.webp) *Figure 1: LLM 계획 수립의 분류체계 - 6가지 핵심 성능 기준과 대표 기법들의 매핑* 본 논문은 대규모 언어 모델(LLM)의 계획 수립(Planning) 능력에 대한 포괄적 조사 연구로, 초기 AI 계획 시스템의 평가 기준을 현대화하여 6가지 핵심 성능 지표를 통해 LLM 기반 계획 수립 시스템을 체계적으로 분석한다. 이를 통해 다양한 도메인에서 LLM 계획 시스템의 비교 평가 틀을 제공하고 향후 연구 방향을 제시한다.

Evaluation

Overall: 4

본 논문은 LLM 계획 수립 분야의 현황을 포괄적으로 정리한 중요한 조사 논문으로, 고전 AI 계획 평가 기준을 현대화하여 도메인 횡단적 비교 분석 틀을 제공한다. 다만 새로운 방법론 제안보다는 기존 연구의 체계적 분류에 중점을 두고 있으며, 표현력, 환각, 다중 에이전트 계획 등 미해결 문제들을 향후 연구 과제로 명확히 제시함으로써 학계의 관심을 유도하는 데 효과적이다.

#215 2025 4/5

RBF++: Quantifying and optimizing reasoning boundaries across measurable and unmeasurable capabilities for chain-of-thought reasoning

저자: Qiguang Chen, Libo Qin, Jinhao Liu, Yue Liao, Jiaqi Wang, Jingxuan Zhou, Wanxiang Che | 날짜: 2025 | DOI: arXiv:2505.13307

그림 1: 제안된 개념 개요 - (a) 추론 경계(RB), (b) 계측 가능한 시나리오에서 상한을 정량화하는 결합법칙, (c) 상수 가정 및 (d) 계측 불가능한 경계를 위한 경계 분할 메커니즘, (e) 최적화를 위한 RB 분류

Essence

![Figure 1](figures/fig1.webp) *그림 1: 제안된 개념 개요 - (a) 추론 경계(RB), (b) 계측 가능한 시나리오에서 상한을 정량화하는 결합법칙, (c) 상수 가정 및 (d) 계측 불가능한 경계를 위한 경계 분할 메커니즘, (e) 최적화를 위한 RB 분류* 본 논문은 **추론 경계 프레임워크++(RBF++)**를 제안하여 대형 언어 모델(LLM)의 체인-오브-씽크(CoT) 추론 능력의 한계를 정량화하고 최적화하는 방법론을 제시한다. 계측 가능한 능력과 계측 불가능한 능력(멀티모달 지각 등) 모두에 대해 체계적으로 추론 경계를 분석하고 최적화 전략을 도출한다.

Evaluation

Overall: 4

RBF++는 CoT 추론의 경계를 정량화하는 새로운 프레임워크로, 계측 가능한 영역과 불가능한 영역을 모두 다루려는 야심찬 시도이다. 광범위한 실증 검증과 실용적 최적화 방법(MARP++)을 제시한 점이 강점이나, 이론적 기초(특히 상수 가정)의 엄밀성과 보편성에 대해 추가적 논의가 필요하다.

#216 2025 4/5

Futuregen: Llm-rag approach to generate the future work of scientific article

저자: Ibrahim Al Azher, Venkata Devesh Reddy Seethi, Akhil Pandey Akella, Hamed Alhoori | 날짜: 2025

Essence

과학 논문의 미래 연구 방향(Future Work) 섹션을 자동으로 생성하기 위해 검색 증강 생성(RAG), LLM 피드백 메커니즘, LLM-as-a-judge 평가 프레임워크를 통합한 접근법을 제안한다. 이 연구는 ACL과 NeurIPS 논문 약 5,500편으로부터 미래 연구 방향을 자동 추출·생성하며, GPT-4o mini 기반 RAG 방식이 가장 우수한 성능을 달성함을 보여준다.

Evaluation

Overall: 4

이 논문은 미래 연구 방향 자동 생성이라는 미개척 영역에 대해 RAG, LLM 피드백, 다층 평가를 통합한 체계적인 접근법을 제시하며, 5,500여 편의 논문 데이터셋과 함께 공개하여 학술 공동체에 실질적 기여를 한다. 다만 단일 LLM 모델 중심의 실험과 학문 분야의 제한, 생성 결과의 실제 영향력 측정 부족이 제한 요소이나, 전반적으로 의미 있는 학술 기여를 제공하는 우수한 연구이다.

#217 2024 4/5

A practical review of mechanistic interpretability for transformer-based language models

저자: Daking Rai, Yilun Zhou, Shi Feng, Abulhair Saparov, Ziyu Yao | 날짜: 2024

Essence

![Figure 3](figures/fig3.webp) *Figure 3: Beginner’s roadmap to MI, designed to help newcomers quickly pick up the field. The MI study is* 트랜스포머 기반 언어모델의 내부 계산을 역공학하여 이해하는 기계적 해석가능성(Mechanistic Interpretability, MI)에 대한 종합 리뷰로, 초보자를 위한 실무 가이드를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 빠르게 성장하는 MI 분야에서 초보자부터 경험자까지 모두를 위한 실용적이고 포괄적인 가이드를 제공하며, 작업 중심의 분류체계와 구체적 워크플로우를 통해 해석가능성 연구의 새로운 표준을 제시한다. 현장 적용을 위한 실제 고려사항과 미래 방향을 함께 제시한 점에서 높은 가치를 지닌다.

#218 2024 4/5

Automated justification production for claim veracity in fact checking: A survey on architectures and approaches

저자: Islam Eldifrawi, Shengrui Wang, Amine Trabelsi | 날짜: 2024

일반적인 자동 팩트체킹(AFC) 파이프라인: 주장 검증성 탐지 → 증거 검색 및 선택 → 진위 판정 → 정당화 생성

Essence

![Figure 1](figures/fig1.webp) *일반적인 자동 팩트체킹(AFC) 파이프라인: 주장 검증성 탐지 → 증거 검색 및 선택 → 진위 판정 → 정당화 생성* 본 논문은 자동 팩트체킹 시스템에서 판정 결과를 설명하기 위한 **정당화(justification) 자동 생성**에 초점을 맞춘 종합 서베이로, 최근 트랜스포머와 대형언어모델(LLM) 발전에 따른 설명 가능한 팩트체킹의 진화를 체계적으로 분석하고 정당화 표준화를 위한 다차원 분류체계를 제시한다.

Evaluation

Overall: 4

이 서베이는 자동 팩트체킹의 설명 가능성 향상이라는 시의적절한 주제를 다면적 분류체계로 정리한 유용한 참고자료이나, 정장화 표준화의 구체적 기술적 진전과 실제 벤치마킹 결과 분석을 통해 더욱 강화될 수 있을 것으로 판단된다.

저자: Zhi Chen, Qiguang Chen, Libo Qin, Qipeng Guo, Haijun Lv, Yicheng Zou, Hang Yan, Kai Chen, Dahua Lin | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *기존 Self-Instruct 방식과 MIMG 프레임워크의 비교: 다중 홉 질문, 고품질, 다양성 측면에서의 개선* 장문맥(long context) 대규모언어모델(LLM) 훈련용 고품질 다중 홉(multi-hop) 지시어 조정 데이터셋 생성의 핵심 요소를 체계적으로 규명하고, 다중 에이전트 상호작용 기반의 데이터 합성 프레임워크(MIMG)를 제안하여 기존 방식의 35% 수준의 다중 홉 데이터를 85% 이상으로 개선했다.

Evaluation

Overall: 4

본 논문은 장문맥 다중 홉 지시어 데이터셋 생성의 핵심 요소를 체계적으로 규명하고, 다중 에이전트 상호작용 기반의 실용적 프레임워크를 제시하여 데이터 합성 분야에 의미 있는 기여를 한다. 광범위한 실증 실험과 인간 데이터 초과 성능이 가치 있으나, 프레임워크 복잡도와 계산 비용 측면의 실무적 제약이 보완되어야 할 것으로 판단된다.

#227 2024 4/5

What factors affect multimodal in-context learning? an in-depth exploration

저자: Libo Qin, Qiguang Chen, Hao Fei, Zhi Chen, Min Li, Wanxiang Che | 날짜: 2024 | DOI: 10.48550/arXiv.2410.20482

멀티모달 인-컨텍스트 학습의 세 가지 핵심 단계: 시연(demonstration) 검색, 순서 지정, 프롬프트 구성

Essence

![Figure 1](figures/fig1.webp) *멀티모달 인-컨텍스트 학습의 세 가지 핵심 단계: 시연(demonstration) 검색, 순서 지정, 프롬프트 구성* 본 논문은 시각 언어 모델(Vision LLM)에서 멀티모달 인-컨텍스트 학습(MM-ICL)의 성능을 결정하는 요소들을 체계적으로 분석합니다. 6개 모델과 20가지 전략을 통해 시연 검색, 순서 지정, 프롬프트 구성의 세 단계에서 성능에 영향을 미치는 핵심 요인들을 규명합니다.

Evaluation

Overall: 4

본 논문은 급속히 발전하는 MM-ICL 분야에서 성능을 결정하는 근본 요인들을 처음으로 체계적으로 규명한 중요한 기초 연구입니다. 특히 멀티모달 정렬의 병목 현상과 모달리티 순서의 중요성 등의 발견은 향후 시각 언어 모델 개발과 프롬프트 최적화 연구에 실질적 방향을 제시합니다. 다만 작업 범위 확대, 통계적 엄밀성 강화, 동적 최적화 방향 탐색을 통해 일반화 가능성을 높일 필요가 있습니다.

#228 2024.08 4/5

Self-Driving Laboratories for Chemistry and Materials Science

저자: Gary Tom, Stefan P. Schmid, Sterling G. Baird, Yang Cao, Kourosh Darvish, Han Hao, Stanley Lo, Sergio Pablo-García, Ella M. Rajaonson, Marta Skreta, Naruki Yoshikawa, Samantha Corapi, Gun Deniz Akkoc, Felix Strieth-Kalthoff, Martin Seifrid, Alán Aspuru-Guzik | 날짜: 2024.08 | DOI: 10.1021/acs.chemrev.4c00055

Essence

자율 실험실(Self-Driving Laboratories, SDL)은 실험 워크플로우의 자동화와 데이터 기반 의사결정을 결합하여 화학 및 재료 과학 연구의 속도를 획기적으로 가속화할 수 있는 기술이다. 이 종합 리뷰는 SDL의 현황, 기반 기술, 실제 응용 사례, 그리고 각 분야의 도전 과제를 체계적으로 분석한다.

Evaluation

Overall: 4

이 리뷰는 자율 실험실 기술의 현황을 종합적으로 분석한 권위 있는 문헌으로, 명확한 분류 체계와 다양한 실제 응용 사례를 통해 SDL 분야의 로드맵을 제시한다. 다만 Level 5 SDL의 미실현과 범용 시스템 개발의 과제는 향후 해결해야 할 중요한 기술적 난제를 시사한다.

#229 2023 4/5

Training socially aligned language models in simulated human society

저자: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi | 날짜: 2023 | DOI: arXiv:2305.16960

기존의 RLHF와 달리 Stable Alignment은 시뮬레이션된 사회적 상호작용을 통해 직접 언어모델을 정렬한다

Essence

![Figure 1](figures/fig1.webp) *기존의 RLHF와 달리 Stable Alignment은 시뮬레이션된 사회적 상호작용을 통해 직접 언어모델을 정렬한다* 본 논문은 시뮬레이션된 사회적 상호작용을 통해 언어모델을 사회적으로 정렬(socially aligned)시키는 새로운 학습 패러다임을 제시한다. 기존 감독 학습이나 보상 모델링의 한계를 극복하기 위해 다중 에이전트 시뮬레이션 환경(SANDBOX)에서 생성된 상호작용 데이터를 활용하여 보다 견고하고 확장 가능한 정렬 방법을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 기존의 감독 학습과 보상 모델링의 한계를 극복하기 위해 시뮬레이션된 사회적 상호작용을 활용하는 혁신적이고 실용적인 접근을 제시하며, 벤치마크와 적대적 공격에 대한 견고성에서 우수한 성능을 보여준다. 다만 시뮬레이션-현실 간극, 명시적 규칙 정의, 다문화적 일반화 측면에서 개선의 여지가 있다.

#230 2025 4/5

A comprehensive survey on long context language modeling

저자: Jiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Job Chen, Hangyu Guo, S. Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zongqing Zhou | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Taxonomy of Long Context Language Modeling.* 장문맥 언어모델(LCLM) 구축, 훈련, 배포, 평가를 위한 포괄적 조사로, 데이터 전략부터 인프라, 평가 패러다임, 응용 분야까지 체계적으로 정리한 대규모 서베이 논문.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

장문맥 언어모델의 전체 생명주기를 최초로 체계적으로 정리한 필수 참고 자료로, 데이터부터 배포까지 실무자에게 유용하며, 평가 신뢰성 문제 지적 등 비판적 통찰도 제공한다.

#231 2024.10 4/5

LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions

저자: Zhehui Liao, Maria Antoniak, Inyoung Cheong, Evie Yu-Yen Cheng, Ai-Heng Lee, Kyle Lo, Joseph Chee Chang, Amy X. Zhang | 날짜: 2024.10 | DOI: 10.48550/arXiv.2411.05025

Essence

대규모 검증된 논문 저자 816명을 대상으로 LLM(Large Language Model)의 연구 활용 현황과 인식을 조사한 첫 대규모 실증 연구로, 연구자의 인구통계학적 배경에 따른 사용 양식과 윤리 인식의 차이를 드러냈다.

Evaluation

Overall: 4

본 연구는 LLM의 학술 도입을 단순 기술 채택 문제가 아닌 연구 형평성 문제로 재프레임화하며, 816명의 검증된 저자를 조사한 첫 대규모 실증 자료를 제공한다. 인구통계학적 격차의 발견은 학술 공동체의 주목할 만한 성과이나, 자기 보고 편향과 인과성 규명 부재 등 방법론적 한계는 다음 단계 종단 또는 실험 설계 연구로 보완되어야 한다.

#232 2025.03 3/5

Agentic AI for Scientific Discovery: A Survey of Progress, Challenges, and Future Directions

저자: Mourad Gridach, Jay Nanavati, Khaldoun Zine El Abidine, Lenon Mendes, Christina Mack | 날짜: 2025.03

Essence

LLM(Large Language Model) 기반의 에이전틱 AI 시스템이 과학 연구의 자동화를 혁신하고 있으며, 본 논문은 화학, 생물학, 재료과학 등 다양한 분야에서의 진행 상황, 평가 지표, 구현 프레임워크, 그리고 극복해야 할 과제들을 종합적으로 검토한다.

Evaluation

Overall: 3

본 논문은 LLM 기반 에이전틱 AI의 과학 응용을 **체계적으로 정리한 중요한 서베이**로, 자율-협업 이분법을 통해 실용적 관점을 제공하나, 현실적 한계(문헌 검토 자동화, 신뢰성 보증)를 직시하고 있다. 다만 새로운 기술 혁신보다는 **기존 기술의 종합·분류** 성격이 강하므로, 추후 구체적 개선 방법론(예: 하이브리드 검색-생성 문헌 분석, 불확실성 정량화)이 필요한 상태이다.

Retrosynthesis Planning 5 ▶

#233 2025 4/5

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

저자: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy | 날짜: 2025 | DOI: arXiv:2504.10415v2

Figure 1. Feynman 문제와 LLM-SRBench 데이터셋(LSR-Transform, LSR-Synth)에서 단순 LLM 샘플링(Llama-3.1-8B)의 오차 분석. Feynman 문제에서 수치 오차 곡선의 급격한 하강과 낮은 기호 오차는 실제 발견보다 암기를 시사함.

Essence

![Figure 1](figures/fig1.webp) *Figure 1. Feynman 문제와 LLM-SRBench 데이터셋(LSR-Transform, LSR-Synth)에서 단순 LLM 샘플링(Llama-3.1-8B)의 오차 분석. Feynman 문제에서 수치 오차 곡선의 급격한 하강과 낮은 기호 오차는 실제 발견보다 암기를 시사함.* 본 논문은 대규모 언어 모델(LLM) 기반 과학 방정식 발견의 진정한 능력을 평가하기 위해 암기를 방지하는 종합적 벤치마크 LLM-SRBench를 제안한다. 4개 과학 분야에서 239개 도전 문제로 구성되어 있으며, 최고 성능 모델도 31.5% 기호 정확도에 불과함을 보여준다.

Evaluation

Overall: 4

LLM-SRBench는 과학 방정식 발견 분야에서 실질적 필요에 응하는 도전적이고 엄격한 벤치마크를 제공하며, 암기 방지 설계와 다중 도메인 커버리지가 장점이나, 합성 문제 생성의 자동화 및 기존 SR 방법과의 비교 확대가 후속 개선 과제이다.

#234 2024.03 4/5

ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning

저자: Ahmed Masry, Mehrad Shahmohammadi, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty | 날짜: 2024.03 | DOI: 10.48550/arXiv.2403.09028

다양한 차트 관련 작업 예시: 요약, 질문-답변, 팩트 체킹, 추론, 코딩 능력 등을 포함한 8가지 유형의 지시문 튜닝 작업

Essence

![Figure 1](figures/fig1.webp) *다양한 차트 관련 작업 예시: 요약, 질문-답변, 팩트 체킹, 추론, 코딩 능력 등을 포함한 8가지 유형의 지시문 튜닝 작업* 본 논문은 차트 이해와 추론을 위한 대규모 지시문 튜닝 데이터셋(191K 지시문, 71K 차트)을 제시하고, 차트 특화 비전-언어 모델(VLM)의 일반화 능력을 대폭 향상시키는 두 가지 시스템을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 차트 도메인에서 처음으로 대규모 지시문 튜닝 데이터셋을 구축하고 차트 특화 VLM을 개발하여 차트 이해의 일반화 능력을 획기적으로 향상시켰다는 점에서 중요한 기여를 하였으나, 자동 데이터 추출 오류, 제한된 모델 크기, 신규 작업 타당성 검증 부족 등이 개선할 점으로 남아 있다.

#235 2025 4/5

Enhancing chemical reaction and retrosynthesis prediction with large language model and dual-task learning

저자: Xuan Lin, Qingrui Liu, Hongxin Xiang, Daojian Zeng, Xiangxiang Zeng | 날짜: 2025 | DOI: arXiv:2505.02639

Essence

![Figure 1](figures/fig1.webp) *BRICS 기반 단편(fragment)과 반응물(reactant) 간의 유사성 분포(평균 66.5%) 및 이중 과제 학습을 통한 성능 향상(6.3% 개선)* 본 논문은 대규모 언어 모델(LLM)을 화학 반응 및 역합성 예측에 적용할 때 직면하는 데이터 부족과 과제 간 상관관계 무시 문제를 해결하기 위해, BRICS 기반 440만 개 분자 데이터셋과 이중 과제 학습 전략을 갖춘 ChemDual 프레임워크를 제안한다.

Evaluation

Overall: 4

ChemDual은 BRICS 기반 저비용 대규모 데이터셋과 화학적 직관에 기반한 이중 과제 학습으로 화학 반응/역합성 예측에서 의미 있는 성능 향상을 달성했으며, 약물 설계 응용 가능성을 실증했다. 다만 단편화 방법의 한계, 해석 가능성 부족, 평가 범위 확대의 필요성이 향후 개선 방향이다.

#236 2025 4/5

LLM × MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources

저자: Haoyu Wang, Yujia Fu, Zhu Zhang, Shuo Wang, Zirui Ren, Xiaorong Wang, Zhili Li, Chaoqun He, Bo An, Zhiyuan Liu, Maosong Sun (Tsinghua University 등) | 날짜: 2025 | DOI: arXiv:2504.05732

그림 1: 자원 활용에서 전통적인 추출적 방법(왼쪽)과 통합적 접근법(오른쪽)의 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1: 자원 활용에서 전통적인 추출적 방법(왼쪽)과 통합적 접근법(오른쪽)의 비교* 본 논문은 극도로 긴 입력 자원으로부터 장문 기사를 생성하는 LLM의 능력을 향상시키기 위해, 정보 병목 이론에 기반한 합성곱 신경망 영감의 테스트 타임 스케일링 방법을 제안한다. 추출적 방법의 한계를 극복하기 위해 자원을 통합적으로 활용하는 엔트로피 기반 최적화 프레임워크를 소개한다.

Evaluation

Overall: 4

본 논문은 정보 이론 기반의 견고한 분석과 실용적 파이프라인 설계를 통해 장문→장문 생성의 자원 활용 문제를 체계적으로 해결한 우수한 연구이다. SurveyEval 벤치마크의 구축과 32.9% 이상의 성능 향상은 실질적 가치가 있으나, 높은 계산 비용과 일부 설계 선택의 동기 부족이 실무 적용을 제한할 수 있다.

#237 2025 4/5

Unimatch: Universal matching from atom to task for few-shot drug discovery

저자: Ruifeng Li, Mingqian Li, Wei Liu, Yuhua Zhou, Xiangxin Zhou, Yuan Yao, Qiang Zhang, Hongyang Chen | 날짜: 2025 | DOI: 미제공

그림 1: 분자 구조의 다양한 수준이 서로 다른 특성에 영향을 미침: (a) 원자 수준에서 불소와 질소가 산성도와 염기성에 영향, (b) 부분구조 수준에서 하이드록실 그룹이 소수성에 영향, (c) 분자 수준에서 전체 구조가 끓는점에 영향

Essence

![Figure 1](figures/fig1.webp) *그림 1: 분자 구조의 다양한 수준이 서로 다른 특성에 영향을 미침: (a) 원자 수준에서 불소와 질소가 산성도와 염기성에 영향, (b) 부분구조 수준에서 하이드록실 그룹이 소수성에 영향, (c) 분자 수준에서 전체 구조가 끓는점에 영향* 본 논문은 원자(atom)에서 과제(task) 수준까지 계층적 매칭을 수행하는 UniMatch 모델을 제안하여, 분자의 다층적 구조 정보를 명시적으로 포착하고 메타러닝을 통해 과제 간 일반화를 달성함으로써 few-shot 약물 발견 문제를 해결한다.

Evaluation

Overall: 4

UniMatch는 분자의 다층적 구조 정보를 명시적으로 포착하고 메타러닝으로 과제 간 일반화를 달성하는 실용적이고 효과적인 프레임워크이며, 여러 벤치마크에서 기존 방법 대비 일관된 성능 향상을 보여줌. 다만 메타러닝 기법의 상세한 설명과 계산 효율성 분석이 보완되면 논문의 완성도가 더욱 높아질 것으로 예상됨.

Working Memory Benchmarks 4 ▶

#238 2024 4/5

Hiagent: Hierarchical working memory management for solving long-horizon agent tasks with large language model

저자: Mengkang Hu, Tianxing Chen, Qiguang Chen, Yi Mu, Wenqi Shao, Ping Luo | 날짜: 2024 | DOI: 미공개

표준 방식(STANDARD)과 HIAGENT의 비교: HIAGENT는 부분목표(subgoal)를 메모리 청크로 사용하여 작업 메모리를 계층적으로 관리하며, 다섯 개의 장기 수평 과제에서 성공률을 2배 증가시킴

Essence

![Figure 1](figures/fig1.webp) *표준 방식(STANDARD)과 HIAGENT의 비교: HIAGENT는 부분목표(subgoal)를 메모리 청크로 사용하여 작업 메모리를 계층적으로 관리하며, 다섯 개의 장기 수평 과제에서 성공률을 2배 증가시킴* 장기 수평 과제(long-horizon task)를 수행하는 대규모 언어 모델(LLM) 기반 에이전트의 작업 메모리(working memory)를 부분목표 기반의 계층적 구조로 관리하여, 컨텍스트 길이를 줄이면서 성공률을 획기적으로 향상시키는 방법론을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

HIAGENT는 인지과학의 청킹 원리를 LLM 에이전트에 효과적으로 적용하여 장기 과제에서 획기적인 성능 개선을 달성한 실용적이고 창의적인 연구이며, 특히 컨텍스트 길이 감소와 실행 시간 단축 측면에서 실무적 가치가 높다.

#239 2025.05 4/5

A practical evaluation of AutoML tools for binary, multiclass, and multilabel classification

저자: Marcelo V. C. Aragão, Augusto G. Afonso, Rafaela C. Ferraz, Rairon G. Ferreira, Sávio G. Leite, Felipe A. P. De Figueiredo, Samuel B. Mafra | 날짜: 2025.05 | DOI: 10.1038/s41598-025-02149-x

Essence

16개의 주요 AutoML 도구를 21개의 실제 데이터셋에서 이진, 다중클래스, 다중라벨 분류 작업으로 체계적으로 벤치마킹하여, 각 도구의 성능-효율성 트레이드오프를 분석한 종합 평가 연구이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 연구는 AutoML 도구 선택의 실무적 어려움을 해결하기 위해 세 분류 유형을 모두 포함한 최초의 체계적이고 통계적으로 엄격한 벤치마크를 제시하며, 재현 가능한 실험 프로토콜과 공개 코드를 통해 학술 및 산업계에 즉각적인 가치를 제공한다.

#240 2024 4/5

HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model

저자: Mengkang Hu, Tianxing Chen, Qiguang Chen, Yao Mu, Wenqi Shao, Ping Luo | 날짜: 2024 | DOI: arXiv:2408.09559

Essence

![Figure 1](figures/fig1.webp) *STANDARD 패러다임과 HiAgent의 작업 메모리 관리 비교* 대규모 언어 모델(LLM) 기반 에이전트의 장기 작업 수행을 위해, 인지과학의 청킹(chunking) 원리에 영감을 받아 **부분목표(subgoal)를 메모리 청크로 활용한 계층적 작업 메모리 관리 프레임워크**를 제시한다. 기존 방식의 모든 행동-관찰 쌍을 컨텍스트에 포함하는 방식을 개선하여 작업 메모리 중복성을 제거한다.

Evaluation

Overall: 4

인간의 인지 메커니즘에 영감을 받아 계층적 작업 메모리 관리로 LLM 에이전트의 장기 작업 성능을 실질적으로 향상시킨 실용적이고 효과적인 연구이다. 다만 부분목표 자동 생성과 요약 전략의 상세 기술화 및 더 광범위한 평가 확대가 필요하다.

#241 2024 4/5

Liveideabench: Evaluating llms' scientific creativity and idea generation with minimal context

저자: Kai Ruan, Xuan Wang, Jixiang Hong, Peng Wang, Yang Liu, Hao Sun | 날짜: 2024

LiveIdeaBench의 전체 설계: (a) 1,000개 이상의 과학 키워드를 사용한 발산적 사고 촉진, (b) 판정 LLM이 5가지 차원으로 평가, (c) 상위 10개 최첨단 모델로 구성된 동적 평가 패널, (d-f) Guilford 창의성 이론 기반 5가지 차원 평가 방법론

Essence

![Figure 1](figures/fig1.webp) *LiveIdeaBench의 전체 설계: (a) 1,000개 이상의 과학 키워드를 사용한 발산적 사고 촉진, (b) 판정 LLM이 5가지 차원으로 평가, (c) 상위 10개 최첨단 모델로 구성된 동적 평가 패널, (d-f) Guilford 창의성 이론 기반 5가지 차원 평가 방법론* 본 논문은 최소한의 맥락(단일 키워드)을 사용하여 대규모 언어모델(LLM)의 과학적 아이디어 생성 능력과 발산적 사고(divergent thinking) 능력을 평가하는 포괄적인 벤치마크 LiveIdeaBench를 제시한다. 40개 이상의 모델을 22개 과학 분야의 1,180개 키워드로 평가한 결과, 과학적 아이디어 생성 능력이 일반 지능 점수로 잘 예측되지 않음을 보여준다.

Evaluation

Overall: 4

LiveIdeaBench는 LLM의 과학적 창의성 평가에 새로운 관점을 제시하며, 일반 지능과 창의성의 독립성을 실증한 의미 있는 벤치마크다. 다만 평가의 최소 맥락화, 판정자 편향, 실제 과학 성과로의 연결 고리 등 여러 한계가 있어 추가 검증과 개선이 필요하다.

AI Chemistry Planning 7 ▶

#242 2025.07 4/5

Distinguishing Neutron Star vs. Low-Mass Black Hole Binaries with Postmerger Gravitational Waves — Sensitivity to Transmuted Black Holes and Non-Annihilating Dark Matter

저자: Sulagna Bhattacharya, Shasvath Kapadia, Basudeb Dasgupta | 날짜: 2025.07 | DOI: arXiv:2507.15951

Figure 1: 주파수에 따른 LMBH 쌍성계의 중력파 스트레인. 검사 질량 범위에서 다양한 총질량의 파형 비교.

Essence

![Figure 1: LMBH binary waveform](figures/fig1.webp) *Figure 1: 주파수에 따른 LMBH 쌍성계의 중력파 스트레인. 검사 질량 범위에서 다양한 총질량의 파형 비교.* 1-2 M☉ 범위의 저질량 컴팩트 천체 쌍성계 합병 신호가 중성자별(BNS) 인지 저질량 블랙홀(LMBH) 인지 구별하기 위해, 본 논문은 **후기 접근 및 합병 후 중력파 파형의 차이**를 이용한 구분 방법을 제시하고, 이를 통해 **비소멸 암흑물질(non-annihilating dark matter)의 제약 조건**을 도출한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 중력파 천문학과 암흑물질 탐색을 연결하는 우아한 연구로, **후기 검사 및 합병 후 파형**의 차이를 이용해 저질량 컴팩트 천체를 구분하고, 이를 통해 비소멸 암흑물질에 제약을 부과하는 혁신적 방법론을 제시한다. 미래 검출기의 향상된 민감도를 활용한 실용적 전망이 특히 강점이나, 현재 LIGO A+의 제한된 적용성과 동등질량 시스템 제한은 개선 여지가 있다.

#243 2023.04 4/5

ChemCrow: Augmenting large-language models with chemistry tools

저자: Andres M Bran, Sam Cox, Oliver Schilter, Carlo Baldassari, Andrew D White, Philippe Schwaller | 날짜: 2023.04

그림 1: ChemCrow의 개요 및 도구 집합. (a) 작업 해결 프로세스의 개요. (b) 구현된 18개의 도구 세트

Essence

![Figure 1](figures/fig1.webp) *그림 1: ChemCrow의 개요 및 도구 집합. (a) 작업 해결 프로세스의 개요. (b) 구현된 18개의 도구 세트* 대규모 언어 모델(LLM)에 18개의 화학 전문 도구를 통합하여 유기합성, 신약 개발, 재료 설계 등 다양한 화학 작업을 자율적으로 수행할 수 있는 ChemCrow 에이전트를 개발했다. GPT-4를 기반으로 하는 이 시스템은 Thought-Action-Observation 루프를 통해 화학 문제 해결에서 LLM의 고질적 한계를 극복한다.

Evaluation

Overall: 4

ChemCrow는 LLM을 화학 도구와 물리적 실험 플랫폼에 효과적으로 연결하여 자율 화학 합성과 신규 분자 발견을 실현한 획기적 연구다. 특히 실험 검증과 인간-AI 협력 사례는 설득력 있으나, LLM 평가자의 신뢰성 문제와 도구 집합의 제한성, 완전 자동화 달성의 미흡함은 향후 개선이 필요한 과제로 남는다.

#244 2025 4/5

LARC: Towards Human-level Constrained Retrosynthesis Planning through an Agentic Framework

저자: Frazier N. Baker, Daniel Adu-Ampratwum, Reza Averly, Botao Yu, Huan Sun | 날짜: 2025 | DOI: 10.48550/arXiv.2508.11860

Essence

![Figure 1: LARC 개요](figures/fig1.webp) *그림 1: LARC 프레임워크 개요. (a) 사용자 프롬프트로 목표 분자와 제약조건 지정, (b) EVALUATOR가 각 반응을 제약조건에 대해 평가, (c) 툴박스로 평가 근거화, (d) SYNTHESIZER가 피드백을 반영하여 경로 탐색, (e) 제약조건을 만족하는 합성 경로 출력* 본 논문은 대규모 언어 모델(LLM) 기반의 에이전트 프레임워크 LARC를 제안하여, 화학에서 발암물질 회피, 자연발화물질 제거 등 실질적인 제약조건 하에서 망원(retrosynthesis) 계획을 수행한다. LARC는 72.9%의 성공률을 달성하여 기존 LLM 기반 방법을 크게 상회하고 인간 전문가 수준에 접근한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 에이전트를 화학의 실질적 제약조건 망원 계획에 처음 적용한 의미 있는 연구로, Agent-as-a-Judge를 계획 루프 내부에 통합하는 설계가 창의적이며 72.9% 성공률로 높은 실효성을 입증한다. 다만 평가 데이터셋 규모가 제한적이고 도구 정확성 의존성, 제약유형 확장성, 비용 분석 부재 등이 보완되어야 산업 적용 가능성이 확보될 것으로 예상된다.

#245 2025 4/5

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

저자: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou | 날짜: 2025 | DOI: arXiv:2503.21248v2

영감 검색 프레임워크: 논문에서 추출된 잠재적 영감을 필요성 검증(Necessary Checker)과 충분성 검증(Sufficient Checker)을 거쳐 확정

Essence

본 논문은 과학적 발견 과정에서 LLM의 역량을 평가하기 위한 첫 번째 대규모 벤치마크 **ResearchBench**를 제시한다. 영감 검색(inspiration retrieval), 가설 구성(hypothesis composition), 가설 순위 결정(hypothesis ranking)의 세 가지 하위 작업으로 과학 발견 과정을 분해하고, 12개 분야의 1,386편 논문(2024년 발행)으로부터 자동 추출 프레임워크를 통해 벤치마크를 구축했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

**ResearchBench**는 과학 발견에서 LLM의 역량을 평가하는 **첫 번째 체계적이고 대규모의 벤치마크**로서, 영감 검색의 OOD 능력 발견과 자동 추출 프레임워크의 설계에서 상당한 원창성을 보유하고 있다. 다만, 추출 정확도의 한계, "영감"의 철학적 정의 부재, 생성 가설의 과학적 타당성 검증 부재 등이 미해결 과제로 남아 있으며, 이들이 해소될 경우 과학 발견 자동화 연구의 중요한 기반이 될 수 있을 것으로 판단된다.

#246 2023 4/5

Targeted materials discovery using Bayesian algorithm execution

저자: S. Chitturi, Akash Ramdas, Yue Wu, Brian A. Rohr, Stefano Ermon | 날짜: 2023 | DOI: 10.1038/s41524-024-01326-2

Essence

본 연구는 사용자가 정의한 필터링 알고리즘을 자동으로 데이터 수집 전략으로 변환하여, 복잡한 재료 설계 목표를 달성하기 위한 Bayesian Algorithm Execution (BAX) 기반 프레임워크를 제시한다. 이를 통해 최적화나 전체 함수 추정이 아닌 특정 설계 공간의 부분집합 탐색을 효율적으로 수행할 수 있다.

Evaluation

Overall: 4

본 연구는 사용자 중심의 알고리즘 기반 목표 표현을 Bayesian sequential design과 결합한 창의적 프레임워크로, 재료 발견의 실제 수요(다중 물성, 복잡한 제약)에 직접 대응한다. 두 개의 실제 재료 데이터셋에서 우수한 성과를 입증했으나, 더 큰 규모의 설계 공간 검증과 실시간 자동화 실험 통합을 통한 추가 검증이 필요하다.

#247 2024 4/5

ActionIE: Action Extraction from Scientific Literature with Programming Languages

저자: Xianrui Zhong, Yufeng Du, Siru Ouyang, Ming Zhong, Tingfeng Luo | 날짜: 2024 | DOI: 10.18653/v1/2024.acl-long.683

Essence

![Figure 1](figures/fig1.webp) *화학 반응 절차를 자연언어에서 구조화된 행동 시퀀스로 추출하는 예시* 과학 문헌의 비정형 자연언어로 표현된 실험 절차를 Python 코드 생성 문제로 재정의하여 대규모 언어모델(LLM)을 활용해 화학 합성 행동을 추출하는 방법론을 제시한다. 프로그래밍 언어의 구조적 특성(클래스, 상속, 타입)을 활용하여 엔티티 간 관계를 명확히 포착한다.

Evaluation

Overall: 4

ActionIE는 프로그래밍 언어의 구조적 특성을 활용하여 과학 문헌의 복잡한 실험 절차를 추출하는 창의적인 접근법을 제시하며, 신규 벤치마크와 평가 메트릭을 통해 실질적 기여를 하였다. 다만 LLM 의존성, 도메인 특화성, 패턴 마이닝의 신뢰도 분석 강화로 더욱 견고한 연구가 될 수 있다.

#248 2023 4/5

When reviewers lock horn: Finding disagreement in scientific peer reviews

저자: Sandeep Kumar, Tirthankar Ghosal, Asif Ekbal | 날짜: 2023

Figure 1: 리뷰어 간 모순의 예시 - Reviewer 1은 증거가 강하고 충분하다고 평가하지만, Reviewer 2는 그 증거에 회의적

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 리뷰어 간 모순의 예시 - Reviewer 1은 증거가 강하고 충분하다고 평가하지만, Reviewer 2는 그 증거에 회의적* 본 논문은 과학 논문의 피어 리뷰 과정에서 리뷰어 간의 모순(disagreement)을 자동으로 탐지하는 새로운 과제를 제시하고, 이를 위한 대규모 데이터셋 ContraSciView와 기준 모델을 제안한다.

Evaluation

Overall: 4

피어 리뷰 프로세스에서 리뷰어 간 모순을 자동으로 탐지하는 새로운 과제를 개척한 의의 있는 연구로, 정교하게 구축된 고품질 데이터셋과 현실적 적용 가치가 강점이다. 다만 기준 모델의 기술적 혁신이 제한적이고, 평가 분석의 깊이를 높인다면 학술 출판 커뮤니티의 큰 관심을 받을 수 있을 것으로 판단된다.

Computational Scientific Discovery Methods 63편 ▶

Computational Scientific Discovery Methods Timeline

Category Overview

"Computational Scientific Discovery Methods"는 인공지능이 과학 연구의 전 과정을 자동화하고 가속화하는 방법론을 다루는 카테고리입니다. 과학 문헌 마이닝(Scientific Literature Mining)부터 시작하여 자동화된 가설 생성(Hypothesis Generation), 과학적 추론(Scientific Reasoning), 그리고 연구 에이전트(Research Agents) 개발까지 다양한 기술적 접근을 포함합니다. 이 분야는 대규모 언어모델(LLM)의 과학 분야 적용을 중심으로 발전하고 있으며, 문헌 검색 및 분석 자동화[510], 연구 아이디어 생성 개선[518], 그리고 신뢰할 수 있는 가설 생성 평가[819] 등 실질적 응용을 확대하고 있습니다. 또한 로봇공학[084], 유전체학[094], 코드 생성[230] 등 특정 과학 도메인에 맞춤형 AI 시스템을 구축하며, 연구 에이전트의 자율성과 신뢰성을 평가하기 위한 벤치마크[546], [556]와 종합 학술 검색 시스템[604] 개발이 활발합니다. 이러한 연구들은 AI 기반의 "과학자" 역할을 수행하는 자율 시스템[086], [250], [268]을 실현하여 과학 연구의 민주화와 효율성 향상을 목표로 하고 있습니다.

Scientific Literature Mining: Scientific Literature Mining은 대규모 학술 문헌과 데이터베이스에서 자동으로 과학적 지식을 추출하고 분석하는 방법론입니다. LLM(Large Language Model)과 AI 기술을 활용하여 방대한 학술 논문, 학술지, 데이터베이스를 효율적으로 탐색하고 분석하며, 연구자들이 관련 문헌을 신속하게 발견할 수 있도록 지원합니다 [510][604]. 이 분야는 자동화된 문헌 검토(automated literature review), 논문 검색 에이전트(paper search agent), 학술 데이터 마이닝(academic data mining) 등을 포함하며, 특히 NSF 펀딩 데이터베이스와 같은 공개 학술 데이터의 자동 분류와 분석에 활용됩니다 [579]. 또한 연구 아이디어 도출(research ideation)을 가속화하고 논문의 웹 기반 전파를 촉진하는 등 과학적 혁신의 전 주기를 지원하는 기술들이 개발되고 있습니다 [086][442][600]. 이러한 방법론들은 연구자의 생산성 향상과 과학적 발견 프로세스의 자동화를 통해 미래의 과학적 혁신을 가속화할 수 있는 잠재력을 지니고 있습니다.
Scientific Research Agents: 과학 연구 에이전트(Scientific Research Agents)는 대규모 언어모델(Large Language Models)과 자동화 기술을 활용하여 과학적 발견 과정을 자동화하고 가속화하는 AI 시스템입니다. [184]에서 논의된 바와 같이 언어모델이 연구에 대한 유용한 피드백을 제공할 수 있으며, [546]의 MLGym 프레임working 같은 벤치마크 환경에서 AI 연구 자동화 능력을 평가하고 개선합니다. 이러한 에이전트는 [518]에서 제시된 다중 헤드 아키텍처(Multi-Head Architecture)를 통해 과학적 아이디어 생성을 향상시키고, [312]에서 제안된 능동적 질문 메커니즘(Active Inquiry Mechanism)으로 더 깊이 있는 이해를 가능하게 합니다. [230]의 Code Llama와 같은 코드 생성 모델은 과학 계산 구현을 자동화하며, [073]의 다중 에이전트 프레임워크(Multi-Agent Framework)는 엔지니어링 설계에서 협력적 문제해결을 실현합니다. 궁극적으로 과학 연구 에이전트는 로봇공학[084], 게놈 분석[094] 등 다양한 과학 분야에서 인간 연구자의 생산성을 극대화하고 혁신적 발견을 촉진합니다.
Scientific Reasoning Models: Scientific Reasoning Models는 과학적 발견 과정에서 대규모 언어 모델(Large Language Models)과 AI 에이전트(AI Agents)의 추론 능력을 평가하고 향상시키는 연구 분야입니다. 이 분야는 분자 구조 예측, 유전자 발현 조절 요소 학습, 과학 논문의 무결성 검증 등 다양한 생명과학 및 물리 과학 문제 해결을 중심으로 합니다. [556]에서는 다중 단계 추론(Multi-step Reasoning)을 통한 귀추적 추론(Abductive Reasoning) 벤치마크를 제시하고 있으며, [166]은 생물 경로 예측(Biological Pathway Prediction)에서의 대규모 언어 모델 평가를 다루고 있습니다. 또한 [483]과 [487]은 바이오몰레큘(Biomolecule) 정보와 자연언어를 통합하여 과학적 발견을 가속화하는 멀티모달 학습(Multimodal Learning) 접근법을 제안합니다. 이러한 연구들은 과학적 지식(Scientific Knowledge) 평가와 실험 기반 가설 순위 지정(Experiment-guided Hypothesis Ranking)을 통해 AI 시스템의 과학적 추론 능력을 체계적으로 개선하고 있습니다.
Hypothesis Generation Systems: 가설 생성 시스템(Hypothesis Generation Systems)은 과학적 발견 과정을 자동화하기 위해 대규모 언어 모델(Large Language Model, LLM)과 멀티에이전트 AI 기술을 활용하는 계산 과학 방법론입니다. [819]와 [820]의 연구들은 생의학 분야에서 신뢰할 수 있는 가설 생성을 위한 평가 방법론을 제시하고 있으며, 이는 자동 생성된 가설의 과학적 타당성을 검증하는 데 중점을 두고 있습니다. [110]의 AstroAgents 시스템은 천문학 분야에서 멀티에이전트 협업을 통해 복잡한 과학적 가설을 체계적으로 생성하는 방식을 보여줍니다. [417]의 HypoBench는 가설 생성 시스템의 성능을 객관적으로 측정하기 위한 벤치마킹 프레임워크를 제공하고, [500]은 생성된 가설을 뒷받침하거나 반박하는 증거(Evidence)를 검색하는 LLM 기반 방법을 제안합니다. 이러한 연구들은 AI 기술이 인간 과학자의 가설 형성 과정을 보조하고 과학적 발견을 가속화할 수 있는 가능성을 보여줍니다.
Experimental Social Sciences: 실험 사회과학(Experimental Social Sciences)은 계산과학적 발견 방법론 범주에서 대규모 언어모델(Large Language Models, LLM)을 활용하여 인간행동과 사회현상을 연구하는 분야입니다. [506]에서는 과학연구에 활용되는 LLM의 역할을 종합적으로 분석하며, [179]에서는 인간 피험자를 대체할 수 있는 AI의 가능성을 대규모 복제 실험(large-scale replication)을 통해 검증합니다. 또한 [237]은 LLM 기반 평가(LLM Evaluation)의 신뢰도를 베이지안 통계(Bayesian Approach)로 측정하고, [631]은 실제 현장 실험(field experiments)의 결과를 LLM으로 예측하는 방법론을 제시합니다. 이러한 연구들은 전통적인 실험 설계와 데이터 수집 방식을 혁신하며, 사회과학 연구의 효율성과 확장성을 크게 향상시킬 수 있는 가능성을 보여줍니다.

Scientific Research Agents 17 ▶

#249 2025 4/5

AI-Driven Robotics for Free-Space Optics

저자: Shiekh Zia Uddin, Sachin Vaidya, Shrish Choudhary, Zhuo Chen, Raafat K. Salib, Luke Huang, Dirk R. Englund, Marin Soljaˇci´c (MIT) | 날짜: 2025 | DOI: arXiv:2505.17985

Essence

![Figure 1](https://example.com/fig1.png) *그림 1: AI 기반 로봇 플랫폼의 광학 시스템 설계, 조립, 정렬 및 측정 자동화 파이프라인 개요* 본 논문은 생성형 AI, 컴퓨터 비전, 정밀 로봇공학을 통합하여 자유 공간 광학 실험(free-space optical experiments)의 설계, 조립, 정렬, 측정을 완전 자동화하는 최초의 플랫폼을 제시한다. LLM 기반 설계 에이전트가 사용자 요구사항을 광학 배치로 변환하고, 7자유도 로봇 팔이 마이크로미터 수준의 정밀도로 조립 및 정렬을 수행하며, 자동화된 측정 시스템이 인간 작업자를 능가하는 일관성으로 빔 특성화, 편광 맵핑, 분광 분석을 실행한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 생성형 AI, 정밀 로봇공학, 컴퓨터 비전을 통합하여 광학 분야 최초의 완전 자동화 플랫폼을 구현했으며, QuanTA 기반 효율적 미세조정과 로봇 배치 미세 정렬 도구 등 여러 기술적 혁신을 포함한다. 실제 광학 랩 환경에서의 검증과 인간 수준을 능가하는 일관성은 물리과학 자동화 분야에서 이정표적 기여이나, 적용 범위의 일반화 및 3D 배치 지원 등에서 향후 개선 여지가 있다.

#250 2025 4/5

AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

저자: Žiga Avsec, Natasha Latysheva, Jun Cheng, Guido Novati, Kyle R. Taylor | 날짜: 2025 | DOI: 10.1101/2025.06.25.661532

Figure 1: AlphaGenome 모델 아키텍처, 학습 방식 및 종합 평가 성능. (a) 모델 개요: 1 Mb DNA 서열을 입력받아 11개 모달리티에서 5,930개의 게놈 트랙을 단일 염기쌍 해상도로 예측. (e) 변이 효과 예측에서 기존 모델 대비 상대적 성능 개선

Essence

![Figure 1](figures/fig1.webp) *Figure 1: AlphaGenome 모델 아키텍처, 학습 방식 및 종합 평가 성능. (a) 모델 개요: 1 Mb DNA 서열을 입력받아 11개 모달리티에서 5,930개의 게놈 트랙을 단일 염기쌍 해상도로 예측. (e) 변이 효과 예측에서 기존 모델 대비 상대적 성능 개선* AlphaGenome은 1 메가베이스(Mb) DNA 서열 입력과 단일 염기쌍(bp) 해상도를 통합하여, 11개의 생물학적 모달리티(유전자 발현, 스플라이싱, 크로마틴 접근성, 조직인자 결합, 3D 크로마틴 구조 등)에 걸쳐 5,930개의 게놈 트랙을 동시에 예측하는 통합 딥러닝 모델이다.

Evaluation

Overall: 4

AlphaGenome은 기존의 구조적 트레이드오프를 극복하고 11개 모달리티를 통합하는 강력한 unified model로서, 비코딩 변이의 분자적 효과 해석을 위한 중요한 진전을 제시한다. 광범위한 벤치마킹과 공개 도구 제공으로 실용적 임팩트가 높으나, 컨텍스트 길이 한계와 일부 modality의 해상도 제약이 향후 개선 과제이다.

#251 2023.10 4/5

Can large language models provide useful feedback on research papers? A large-scale empirical analysis

저자: Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou | 날짜: 2023.10 | DOI: 10.48550/arXiv.2310.01783

Essence

본 논문은 GPT-4를 활용한 대규모 실증 분석을 통해 LLM이 학술 논문에 대해 유용한 피드백을 제공할 수 있는지 체계적으로 평가한 첫 번째 연구이다. Nature 저널 3,096편과 ICLR 1,709편의 논문을 분석한 결과, GPT-4의 피드백이 인간 리뷰어들의 의견과 비슷한 수준의 일치도를 보였으며, 308명의 연구자 설문 조사에서 57.4%가 유용하다고 평가했다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 LLM의 과학 피드백 생성 능력을 최초로 대규모로 체계적으로 평가한 중요한 연구이다. 다양한 학문 영역의 대규모 데이터셋(4,805편)과 엄밀한 방법론, 그리고 실제 사용자 연구를 결합하여 높은 신뢰도를 확보했으며, 결과적으로 LLM이 인간 리뷰어와 비슷한 수준의 피드백 관점을 포착할 수 있음을 입증했다. 다만 LLM의 심층적 방법론 비판 능력 부족과 특정 양상의 피드백에 대한 편향성은 향후 개선이 필요한 영역이며, 인간-LLM 협력 모델의 개발이 실질적 의의를 가질 것으로 예상된다.

#252 2023 4/5

Code llama: Open foundation models for code

저자: Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Tan, Yossi Adi, Jingyu Liu, Tal Remez, J. Rapin, Artyom Kozhevnikov, I. Evtimov, Joanna Bitton, Manish P Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre D'efossez, Jade Copet, Faisal Azhar | 날짜: 2023 | DOI: -

Essence

![Figure 2: Code Llama 특화 파이프라인. 다양한 미세조정(fine-tuning) 단계를 거쳐 기반 모델에서 Instruct 모델로 발전](figures/fig2.webp) Code Llama는 Llama 2 기반의 오픈소스 코드 생성 대규모언어모델(Large Language Model, LLM) 계열로, 코드 인필링(infilling), 장문맥 처리, 명령어 추종 능력을 갖춘 차세대 코드 생성 모델이다. 7B부터 70B 파라미터까지 4가지 크기의 모델과 3가지 변형(기본, Python 특화, Instruct)을 제공하며, 공개 모델 중 최고 수준의 성능을 달성한다.

Evaluation

Overall: 4

Code Llama는 체계적인 다단계 특화 전략으로 공개 코드 생성 LLM의 실용성과 성능을 동시에 달성한 견고한 연구이다. 특히 인필링과 장문맥 지원, 다양한 모델 가족으로 실제 개발 환경의 요구사항에 부응하는 점이 핵심 강점이며, 상업용 라이선스 공개를 통해 산업 활용도 높다.

#253 2025 4/5

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

저자: Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang | 날짜: 2025 | DOI: 10.48550/arXiv.2501.12326

Essence

![Figure 1](figures/fig1.webp) *UI-TARS가 항공편 검색을 돕는 데모 사례* 스크린샷만을 입력으로 받아 마우스, 키보드 조작 등 인간 같은 상호작용을 수행하는 네이티브 GUI 에이전트 모델로, 상용 모델(GPT-4o)에 기반한 프레임워크들을 뛰어넘는 엔드-투-엔드(end-to-end) 성능을 달성했다.

Evaluation

Overall: 4

UI-TARS는 GUI 에이전트 분야의 패러다임 전환을 제시하는 중요한 논문으로, 엔드-투-엔드 네이티브 모델이 모듈식 프레임워크를 실제로 능가할 수 있음을 보여주었으며, 특히 자동화된 데이터 수집과 반성 기반 학습 메커니즘은 향후 유사한 구체화(embodied) AI 분야의 발전에 중요한 기여를 할 것으로 기대된다.

#254 2024 4/5

Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System

저자: Haoyang Su, Renqi Chen, Shixiang Tang, Zhenfei Yin, Xinzhe Zheng | 날짜: 2024 | DOI: 10.18653/v1/2025.acl-long.1368

VIRSCI의 5단계 프로세스: 협력자 선택, 주제 토론, 아이디어 생성, 신규성 평가, 초록 생성

Essence

![Figure 1](figures/fig1.webp) *VIRSCI의 5단계 프로세스: 협력자 선택, 주제 토론, 아이디어 생성, 신규성 평가, 초록 생성* LLM 기반 멀티-에이전트 시스템(VIRSCI)은 실제 과학자의 데이터를 기반으로 협업 팀을 구성하여 혁신적인 과학 아이디어를 생성한다. 이는 단일 에이전트 시스템 대비 현대 연구와의 부합성 13.8%, 잠재적 영향력 44.1% 향상을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 실제 과학자 데이터를 기반으로 한 첫 번째 멀티-에이전트 과학 협업 시스템을 제시하며, 팀 간·팀 내 토론 메커니즘과 시간 기반 생태계 모델링을 통해 기존 연구의 한계를 명확히 극복했다. 다만 계산 효율성, LLM 일반화, 정성적 평가 부분에서 보완이 필요하고, 전체 논문 생성으로의 확장성 검증이 요구된다.

#255 2024 4/5

Empowering language models with active inquiry for deeper understanding

저자: Jing-Cheng Pang, Heng-Bo Fan, Pengyuan Wang, Jiahao Xiao, Nan Tang, Si-Hang Yang, Chengxing Jia, Sheng-Jun Huang, Yang Yu | 날짜: 2024

Figure 1: 능동적 문의를 통한 언어모델의 질의 응답 과정. (A) 문의 없이 직접 답변, (B) 사용자에게 명확한 질문을 통해 능동적으로 정보 수집

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 능동적 문의를 통한 언어모델의 질의 응답 과정. (A) 문의 없이 직접 답변, (B) 사용자에게 명확한 질문을 통해 능동적으로 정보 수집* 본 논문은 대형 언어모델(LLM)이 사용자의 모호한 질의를 명확히 하기 위해 능동적으로 질문을 제기하는 LaMAI(Language Model with Active Inquiry) 방법을 제안한다. 능동학습(active learning) 기법을 활용하여 가장 정보량이 많은 질문을 선택함으로써 LLM의 응답 정확도를 크게 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

LaMAI는 LLM이 모호한 사용자 질의를 처리하기 위해 능동적으로 명확화 질문을 제기하도록 하는 창의적인 접근으로, 불확실성 추정과 능동학습을 체계적으로 결합하여 상당한 성능 향상을 달성했다. 다만 현실 환경에서의 피드백 품질 관리와 사용자 경험 최적화 관련 더 깊이 있는 논의가 필요하다.

#256 2025 4/5

MLGym: A new framework and benchmark for advancing ai research agents

저자: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu | 날짜: 2025 | DOI: 미제공

MLGym의 구조: 다양한 AI 연구 작업을 통합하는 프레임워크

Essence

![Figure 1](figures/fig1.webp) *MLGym의 구조: 다양한 AI 연구 작업을 통합하는 프레임워크* 본 논문은 LLM 기반 AI 연구 에이전트(AI Research Agent)를 평가하고 개발하기 위한 첫 번째 Gym 환경인 **MLGym**과 13개 과제로 구성된 벤치마크 **MLGym-Bench**를 제시한다. 이는 RL, 커리큘럼 러닝 등 다양한 학습 알고리즘으로 에이전트를 훈련할 수 있는 통합 플랫폼을 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

MLGym은 AI 연구 자동화 분야의 첫 Gym 환경으로서 표준화된 평가와 훈련을 가능하게 하는 중요한 인프라를 제공하나, 현재 LLM의 진정한 과학적 혁신 능력 부족은 Level 1(기저선 개선)에 머물게 함. 향후 더 고도화된 에이전트 알고리즘과 상위 역량 작업 추가로 진정한 AI 과학자 개발의 발판이 될 수 있을 것으로 기대됨.

#257 2025.03 4/5

AI Agents in Engineering Design: A Multi-Agent Framework for Aesthetic and Aerodynamic Car Design

저자: Mohamed Elrefaie, Janet Qian, Raina Wu, Qian Chen, Angela Dai, Faez Ahmed | 날짜: 2025.03 | DOI: 10.48550/arXiv.2503.23315

Figure 1: AI 설계 에이전트 프레임워크로 자동차 설계 프로세스 가속화. VLM(비전-언어 모델), 기하 딥러닝, LLM을 통합하고 AutoGen으로 에이전트 간 협업 조율

Essence

![Figure 1](figures/fig1.webp) *Figure 1: AI 설계 에이전트 프레임워크로 자동차 설계 프로세스 가속화. VLM(비전-언어 모델), 기하 딥러닝, LLM을 통합하고 AutoGen으로 에이전트 간 협업 조율* 본 논문은 자동차 설계 분야에 AI 설계 에이전트(Design Agents)를 도입하여, 스케칭부터 공기역학 시뮬레이션까지 전 설계 주기를 수 주일에서 수 분으로 단축하는 다중 에이전트 프레임워크를 제시한다. VLM, LLM, 기하 딥러닝 기법을 활용한 전문화된 에이전트들이 엔지니어와 디자이너와 협력하여 설계 창의성과 효율성을 대폭 향상시킨다.

Evaluation

Overall: 4

본 논문은 생성형 AI와 기하 딥러닝을 자동차 설계에 체계적으로 통합한 혁신적 프레임워크를 제시하며, 산업 규모 데이터셋과 자동화된 워크플로우를 통해 설계 사이클 획기적 단축을 입증했다. 다만 정량적 성능 평가와 실제 설계 프로젝트에서의 엔드유저 피드백이 추가되면 학술적 임팩트와 실무 적용성이 한층 강화될 것으로 기대된다.

#258 2025.09 4/5

Democratizing AI scientists using ToolUniverse

저자: Shanghua Gao, Richard Zhu, Pengwei Sui, Zhenglun Kong, Sufian Aldogom, Yepeng Huang, Ayush Noori, Reza Shamji, Krishna Parvataneni, Theodoros Tsiligkaridis, Marinka Zitnik | 날짜: 2025.09

Essence

ToolUniverse는 600개 이상의 머신러닝 모델, 데이터셋, API 및 과학 패키지를 통합하여 어떤 LLM이나 추론 모델에서도 AI 과학자(AI scientist) 시스템을 구축할 수 있는 오픈소스 생태계이다. 표준화된 AI-도구 상호작용 프로토콜을 통해 도구 발견, 실행, 최적화, 생성을 자동화하여 과학적 발견 과정을 민주화한다.

Evaluation

Overall: 4

ToolUniverse는 과학적 발견을 위한 AI 시스템 구축을 표준화하고 민주화하는 혁신적 인프라를 제시하나, 다양한 과학 도메인에서의 광범위한 검증과 안전/거버넌스 메커니즘 강화가 필요하다.

#259 2024 4/5

Two heads are better than one: A multi-agent system has the potential to improve scientific idea generation

저자: Haoyang Su, Renqi Chen, Shixiang Tang 외 | 날짜: 2024 | DOI: arXiv:2410.09403

VIRSCI 시스템의 5단계: 협력자 선택, 주제 논의, 아이디어 생성, 새로운성 평가, 초록 생성

Essence

![Figure 1](figures/fig1.webp) *VIRSCI 시스템의 5단계: 협력자 선택, 주제 논의, 아이디어 생성, 새로운성 평가, 초록 생성* 본 연구는 대규모 언어모델(LLM) 기반의 다중 에이전트 시스템 VIRSCI(Virtual Scientists)를 제안하여, 실제 과학 연구의 협력 메커니즘을 모방함으로써 단일 에이전트 시스템보다 혁신적인 과학 아이디어 생성을 달성한다. 실제 과학자 데이터와 논문 데이터베이스를 활용한 가상 과학 생태계를 구축하여 객관적인 평가를 가능하게 했다.

Evaluation

Overall: 4

VIRSCI는 실제 과학자 데이터와 정교한 협력 메커니즘을 결합하여 LLM 기반 과학 아이디어 생성의 새로운 패러다임을 제시하는 의미 있는 연구이다. 다중 에이전트 협력이 혁신성을 높인다는 정량적 증거를 제공하고 과학과학 이론과의 정렬을 통해 신뢰성을 강화했으나, 생성 아이디어의 실제 과학적 가치 검증 및 다양한 도메인에의 일반화 가능성 검토가 필요하다.

#260 2021.08 4/5

Accurate prediction of protein structures and interactions using a three-track neural network

저자: Minkyung Baek, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, Gyu Rie Lee, Jue Wang, Qian Cong, Lisa N. Kinch, R. Dustin Schaeffer, Claudia Millán, Hahnbeom Park, Carson Adams, Caleb R. Glassman, Andy DeGiovanni, Jose H. Pereira, Andria V. Rodrigues, Alberdina A. Van Dijk, Ana C. Ebrecht, Diederik J. Opperman, Theo Sagmeister, Christoph Buhlheller, Tea Pavkov-Keller, Manoj K. Rathinaswamy, Udit Dalwadi, Calvin K. Yip, John E. Burke, K. Christopher Garcia, Nick V. Grishin, Paul D. Adams, Randy J. Read, David Baker | 날짜: 2021.08 | DOI: 10.1126/science.abj8754

Fig. 1. Network architecture and performance.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Network architecture and performance.* 3-트랙 신경망 아키텍처를 이용하여 1D 서열, 2D 거리 지도, 3D 좌표 정보를 동시에 처리함으로써 AlphaFold2에 근접한 단백질 구조 예측 정확도를 달성하고 단백질-단백질 복합체 모델링을 가능하게 했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

RoseTTAFold는 AlphaFold2의 핵심 개념을 3-트랙 아키텍처로 창의적으로 재구성하여 경쟁력 있는 성능을 달성했으며, 특히 공개 방식으로 제공됨으로써 단백질 구조 예측의 민주화와 구조생물학 연구 가속화에 크게 기여하는 획기적인 연구다.

#261 2024 4/5

Automating exploratory proteomics research via language models

저자: Ning Ding, Shang Qu, Linhai Xie 외 | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *PROTEUS의 반복적 개선 프레임워크(a)와 상세한 작업 프로세스(b). 데이터 설명, 연구 목표 계획, 워크플로우 계획, 도구 실행, 결과 해석의 순환 구조* 본 논문은 대규모 언어모델(LLM)을 활용하여 원본 단백질체학(proteomics) 데이터로부터 자동으로 과학적 발견을 수행하는 PROTEUS 시스템을 제시한다. 인간의 개입 없이 계층적 계획 수립, 생물정보학 도구 실행, 반복적 분석 워크플로우 정제를 통해 고품질의 생물학적 가설을 생성한다.

Evaluation

Overall: 4

PROTEUS는 LLM을 활용한 단백질체학 데이터 분석 및 가설 생성의 완전 자동화를 성공적으로 구현한 혁신적 시스템이며, 포괄적 평가를 통해 신뢰성과 참신성을 입증했다. 다만 생성된 가설의 실험적 검증, 더 다양한 생물학적 영역으로의 확장, 그리고 기술적 세부사항의 투명성 개선이 필요하다.

#262 2024 4/5

ChemGymRL: A Customizable Interactive Framework for Reinforcement Learning for Digital Chemistry

저자: Chris Beeler, Sriram Ganapathi Subramanian, Kyle Sprague, Mark Baula, Nouha Chatti | 날짜: 2024 | DOI: 10.1039/d3dd00183k

ChemGymRL 시뮬레이션: (a) 반응(RxN), 추출(ExT), 증류(DiT) 벤치에서 작동하는 에이전트; (b) 용기 내 재료의 상태 추적 및 벤치 간 이동

Essence

![Figure 1](figures/fig1.webp) *ChemGymRL 시뮬레이션: (a) 반응(RxN), 추출(ExT), 증류(DiT) 벤치에서 작동하는 에이전트; (b) 용기 내 재료의 상태 추적 및 벤치 간 이동* 본 논문은 자동화 화학 실험실(automated chemistry lab)을 위한 강화학습(reinforcement learning, RL) 에이전트 훈련을 위한 오픈소스 시뮬레이션 환경 ChemGymRL을 제시한다. 이 프레임워크는 반응, 추출, 증류의 세 가지 상호연결된 화학 벤치를 구현하여 RL 알고리즘의 개발과 평가를 용이하게 한다.

Evaluation

Overall: 4

ChemGymRL은 강화학습과 화학 발견을 연결하는 시의적절하고 모듈식의 시뮬레이션 플랫폼으로, 높은 확장성과 개방성으로 인해 화학-AI 연구 커뮤니티에 중요한 자산이 될 수 있다. 다만 현재의 단순화된 물리 모델과 RL 샘플 효율성 문제는 실제 응용 전 해결이 필요한 주요 과제이다.

#263 2024 4/5

Empowering Biomedical Discovery with AI Agents

저자: Shanghua Gao, Ada Fang, Yepeng Huang, Valentina Giunchiglia, Ayush Noori | 날짜: 2024 | DOI: 10.48550/arXiv.2404.02831

그림 1: AI 에이전트를 통한 생의학 연구 역량 강화. AI 에이전트는 회의적 학습과 추론이 가능한 "AI 과학자"의 길을 열어줌

Essence

![Figure 1](figures/fig1.webp) *그림 1: AI 에이전트를 통한 생의학 연구 역량 강화. AI 에이전트는 회의적 학습과 추론이 가능한 "AI 과학자"의 길을 열어줌* 본 논문은 생의학 발견을 가속화하기 위해 대규모 언어 모델(LLM), 기계 학습(ML) 도구, 실험 플랫폼을 통합한 AI 에이전트 시스템의 구성과 활용을 제시한다. 이는 인간 과학자를 배제하지 않고 AI의 데이터 분석 능력과 인간의 창의성을 결합한 협업 발견 체계이다.

Evaluation

Overall: 4

본 논문은 생의학 발견을 위한 AI 에이전트 시스템의 비전과 설계 원칙을 제시하는 중요한 관점 문서로, 단백질 구조 예측 후 AI가 생의학 연구에 미칠 다음 단계의 변혁을 조망한다. 다만 개념 제시에 중점을 두어 실제 구현 프로토타입이나 실증 결과가 부재한 점이 주요 한계이다.

#264 2024 4/5

SciQAG: A framework for auto-generated science question answering dataset with fine-grained evaluation

저자: Yuwei Wan, Yixuan Liu, Aswathy Ajith, Clara Grazian, Bram Hoex, Wenjie Zhang, Chunyu Kit, Tong Xie, Ian Foster | 날짜: 2024 | DOI: arXiv:2405.09939

SciQAG 프레임워크: 과학 문헌으로부터 QA 생성 (점선은 선택적 미세조정)

Essence

![Figure 1](figures/fig1.webp) *SciQAG 프레임워크: 과학 문헌으로부터 QA 생성 (점선은 선택적 미세조정)* 대규모 언어모델(LLM)을 활용하여 과학 논문으로부터 자동으로 고품질의 개방형 질의응답 쌍(188,042개 QA 쌍, 24개 과학 분야)을 생성하고, 세밀한 평가 지표(RACAR)로 품질을 필터링하는 SciQAG 프레임워크를 제안한다.

Evaluation

Overall: 4

SciQAG는 폐쇄형 개방형 과학 QA 자동 생성의 실질적 해결책을 제시하며, 188K 규모의 다학제 데이터셋과 신뢰성 있는 평가 프레임워크를 제공하는 점에서 가치 있는 기여이다. 다만 생성 품질 보증의 근본적 한계와 평가 지표의 LLM 의존성에 대한 추가 검증이 필요하다.

#265 2025 3/5

A vision for auto research with llm agents

저자: Chengwei Liu, Chong Wang, Jiayue Cao, Jingquan Ge, Kun Wang, Lyuye Zhang, Ming-Ming Cheng, Penghai Zhao, Tianlin Li, Xiaojun Jia, Xiang Li, Xingshuai Li, Yang Liu, Yebo Feng, Yihao Huang, Yijia Xu, Yuqiang Sun, Zhenhong Zhou, Zhengzi Xu | 날짜: 2025

그림 1: 에이전트 기반 자동 연구 프레임워크의 파이프라인

Essence

![Figure 1](figures/fig1.webp) *그림 1: 에이전트 기반 자동 연구 프레임워크의 파이프라인* 본 논문은 대규모 언어 모델(LLM)과 다중 에이전트 협력을 활용하여 과학 연구의 전체 생명주기(문헌 검토부터 논문 확산까지)를 자동화하는 구조화된 프레임워크인 '자동 연구(Auto Research)'를 제시한다. 이는 연구 과정의 파편화, 방법론적 전문성의 불균형, 인지 부하 증가 등의 문제를 해결하기 위한 체계적이고 확장 가능한 접근 방식을 제안한다.

Evaluation

Overall: 3

본 논문은 LLM 기반 다중 에이전트 시스템으로 과학 연구의 완전한 자동화를 추구하는 야심찬 비전을 제시하며, 연구 민주화와 프로세스 최적화 측면에서 기여도가 있다. 그러나 프레임워크의 개념적 설계에 비해 실제 구현 검증과 기술적 깊이가 부족하며, 다양한 학문 분야로의 적용 가능성과 질 관리 메커니즘에 대한 심화된 논의가 필요하다.

Scientific Literature Mining 23 ▶

#266 2024 4/5

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild

저자: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty | 날짜: 2024 | DOI: 10.48550/ARXIV.2407.04172

Essence

차트 이미지에서 직접 생성한 시각적 명령어 데이터로 학습한 멀티모달 모델로, 기존 데이터 테이블 의존성을 제거하고 강력한 비전-언어 백본(PaliGemma)을 활용하여 실제 차트 이해와 추론에서 최고 성능을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

ChartGemma는 차트 이해 문제의 핵심인 시각적 정보 포착과 강한 모델 정렬에 효과적으로 대응하며, 기존 데이터 테이블 의존 방식의 한계를 극복한 실용적이고 우수한 연구로, 재현성 공개를 통해 학계에 의미 있는 기여를 한다.

#267 2024 4/5

Llms for literature review: Are we there yet? arXiv preprint arXiv:2412.15249, 2024.

저자: Shubham Agarwal, Gaurav Sahu, Abhay Puri, Issam Laradji, Krishnamurthy DJ Dvijotham, Jason Stanley, Laurent Charlin, Christopher Pal | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *본 논문의 프레임워크 구성: (1) 키워드 및 임베딩 기반 검색, (2) LLM 기반 재순위화, (3) 문헌 리뷰 생성, (4) 계획 기반 최적화* 본 논문은 LLM(Large Language Model)을 활용하여 학술 논문의 문헌 리뷰 작성을 자동화하는 방법을 제시한다. 논문 초록을 입력으로 관련 연구를 검색하고 이를 바탕으로 문헌 리뷰 섹션을 생성하는 두 단계 프로세스를 제안하며, 계획 기반 접근으로 환각(hallucination) 감소를 달성한다.

Evaluation

Overall: 4

본 논문은 LLM 기반 문헌 리뷰 생성을 실질적으로 개선하기 위해 문제를 체계적으로 분해하고, 검색과 생성 각 단계에서 창의적인 해법을 제시한 우수한 연구이다. 특히 속성 기반 재순위화와 계획 기반 생성으로 환각 감소를 달성한 점과 테스트 세트 오염을 방지하는 평가 프로토콜을 제공한 점이 학계에 큰 기여를 한다.

#268 2025.06 4/5

MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science

저자: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Zifeng Wang, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Xin Liu, Carl Yang, Yang Xie, Wenqi Shi | 날짜: 2025.06 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *Figure 1: (a) MedAgentGym의 과제별 성능과 (b) 전체 리더보드 평가. 상용 LLM과 오픈소스 LLM 간 상당한 성능 격차를 시각화함* 본 논문은 생의학 데이터 과학(biomedical data science)에서 코드 기반 추론 능력을 강화하기 위한 확장 가능한 LLM 에이전트 훈련 환경인 MedAgentGym을 제시한다. 72,413개의 과제 인스턴스와 실행 가능한 샌드박스 환경을 통해 오픈소스 LLM들의 생의학 코딩 역량을 대폭 향상시킬 수 있음을 입증한다.

Evaluation

Overall: 4

MedAgentGym은 생의학 데이터 과학 분야에서 코드 기반 추론을 위한 최초의 포괄적이고 실행 가능한 훈련 환경으로, 대규모 통합 벤치마크, 효과적인 RL 훈련 방법론, 그리고 공개된 리소스를 통해 오픈소스 LLM의 의료 도메인 적응에

#269 2025 4/5

PaSa: An LLM Agent for Comprehensive Academic Paper Search

저자: Yichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E | 날짜: 2025

PaSa 시스템 아키텍처: Crawler와 Selector 두 개의 LLM 에이전트로 구성

Essence

![Figure 1](figures/fig1.webp) *PaSa 시스템 아키텍처: Crawler와 Selector 두 개의 LLM 에이전트로 구성* PaSa는 복잡한 학술 논문 검색을 자동으로 수행하는 LLM 기반 에이전트로, 검색 도구 활용, 논문 읽기, 인용 네트워크 탐색을 통해 종합적이고 정확한 검색 결과를 제공한다. 합성 데이터(AutoScholarQuery)로 학습했음에도 실제 환경(RealScholarQuery)에서 Google Scholar 및 GPT-4o 기반 방법들을 크게 능가한다.

Evaluation

Overall: 4

PaSa는 LLM 에이전트를 활용한 학술 논문 검색 문제의 창의적인 해법이며, 합성 데이터로의 학습이 실제 환경에서 우수한 성능을 달성하는 점이 주목할 만하다. 다만 데이터의 도메인 편향성과 평가 규모의 제한이 일반화 가능성에 대한 의문을 남긴다.

#270 2025 4/5

SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

저자: Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He (King's College London, The Alan Turing Institute) | 날짜: 2025 | DOI: 10.48550/arXiv.2504.00255

Essence

본 논문은 최근 NLP 논문들의 알고리즘 설명으로부터 코드를 생성하는 대형언어모델(LLM)의 능력을 평가하는 **SciReplicate-Bench** 벤치마크를 제안한다. 2024년 발표된 36개 NLP 논문의 100개 작업으로 구성되며, 알고리즘 이해와 코드 구현 두 가지 핵심 역량을 평가하는 신규 평가지표(reasoning graph accuracy)를 도입한다.

Evaluation

Overall: 4

SciReplicate-Bench는 과학 논문 기반 알고리즘 재현이라는 중요하면서도 미탐사 영역에 첫 벤치마크를 제시하여 의의 있으나, reasoning graph 검증 방법론의 엄밀성 강화와 벤치마크 규모 확대가 필요하다.

#271 2025.05 4/5

AI-Researcher: Autonomous Scientific Innovation

저자: Jiabin Tang, Lianghao Xia, Zhonghang Li, Chao Huang | 날짜: 2025.05

Figure 1: 문헌 탐색에서 출판 준비까지 완전 자동화된 과학 혁신 파이프라인의 종단 간 아키텍처

Essence

![Figure 1: AI-Researcher의 아키텍처 개요](figures/fig1.webp) *Figure 1: 문헌 탐색에서 출판 준비까지 완전 자동화된 과학 혁신 파이프라인의 종단 간 아키텍처* 본 논문은 대규모 언어 모델(LLM)의 추론 능력을 활용하여 문헌 검토, 가설 생성, 알고리즘 구현, 논문 작성까지 전체 연구 파이프라인을 자동화하는 AI-Researcher 시스템을 제안하고, 이를 평가하기 위한 Scientist-Bench 벤치마크를 개발했다.

Evaluation

Overall: 4

AI-Researcher는 LLM 기반 자율 과학 연구의 새로운 경계를 개척하는 야심차고 흥미로운 시도이며, 특히 Scientist-Bench는 향후 자율 과학 에이전트 평가의 중요한 기준이 될 수 있으나, 보다 광범위한 데이터셋 검증과 실제 학술 커뮤니티로부터의 확인이 필수적으로 요구된다.

#272 2024 4/5

CycleResearcher: Improving Automated Research via Automated Review

저자: Yixuan Weng, Minjun Zhu, Guangsheng Bao, Hongbo Zhang, Jindong Wang, Yue Zhang, Linyi Yang | 날짜: 2024 | DOI: 10.48550/ARXIV.2411.00816

Review-5k와 Research-14k 데이터셋 구축 파이프라인: ICLR 2024 리뷰 정보와 주요 ML 학회 논문의 구조화된 아웃라인 및 메인 텍스트 수집

Essence

![Figure 2](figures/fig2.webp) *반복적 훈련 프레임워크: CycleResearcher가 논문을 생성하고 CycleReviewer가 평가하여 선호도 쌍을 구성한 후 정책을 최적화하는 사이클* 본 논문은 오픈소스 LLM을 활용하여 논문 작성, 동료 검토, 수정의 전체 연구 사이클을 자동화하는 통합 프레임워크를 제안한다. CycleReviewer가 인간 리뷰어보다 26.89% 더 우수한 성능을 보이며, CycleResearcher가 생성한 논문이 인간 전문가 수준(5.36점)에 근접하는 성과를 달성했다.

Evaluation

Overall: 4

본 논문은 오픈소스 LLM으로 전체 연구 수행-동료 검토-수정 사이클을 자동화하는 야심찬 시도로, CycleReviewer가 인간 리뷰어를 초과하는 성과와 대규모 고품질 데이터셋의 공개는 큰 기여이다. 다만 실험 검증의 시뮬레이션 성격, 도메인 일반화의 미흡, 그리고 학술 윤리 문제의 불완전한 처리가 지적되며, 이들이 해결될 경우 과학 자동화 분야에서 중요한 이정표가 될 가능성이 높다.

#273 2025 4/5

Iris: Interactive research ideation system for accelerating scientific discovery

저자: Aniketh Garikaparthi, Manasi Patwardhan, Lovekesh Vig, Arman Cohan | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *Human-in-the-loop Idea Generation with Monte-Carlo-Tree-Search* LLM의 자동화 능력을 활용하면서도 연구자의 투명한 제어와 감시를 가능하게 하는 인터랙티브 연구 아이디어 생성 시스템 IRIS를 제안하며, Monte Carlo Tree Search(MCTS) 기반의 적응형 탐색과 세분화된 피드백 메커니즘을 통해 과학적 가설 생성을 가속화한다.

Evaluation

Overall: 4

IRIS는 LLM 기반 과학적 발견 가속화라는 중요한 과제에서 완전 자동화의 함정을 인식하고 투명성과 조정 가능성을 갖춘 HITL 시스템으로 실질적 해결책을 제시한다. 세분화된 피드백과 MCTS 기반 탐색은 기술적으로 창의적이며, 오픈소스 공개는 높이 평가되나, 사용자 연구의 범위 확대와 다양한 학문 영역에서의 검증이 더 필요하다.

저자: Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen | 날짜: 2025 | DOI: -

Essence

![Figure 1](figures/fig1.webp) *GoAI 프레임워크 개요: 문헌 검색 및 필터링 → 지식 그래프 구성 → 경로 생성 → 경로 일관성 검증의 4단계* 본 논문은 지식 그래프(Knowledge Graph)와 대형 언어모델(LLM)을 활용하여 AI 학생들의 개인화된 학습 경로를 제시하고 연구 아이디어 생성을 지원하는 GoAI 시스템을 제안한다. 이는 빠르게 확장되는 AI 문헌의 바다에서 학생들이 겪는 "정보-혁신 간극"을 해소한다.

Evaluation

Overall: 4

GoAI는 지식 그래프의 구조화된 표현과 LLM의 추론 능력을 활용하여 AI 학생들의 개인화된 학습 경로 계획과 창의적 아이디어 생성을 동시에 지원하는 실용적이고 교육학적으로 의미 있는 시스템이다. 다만 의미론적 인용 분류의 자동화, 평가 신뢰도 검증, 타 분야 확장성에 대한 보완이 필요하다.

#280 2025 4/5

Mir: Methodology inspiration retrieval for scientific research problems

저자: Aniketh Garikaparthi, Manasi Patwardhan, Aditya Kanade, Ahmed E. Hassan, Lovekesh Vig, Arman Cohan | 날짜: 2025 | DOI: arXiv:2506.00249v1

Figure 1: 일반적인 검색(상)은 의미론적 유사성만으로 비관련 논문을 검색하지만, 제안 방법(하)은 방법론적 영감을 포착

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 일반적인 검색(상)은 의미론적 유사성만으로 비관련 논문을 검색하지만, 제안 방법(하)은 방법론적 영감을 포착* 본 논문은 과학 연구 문제 해결을 위해 **방법론적 영감(Methodology Inspiration)을 줄 수 있는 선행 연구를 검색하는 새로운 과제(MIR)**를 정의하고, 인용 네트워크의 방법론적 계보를 포착하는 **방법론 인접 그래프(MAG)**를 활용하여 밀집 검색기(dense retriever)를 학습하는 기법을 제시한다.

Evaluation

Overall: 4

본 논문은 과학 발견에서 방법론적 영감 검색의 중요성을 인식하고 이를 위한 새로운 과제, 데이터셋, 방법론을 체계적으로 제시했다는 점에서 의미가 있으나, 평가 도메인의 제한성과 금표준 정의의 애매함이 일반화 가능성에 대한 의문을 남긴다.

#281 2019 4/5

PaperRobot: Incremental Draft Generation of Scientific Ideas

저자: Qingyun Wang, Lifu Huang, Zhiying Jiang, Kevin Knight, Heng Ji, Mohit Bansal, Yi Luan | 날짜: 2019 | DOI: 10.18653/v1/P19-1191

Essence

![Figure 1](figures/fig1.webp) *PaperRobot의 단계별 논문 작성 과정: 기존 논문 읽기 → 지식 그래프 구성 → 새로운 아이디어 예측 → 새로운 논문 작성* PaperRobot은 기존 생의학 논문에서 지식 그래프를 자동으로 구축하고, 링크 예측을 통해 새로운 과학적 아이디어를 생성한 후, 메모리-어텐션 네트워크로 제목, 초록, 결론을 순차적으로 작성하는 자동 연구 보조 시스템이다.

Evaluation

Overall: 4

PaperRobot은 생의학 논문 자동 생성이라는 실제적 문제에 멀티모달 접근(그래프+텍스트)을 적용한 의욕적인 연구이며, Turing 테스트에서 인간과 경쟁할 수 있는 수준의 성과를 보였다. 다만 생성된 텍스트의 과학적 정확성 검증과 실제 활용도에 대한 심층 분석이 보완된다면 학술 출판 생태계에 실질적 기여를 할 수 있을 것으로 예상된다.

#282 2024 4/5

Researchtown: Simulator of human research community

저자: Haofei Yu, Zhaochen Hong, Zirui Cheng, Kunlun Zhu, Keyang Xuan, Jinwei Yao, Tao Feng, Jiaxuan You | 날짜: 2024 | DOI: arXiv:2412.17767

그림 1: 인간 연구 커뮤니티를 에이전트-데이터 그래프로 추상화. 연구자는 에이전트 노드, 논문은 데이터 노드로 표현

Essence

![Figure 1](figures/fig1.webp) *그림 1: 인간 연구 커뮤니티를 에이전트-데이터 그래프로 추상화. 연구자는 에이전트 노드, 논문은 데이터 노드로 표현* 본 논문은 대규모 언어 모델(LLM) 기반 멀티에이전트 프레임워크를 통해 인간 연구 커뮤니티를 시뮬레이션하는 RESEARCHTOWN을 제안한다. 연구 커뮤니티를 에이전트-데이터 그래프로 모델링하고 TextGNN이라는 텍스트 기반 메시지 전달 메커니즘을 통해 논문 작성, 리뷰 작성 등 협업 연구 활동을 동적으로 시뮬레이션한다.

Evaluation

Overall: 4

본 논문은 LLM 기반 멀티에이전트 연구 커뮤니티 시뮬레이션이라는 야심찬 목표를 제시하고, 에이전트-데이터 그래프와 TextGNN이라는 새로운 프레임워크로 이를 구현한 의미 있는 연구다. 다만 평가 메트릭이 유사도 기반에 제한되어 생성 논문의 실제 학문적 가치를 온전히 포착하지 못하고, 대규모 확장성과 윤리적 문제에 대한 더 깊은 논의가 필요하다.

#283 2024 4/5

SciMON: Scientific Inspiration Machines Optimized for Novelty

저자: Qingyun Wang, Doug Downey, Heng Ji, Tom Hope | 날짜: 2024 | DOI: 10.18653/v1/2024.acl-long.18

SCIMON의 파이프라인: 배경 맥락으로부터 문헌 기반 영감을 검색하고, 기존 연구와 반복적으로 비교하여 새로움(novelty)을 최적화하며 아이디어를 생성

Essence

![Figure 1](figures/fig1.webp) *SCIMON의 파이프라인: 배경 맥락으로부터 문헌 기반 영감을 검색하고, 기존 연구와 반복적으로 비교하여 새로움(novelty)을 최적화하며 아이디어를 생성* 본 논문은 신경 언어 모델이 과학 문헌에 기반한 새로운 과학적 방향을 자동으로 생성할 수 있는 능력을 향상시키는 SCIMON 프레임워크를 제시한다. 기존의 이분 링크 예측 중심 접근과 달리, 자연언어 형태의 맥락화된 문제 기술(problem description)으로부터 새로운 과학적 아이디어를 생성하고 명시적으로 새로움을 최적화한다.

Evaluation

Overall: 4

SCIMON은 과학적 아이디어 자동 생성이라는 중요한 문제에 대해 새로운 문제 설정과 구체적인 방법론을 제시한 선도적 연구이다. 특히 반복적 새로움 최적화와 다층 영감 검색은 창의적 기여이나, 평가 결과 기계 생성 아이디어가 실제 과학적 가치에 미치지 못한다는 발견은 인공지능의 과학 창의성에 대한 근본적 한계를 시사한다.

#284 2024 4/5

SciPIP: An LLM-based Scientific Paper Idea Proposer

저자: Wenxiao Wang, Lihui Gu, Liye Zhang, Yunxiang Luo, Yi Dai, Chen Shen, Liang Xie, Binbin Lin, Xiaofei He, Jieping Ye | 날짜: 2024

문헌 데이터베이스 구축 파이프라인. PDF 파서로 논문 섹션을 추출하고 LLM으로 요약한 후 임베딩으로 인코딩하여 데이터베이스에 저장

Essence

![Figure 1](figures/fig1.webp) *문헌 데이터베이스 구축 파이프라인. PDF 파서로 논문 섹션을 추출하고 LLM으로 요약한 후 임베딩으로 인코딩하여 데이터베이스에 저장* LLM 기반 과학 논문 아이디어 생성 시스템으로, 의미론적(semantic) 문헌 검색과 이중 경로(dual-path) 아이디어 생성을 통해 더욱 참신하고 실현 가능한 연구 아이디어를 제안한다. 기존의 키워드 기반 검색의 한계를 극복하고 전체 논문 내용을 활용한 통합적 아이디어 생성을 핵심으로 한다.

Evaluation

Overall: 4

SciPIP는 LLM 기반 과학 아이디어 생성이라는 중요한 문제를 다층적으로 개선한 실용적인 시스템으로, 구조화된 문헌 데이터베이스와 다중 입도 검색, 이중 경로 생성이라는 세 가지 혁신을 통해 기존 방식 대비 눈에 띄는 성능 향상을 달성했다. 특히 공개 데이터베이스 제공과 체계적인 평가는 강점이나, LLM 의존성, 평가의 주관성, 실제 연구 영향 측정 미흡이 한계로 남아있다.

#285 2023.03 4/5

Semi-Supervised 2D Human Pose Estimation Driven by Position Inconsistency Pseudo Label Correction Module

저자: Linzhi Huang, Yulong Li, Hongbo Tian, Yue Yang, Xiangang Li, Weihong Deng, Jieping Ye | 날짜: 2023.03 | DOI: 미제공

그림 1: COCO 데이터셋에서 레이블된 인스턴스 수에 따른 성능 비교. 모든 설정에서 기존 SOTA 대비 우수한 성능

Essence

![Figure 2](figures/fig2.webp) *그림 2: 위치 불일치(Position Inconsistency) 개념 설명. 신뢰도(confidence)가 낮아도 위치 일관성이 높은 고품질 의사 레이블이 존재함을 보여줌* 반인체 포즈 추정을 위한 준지도학습(semi-supervised learning)에서 **위치 불일치 기반 의사 레이블 수정 모듈(SSPCM)**을 제안하여, 노이즈 의사 레이블을 효과적으로 제거하고 SOTA 성능을 달성한 연구이다.

Evaluation

Overall: 4

준지도학습 기반 반인체 포즈 추정에서 위치 기반 의사 레이블 수정을 통해 실질적 성능 개선을 달성한 실용적인 연구이다. 특히 이질적인 teacher-student 구조 지원과 어안카메라 데이터셋 공개는 실제 응용 가치를 높이지만, 하이퍼파라미터 설정의 일반화 가능성에 대한 심화 분석이 필요하다.

#286 2024 3/5

Can Large Language Models Unlock Novel Scientific Research Ideas? arXiv:2409.06185, 2024

저자: Sandeep Kumar, Tirthankar Ghosal, Vinayak Goyal, Asif Ekbal | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *대규모 언어모델이 연구논문을 읽고 미래 연구 아이디어를 제안하는 과정* 본 논문은 대규모 언어모델(LLM)이 과학 논문으로부터 새로운 미래 연구 아이디어를 생성할 수 있는지를 체계적으로 평가한다. 이를 위해 자동 평가 메트릭(IAScore, Idea Distinctness Index)을 제안하고 인간 평가를 병행하여 LLM의 아이디어 생성 능력과 한계를 분석한다.

Evaluation

Overall: 3

본 논문은 LLM의 아이디어 생성 능력을 체계적으로 평가하기 위한 첫 시도로 의의가 있으나, 제안된 IAScore의 근본적 한계(저자 아이디어와의 정렬도만 측정)로 인해 완전한 평가 프레임워크로 보기 어렵다. 다양한 도메인에 걸친 광범위한 인간 평가와 더불어 진정한 참신성을 감지할 수 있는 개선된 메트릭 개발이 필요하다.

#287 2025.04 3/5

ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies

저자: Shubham Gandhi, Dhruv Shah, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff | 날짜: 2025.04 | DOI: 미공개

ResearchCodeAgent 시스템 아키텍처: (a) 계획(Planning), 연구 로그(Research Logs), 워커(Workers), 환경(Environment), (b) LLM 캐스케이드를 포함한 계획 메커니즘, (c) 전문가 호출 및 워커 구조

Essence

![Figure 1](figures/fig1.webp) *ResearchCodeAgent 시스템 아키텍처: (a) 계획(Planning), 연구 로그(Research Logs), 워커(Workers), 환경(Environment), (b) LLM 캐스케이드를 포함한 계획 메커니즘, (c) 전문가 호출 및 워커 구조* 연구 논문에 기술된 머신러닝 방법론을 자동으로 코드로 변환하는 다중 에이전트 LLM 시스템을 제시한다. 상위 레벨의 추상적인 연구 설명과 실제 실행 가능한 구현 간의 격차를 해소하여 연구자의 구현 시간을 단축한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 3 Clarity: 3 Overall: 3

ResearchCodeAgent는 머신러닝 연구의 구현 자동화라는 실용적 문제에 처음 정면으로 도전한 점과 45%대의 성공률에서 가능성을 보여줍니다. 다만 평가 범위의 협소함, 통계적 검증 부재, 그리고 여전히 높은 수정 필요율(34%)은 실제 배포 전 강화가 필요함을 시사합니다. 워크숍 논문으로서의 가치는 충분하지만, AI4Research 커뮤니티의 구체적 피드백과 추가 실험을 통한 정교화가 권장됩니다.

#288 2021 N/A

Causal learning for socially responsible ai

저자: Lu Cheng, Ahmadreza Mosallanezhad, Paras Sheth, Huan Liu | 날짜: 2021

Figure 1: CL for SRAI의 분류체계. 파란 사각형은 SRAI에 일반적으로 사용되는 4가지 인과학습 도구를 나타냄

Essence

![Figure 1](figures/fig1.webp) *Figure 1: CL for SRAI의 분류체계. 파란 사각형은 SRAI에 일반적으로 사용되는 4가지 인과학습 도구를 나타냄* 본 논문은 AI의 사회적 책임성(Social Responsibility)을 강화하기 위해 인과학습(Causal Learning, CL)의 7가지 도구를 체계적으로 분석하고, 편향 완화, 공정성, 투명성, 일반화 가능성 등 주요 SRAI 과제에 적용하는 방법론을 제시한다.

Scientific Reasoning Models 13 ▶

#289 2025 4/5

ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

저자: Xiangru Tang, Tianyu Hu, Muyang Ye, Yanjun Shao, Xunjian Yin 외 | 날짜: 2025 | DOI: 10.48550/arXiv.2501.06590

Figure 1: 수소 원자 에너지 전이 문제의 해결 방법 비교 - (a) 표준 Chain-of-Thought의 계산 오류, (b) StructChem의 상수 및 단위 변환 오류, (c) ChemAgent의 정확한 해답

Essence

![Figure 2](figures/fig2.webp) *Figure 2: 전체 프레임워크 다이어그램 - (a) 라이브러리 강화 추론과 (b) 라이브러리 구축* 대규모 언어 모델(LLM)의 화학 추론 능력을 향상시키기 위해 동적으로 업데이트되는 자체 학습 라이브러리 시스템을 제안한다. 계획 메모리, 실행 메모리, 지식 메모리의 세 가지 메모리 구성요소를 통해 문제를 분해하고 과거 경험을 활용하여 정확도를 최대 46% 향상시킨다.

Evaluation

Overall: 4

ChemAgent는 화학 추론 작업에서 동적 자체 학습 라이브러리를 통해 LLM의 성능을 획기적으로 향상시킨 의미 있는 연구이며, 특히 인지과학에 영감을 받은 삼층 메모리 구조의 통합적 설계가 돋보인다. 다만 메모리 관리, 검색 효율성, 다양한 도메인에 대한 일반화 가능성에 대한 추가 연구가 필요하다.

#290 2026.03 4/5

MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation

저자: Taolin Han, Shuang Wu, Jinghang Wang, Yuhao Zhou, Renquan Lv, Bing Zhao, Wei Hu | 날짜: 2026.03

Essence

![Figure 1](figures/fig1.webp) *분자 구조 해석을 제약 만족 문제(CSP)로 표현* 본 논문은 화학 구조 해석 작업을 동적 다중 턴 에이전트 평가 벤치마크로 재정의한 MolQuest를 제안한다. 정적 QA 형식의 기존 과학 벤치마크의 한계를 극복하기 위해, 실제 화학 문헌 데이터 기반의 상호작용적 환경에서 LLM의 귀추적 추론(abductive reasoning) 및 전략적 의사결정 능력을 평가한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

MolQuest는 기존의 정적 QA 기반 과학 벤치마크의 근본적 한계를 인식하고, 실제 과학 연구의 동적·상호작용적 특성을 충실히 반영한 혁신적 평가 프레임워크를 제시한다. 특히 인루프 데이터 구성과 실제 문헌 기반 데이터 활용으로 높은 신뢰성을 확보했으며, SOTA 모델들의 심각한 성능 격차 발견은 AI for Science 연구의 중요한 방향을 제시한다. 다만 저성능의 원인 분석 심화와 벤치마크 규모에 대한 상세 기술이 추가되면 더욱 완성도 높은 논문이 될 것으로 예상된다.

#291 2025 4/5

Biomaze: Benchmarking and enhancing large language models for biological pathway reasoning

저자: He Zhao, Chang Ma, Fangzhi Xu, Lingpeng Kong, Zhi-Luo Deng | 날짜: 2025 | DOI: 10.48550/arXiv.2502.16660

Figure 1: BioMaze 작업 및 추론 방법의 설명. 생물학적 경로 그래프 데이터 지원 유무에 따른 추론 방식 비교

Essence

![Figure 1](figures/fig1.webp) *Figure 1: BioMaze 작업 및 추론 방법의 설명. 생물학적 경로 그래프 데이터 지원 유무에 따른 추론 방식 비교* 본 논문은 생물학적 경로(biological pathway) 추론 능력을 평가하기 위한 BioMaze 벤치마크를 제시하고, LLMs의 경로 추론 한계를 보완하기 위해 PathSeeker라는 에이전트 기반 방법을 제안한다. 이를 통해 복잡한 생물학적 시스템에서의 다단계 인과 추론 문제를 해결한다.

Evaluation

Overall: 4

본 논문은 생물학적 경로 추론이라는 미개척 분야에서 대규모 고품질 벤치마크를 제공하고 LLMs의 실질적 한계를 규명했다는 점에서 매우 가치있다. 특히 실제 연구 문헌 기반의 5.1K 문제와 체계적 분류 체계는 학계에 중요한 자산이 될 것이다. 다만 제안된 PathSeeker 방법의 구체적 구현과 성능 개선 효과에 대한 더욱 상세한 실험 결과 제시가 논문의 완성도를 높일 것으로 판단된다.

#292 2024 4/5

Every part matters: Integrity verification of scientific figures based on multimodal large language models

저자: Xiang Shi, Jiawei Liu, Yinpeng Liu, Qikai Cheng, Wei Lu | 날짜: 2024

그림 1: 자연 이미지와 과학 논문 그림의 텍스트-이미지 정렬 작업 비교. 과학 그림의 텍스트-정렬 작업은 각 모듈 요소를 파싱하고, 텍스트를 정렬하며, 정렬되지 않은 요소를 식별하는 것을 요구함.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 자연 이미지와 과학 논문 그림의 텍스트-이미지 정렬 작업 비교. 과학 그림의 텍스트-정렬 작업은 각 모듈 요소를 파싱하고, 텍스트를 정렬하며, 정렬되지 않은 요소를 식별하는 것을 요구함.* 본 연구는 과학 논문의 그림에서 텍스트와 시각 요소의 세밀한 정렬을 위한 새로운 작업인 "Figure Integrity Verification"을 제안하며, 이를 지원하기 위해 Figure-seg 데이터셋과 Every Part Matters (EPM) 프레임워크를 개발했다. 이는 복잡한 도메인-특화 과학 그림의 이해와 검증을 크게 개선한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 과학 그림의 세밀한 텍스트-정렬 분석이라는 미충족 연구 공백을 명확하게 정의하고, 새로운 작업, 고품질 데이터셋, 효과적인 MLLM 프레임워크를 통해 체계적으로 해결함으로써 멀티모달 이해 분야의 실질적인 기여를 제공한다. 다만 도메인-특화 적응성과 계산 효율성 개선이 실제 응용의 관건이 될 것이다.

#293 2025 4/5

Learning to Discover Regulatory Elements for Gene Expression Prediction

저자: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji | 날짜: 2025 | DOI: 10.48550/arXiv.2502.13991

그림 1: 에피지노믹 신호, DNA 서열, 유전자 발현 Y 및 관련 조절 요소 간의 인과관계

Essence

![Figure 1: Causal relationships between epigenomic signals, sequence, gene expression Y and related regulatory elements](figures/fig1.webp) *그림 1: 에피지노믹 신호, DNA 서열, 유전자 발현 Y 및 관련 조절 요소 간의 인과관계* 본 논문은 DNA 서열과 에피지노믹 신호로부터 유전자 발현을 예측하되, 능동적으로 상호작용하는 조절 요소(regulatory elements)를 자동으로 발견하는 **Seq2Exp** 프레임워크를 제안한다. 정보 병목(information bottleneck) 원리를 활용하여 인과적 조절 요소만을 추출함으로써 기존 방법들을 능가하는 성능을 달성한다.

Evaluation

Overall: 4

본 논문은 인과관계 기반의 명확한 문제 정의와 정보 병목 기법의 효과적인 응용으로 유전자 발현 예측에서 의미 있는 진전을 이루었으며, ICLR 2025 게재작으로서 생물정보학과 머신러닝의 교차점에서 실질적 기여를 하고 있다.

#294 2024 4/5

Sciknoweval: Evaluating multi-level scientific knowledge of large language models

저자: Kehua Feng, Xinyi Shen, Weijie Wang, Xiang Zhuang, Yuqi Tang, Qiang Zhang, Keyan Ding | 날짜: 2024 | DOI: arXiv:2406.09098

Essence

![Figure 1](https://arxiv.org/html/2406.09098v4/x1.png) *Figure 1: SciKnowEval의 전체 구조. (a) 4개 과학 영역, (b) 다양한 데이터 소스, (c) 4가지 질문 유형, (d) 5단계 진행적 지식 수준별 예제, (e) 영역 및 수준별 질문 분포* 본 논문은 대규모 언어모델(LLM)의 과학 지식을 5단계(기억, 이해, 추론, 판별, 적용)로 체계적으로 평가하는 28K 규모의 종합 벤치마크 데이터셋 SciKnowEval을 제안한다. 생물학, 화학, 물리학, 재료과학 4개 영역에서 LLM의 과학적 역량을 다층적으로 진단하고 20개 모델을 평가하여 개선의 필요성을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

SciKnowEval은 기존 벤치마크의 한계를 명확히 인식하고 철학적 기초를 갖춘 체계적인 5단계 평가 프레임워크를 제시하며, 28K 규모의 다양한 고품질 데이터셋을 구축하여 과학 LLM 평가의 새로운 표준을 제안한다는 점에서 의의가 크다. 특히 과학 윤리와 안전성 평가를 명시적으로 포함한 점이 실용적 가치를 높인다. 다만 자동 생성 데이터의 검증 비율 명시, 고난도 문제 비율 확충, 주관식 평가의 정성적 메트릭 강화가 필요하다.

#295 2024 4/5

Leveraging biomolecule and natural language through multi-modal learning: A survey

저자: Qizhi Pei, Zhimeng Zhou, Kaiyuan Gao, Jinhua Zhu, Yue Wang, Zun Wang, Tao Qin, Lijun Wu, Rui Yan | 날짜: 2024 | DOI: arXiv:2403.01528

그림 1: 생물분자-언어 교차모달 통합 방법들의 계층적 분류 (모달리티 및 생물표현 기준)

Essence

생물분자(단백질, 분자)의 구조 정보와 자연언어 텍스트 데이터를 통합하는 다중모달 학습 방법론을 종합적으로 조사한 논문으로, AI-화학-생물학의 교차 분야에서 생물분자 표현의 새로운 패러다임을 제시한다.

Evaluation

Overall: 4

본 논문은 급속도로 성장하는 생물분자-자연언어 통합 학습 분야에서 첫번째 체계적 리뷰를 제공하며, 명확한 분류체계와 이중 목표 분석 틀로 학제 간 연구자들에게 유용한 나침반 역할을 한다. 다만 개별 방법론에 대한 심화 비교 분석과 실제 생물학적 검증 통합이 강화되면 더욱 임팩트 있는 리뷰가 될 수 있다.

#296 2025 4/5

Moose-chem3: Toward experiment-guided hypothesis ranking via simulated experimental feedback

저자: Wanhao Liu, Zonglin Yang, Jue Wang, Lidong Bing, Di Zhang, Dongzhan Zhou, Yuqiang Li, Houqiang Li, Erik Cambria, Wanli Ouyang | 날짜: 2025 | DOI: arXiv:2505.17873

그림 1: 랭킹 전략의 개요. 사전 실험 랭킹(pre-experiment ranking)은 피드백이 없으며, 실제 실험 기반 랭킹은 상태 의존적이지만 확장 불가능하고, 시뮬레이터 기반 접근은 신속하고 확장 가능함

Essence

![Figure 1](figures/fig1.webp) *그림 1: 랭킹 전략의 개요. 사전 실험 랭킹(pre-experiment ranking)은 피드백이 없으며, 실제 실험 기반 랭킹은 상태 의존적이지만 확장 불가능하고, 시뮬레이터 기반 접근은 신속하고 확장 가능함* 본 논문은 자동 과학 발견(automated scientific discovery)에서 가설 순위 지정(hypothesis ranking)을 위해 **시뮬레이션된 실험 피드백(simulated experimental feedback)**을 활용하는 새로운 과제를 제안한다. 실험실 실험이 비싸고 처리량이 제한적인 자연과학 영역에서, 실제 실험을 반복 수행하지 않으면서도 실험 기반 순위 지정 정책을 개발할 수 있는 고충실도(high-fidelity) 시뮬레이터와 맥락 내 강화학습(in-context reinforcement learning, ICRL) 프레임워크를 제시한다.

Evaluation

Overall: 4

본 논문은 실험 피드백의 불가용성이라는 자동 과학 발견의 핵심 병목을 창의적으로 인식하고, 원리적으로 타당한 시뮬레이터 설계와 함께 동작하는 ICRL 정책을 제시한다. 공개된 데이터셋과 재현 가능한 프레임워크는 커뮤니티에 즉각적인 기여를 제공할 것으로 판단되나, 시뮬레이터의 가우시안 가정과 A1의 현실적 한계에 대한 보완과 더 광범위한 도메인 검증이 필요하다.

#297 2025 4/5

Invariant Tokenization of Crystalline Materials for Language Model Enabled Generation

저자: Keqiang Yan, Xiner Li, Hongyi Ling, K. Ashen, Carl N. Edwards | 날짜: 2025 | DOI: 10.48550/arXiv.2503.00152

CIF 파일 기반 방법의 한계: 동일 결정이 주기적 변환에 따라 서로 다른 CIF 파일로 표현되는 문제

Essence

![Figure 2](figures/fig2.webp) *Mat2Seq의 파이프라인: 3D 결정 구조를 Niggli 셀 축약과 원시 단위 셀 결정을 거쳐 고유한 1D 수열로 변환* 본 연구는 3D 결정 구조(crystal structure)를 언어 모델(LM)이 처리 가능한 1D 수열로 변환하되, SE(3) 불변성과 주기성 불변성을 보장하는 **Mat2Seq** 방법을 제안한다. 이를 통해 동일한 결정에 대해 고유한 수열 표현을 생성하여 언어 모델 기반의 신규 결정 물질 생성을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

Mat2Seq은 결정 물질의 언어 모델 기반 생성이라는 새로운 분야에서 불변성과 고유성의 근본적 수학적 문제를 처음으로 체계적으로 정의하고 해결하는 의미 있는 기여를 한다. Niggli 셀 축약을 활용한 접근은 우아하고 이론적으로 견고하며, 데이터 증강 제거라는 실질적 이점을 제공한다. 다만 구체적 알고리즘 상세도 및 광범위한 생성 성능 비교 실험 보강이 있으면 영향력 있는 표준 방법론으로 자리 잡을 수 있을 것으로 예상된다.

#298 2024 4/5

CACTUS: Chemistry Agent Connecting Tool Usage to Science

저자: Andrew D. McNaughton, Gautham Ramalaxmi, Agustin Kruel, C. Knutson, R. Varikoti | 날짜: 2024 | DOI: 10.1021/acsomega.4c08408

Essence

대규모 언어 모델(LLM)과 화학정보학 도구를 통합한 CACTUS라는 지능형 에이전트를 개발하여, 약물 설계 및 분자 발견 업무에서 기존 LLM의 성능을 대폭 향상시켰다. 오픈소스 LLM 5개 모델의 벤치마킹을 통해 도메인 특화 프롬프트 엔지니어링의 중요성을 입증했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

CACTUS는 LLM과 화학정보학 도구의 통합을 통해 약물 설계 및 분자 발견 분야에서 의미 있는 진전을 이루었으며, 오픈소스 기반 접근성과 확장 가능한 아키텍처로 실제 과학 연구에 즉시 적용 가능한 가치를 제공하나, 입력 형식 제한과 추론 정확성 문제에 대한 개선이 필요하다.

#299 2023 4/5

Fimo: A challenge formal dataset for automated theorem proving

저자: Chengwu Liu, Jianhao Shen, Huajian Xin, Zheng‐Ying Liu, Ye Yuan, Haiming Wang, Lili Ju, Chuanyang Zheng, Yichun Yin, Lin Li, Ming Zhang, Qun Liu | 날짜: 2023 | DOI: arXiv:2309.04295

Essence

국제수학올림피아드(IMO) 수준의 149개 형식적 수학 문제와 자연언어 증명을 포함한 FIMO 데이터셋을 제시하며, 대규모언어모델(LLM)의 자동정리증명(Automated Theorem Proving, ATP) 능력이 IMO 수준에서 여전히 부족함을 보여준다.

Evaluation

Overall: 4

FIMO는 IMO 수준의 형식수학 벤치마크를 제공하는 가치 있는 데이터셋이지만, 기하/조합론 미포함 및 제한된 모델 평가를 보완하면 더욱 강력한 기여가 가능하다.

#300 2025.03 4/5

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

저자: Shuo Ren, Can Xie, Pu Jian, Zhenjiang Ren, Chunlin Leng, Jiajun Zhang | 날짜: 2025.03

그림 1: LLM 기반 과학 에이전트의 전형적인 아키텍처

Essence

![Figure 1](figures/fig1.webp) *그림 1: LLM 기반 과학 에이전트의 전형적인 아키텍처* 본 논문은 가설 생성, 실험 설계, 데이터 분석 등 과학적 발견 전 과정을 자동화하는 LLM 기반 과학 에이전트(Scientific Agent)의 아키텍처, 설계, 벤치마크, 응용, 윤리적 고려사항을 포괄적으로 검토한 서베이 논문이다. 일반 목적의 LLM과 달리 도메인 특화 지식, 고급 도구 집합, 강건한 검증 메커니즘을 통합하여 재현성 있는 과학적 발견을 주도한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 과학 에이전트에 대한 첫 체계적 메커니즘 중심 분석을 제공하며, 120+ 논문과 40+ 벤치마크를 정리한 포괄적 자원으로서의 가치가 크다. 다만 제공된 본문에서는 아키텍처 개요만 다루어 Memory, Action Space, Verifier, Benchmarks, Applications, Ethics에 대한 실질적 내용이 부족하며, 실증적 성능 비교와 도메인 간 전이 가능성에 대한 정량적 평가가 필요하다. 완성된 서베이로서는 높은 참고 가치를 가질 것으로 예상되나, 현재 제시된 본문만으로는 메커니즘 분류의 명확성과 실용적 설계 가이드라인에 주로 의존한다.

#301 2024 3/5

Domain-specific ReAct for physics-integrated iterative modeling: A case study of LLM agents for gas path analysis of gas turbines

저자: Tao Song, Yuwei Fan, Chen Feng, Keyu Song, Chao Liu | 날짜: 2024 | DOI: 10.48550/arXiv.2406.07572

그림 1: 가스터빈의 가스 경로 분석 개요

Essence

![Figure 2](figures/fig2.webp) *그림 2: 이중 에이전트 도구 호출 프로세스* 본 논문은 LLM(대규모 언어 모델)을 에너지·발전 공학 영역의 실제 문제 해결에 활용하기 위해 ReAct 프롬프팅과 도구 호출 메커니즘을 결합한 도메인 특화 프레임워크를 제시한다. 가스터빈의 가스 경로 분석(gas path analysis)을 사례로 하여 다양한 규모의 LLM들의 능력과 한계를 체계적으로 평가한다.

Evaluation

Overall: 3

본 논문은 LLM을 물리 기반 도메인 문제에 체계적으로 적용한 의미 있는 사례 연구로, 도메인 특화 프레임워크의 설계와 모델 규모별 성능 평가에 기여한다. 다만 현재는 정성적 관찰 중심이며, 통계적 검증과 실제 산업 데이터를 통한 검증이 추가되면 영향력을 크게 확대할 수 있을 것으로 판단된다.

Experimental Social Sciences 4 ▶

#302 2025.01 4/5

LLM4SR: A Survey on Large Language Models for Scientific Research

저자: Ziming Luo, Zonglin Yang, Zexin Xu, Wei Yang, Xinya Du | 날짜: 2025.01 | DOI: 10.48550/arXiv.2501.04306

그림 1: 논문에서 다루는 과학 연구 파이프라인의 체계적 개요. 순환 과정은 과학적 가설 발견, 실험 계획 및 실행, 논문 작성, 논문 심사로 구성됨

Essence

![Figure 1](figures/fig1.webp) *그림 1: 논문에서 다루는 과학 연구 파이프라인의 체계적 개요. 순환 과정은 과학적 가설 발견, 실험 계획 및 실행, 논문 작성, 논문 심사로 구성됨* 대규모 언어 모델(LLM)이 과학 연구의 전 주기(가설 발견, 실험 계획, 논문 작성, 동료 심사)에 어떻게 적용되고 있는지를 최초로 체계적으로 분석한 종합 서베이이다. 이 논문은 각 연구 단계별 LLM의 독특한 역할, 과제별 방법론, 평가 벤치마크를 종합적으로 정리한다.

Evaluation

Overall: 4

이 서베이는 급속히 발전하는 LLM 기술이 과학 연구의 모든 단계에 어떻게 혁신을 가져오고 있는지를 최초로 체계적으로 정리한 중요한 작업이다. 100개 이상의 관련 시스템을 분석하고 4개 영역별로 상세히 분류하여, 연구자들이 LLM을 자신의 연구에 실제로 활용할 수 있도록 실질적 로드맵을 제공한다. 다만 LLM의 과학적 정확성 검증 메커니즘, 도메인별 특화 평가 기준의 부족, 인간-AI 협력에 대한 깊이 있는 논의가 보강되면 더욱 완성도 높은 가이드가 될 것으로 기대된다.

#303 2024 4/5

Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs

저자: Ziyan Cui, Ning Li, Huaikang Zhou (Tsinghua University) | 날짜: 2024

Essence

![Figure 2](figures/fig2.webp) *주요 특성별 주효과(Main Effects) 재현율 비교* 대규모 심리학 실험 156개를 GPT-4, Claude 3.5 Sonnet, DeepSeek v3 등 3개의 최신 LLM으로 재현한 결과, LLM은 주효과 73-81%의 높은 재현율을 보이지만 인종, 성별 등 사회적으로 민감한 주제에서는 현저히 낮은 성과를 보였으며, 효과크기가 인간 연구보다 2-3배 크다는 체계적 편차를 드러냈다.

Evaluation

Overall: 4

이 논문은 AI 시대 사회과학 연구 방법론의 중대한 전환점을 다룬 가치 있는 대규모 실증 연구이다. LLM의 가능성과 한계를 명확하게 규명하고, 특히 사회적으로 민감한 주제에서의 체계적 편차를 입증함으로써 "LLM이 인간을 완전히 대체할 수 없다"는 중요한 결론을 제시한다. 다만 빠르게 진화하는 LLM 기술에 대응하기 위해 지속적 모니터링과 미세 조정(fine-tuning) 전략에 대한 후속 연구가 필요하다.

#304 2025 4/5

Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges

저자: Xiao Xiao, Yu-Xuan Su, Sijing Zhang, Zhan Chen, Yadong Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2504.21303

6개 앵커 모델의 50개 평가 질문에 대한 성공률 (각 질문당 O=10회 시행)

Essence

본 논문은 제한된 샘플 크기 조건에서 대규모언어모델(LLM)을 평가하기 위해 베이지안 추론을 활용한 새로운 방법론을 제시한다. 사전지식(Prior Knowledge)을 통합하여 모델 간 순위를 확률적으로 추정하며, 결정론적 메트릭의 한계를 극복한다.

Evaluation

Overall: 4

본 논문은 LLM 평가의 근본적 도전(소량 샘플, 질문 난이도 편차)을 베이지안 확률 프레임워크로 우아하게 해결한 견고한 연구다. 실제 배포 환경에서의 적용 가치가 높으나, 핵심 가정들(독립성, 선형성, 구간 균등성)에 대한 경험적 검증이 더 필요하며 더 다양한 모델 계열과의 교차 검증을 통해 일반화 가능성을 확인해야 한다.

#305 2025 4/5

Predicting field experiments with large language models

저자: Yaoyu Chen, Yuheng Hu, Yingda Lu | 날짜: 2025 | DOI: 미제공

논문 수집 및 필터링 과정: 6,544개 논문에서 최종 276개의 현장 실험 선정

Essence

대규모 언어 모델(LLM)을 이용하여 경제학 문헌의 현장 실험(field experiment) 결과를 자동으로 예측하는 프레임워크를 제안하고, 276개 실험에서 78%의 예측 정확도를 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

현장 실험 예측이라는 새로운 도메인으로 LLM 시뮬레이션을 확장하고 대규모 자동화 평가를 통해 실질적 적용 가능성을 보였으나, LLM의 근본적 한계(복잡한 사회 이슈 처리 부족)가 명확하여 실무 적용 시 주의가 필요한 연구이다.

Hypothesis Generation Systems 6 ▶

#306 2025 4/5

Toward reliable biomedical hypothesis generation: Evaluating truthfulness and hallucination in large language models

저자: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang (University of Virginia) | 날짜: 2025 | DOI: 10.24963/ijcai.2025/873

TruthHypo 벤치마크 개요: 데이터셋 구성, 작업 수식화, 진실성 평가를 포함

Essence

![Figure 1](figures/fig1.webp) *TruthHypo 벤치마크 개요: 데이터셋 구성, 작업 수식화, 진실성 평가를 포함* 대규모 언어 모델(LLM)의 생의학 가설 생성 능력을 평가하기 위해 TruthHypo 벤치마크와 KnowHD 할루시네이션 탐지 프레임워크를 제안했으며, LLM이 진실한 가설 생성에서 상당한 어려움을 겪음을 입증하고 지식 기반 접지(groundedness) 점수를 통한 검증 방법을 제시했다.

Evaluation

Overall: 4

본 논문은 LLM 기반 과학 가설 생성의 신뢰성 평가라는 중요한 문제를 체계적으로 다루었으며, 실용적 벤치마크와 할루시네이션 탐지 프레임워크를 제시한 고가치 연구이다. 다만 평가 범위 확대와 KnowHD의 자동화 정도 개선이 향후 과제이다.

#307 2024 4/5

Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models

저자: Guangzhi Xiong, Eric Xie, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov | 날짜: 2024 | DOI: 10.48550/arXiv.2411.02382

KG-CoI 시스템의 개요: KG 기반 맥락 검색, KG 증강 아이디어 체인 생성, KG 기반 환각 감지 모듈로 구성

Essence

![Figure 1](figures/fig1.webp) *KG-CoI 시스템의 개요: KG 기반 맥락 검색, KG 증강 아이디어 체인 생성, KG 기반 환각 감지 모듈로 구성* LLM의 과학적 가설 생성 능력을 지식 그래프(Knowledge Graph)의 구조화된 정보와 통합하여 향상시키고, 생성 과정의 환각(hallucination)을 감지 및 완화하는 KG-CoI 시스템을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

KG-CoI는 LLM의 과학적 가설 생성 능력을 향상시키기 위해 지식 그래프를 체계적으로 통합한 참신한 접근법을 제시하며, 특히 환각 탐지 모듈과 새로운 평가 데이터셋은 과학 AI 분야에 실질적 기여를 한다. 다만 생물의학 영역에 국한된 평가와 다른 도메인으로의 일반화 가능성 검증이 필요하다.

#308 2025 4/5

AstroAgents: A Multi-Agent AI for Hypothesis Generation from Mass Spectrometry Data

저자: Daniel Saeedi, Denise Buckner, J. Aponte, Amirali Aghazadeh | 날짜: 2025 | DOI: 10.48550/arXiv.2503.23170

AstroAgents는 8개의 협력 에이전트로 구성된 다중 에이전트 시스템으로, 질량 분석(Mass Spectrometry) 데이터로부터 천문생물학적 가설을 생성하고 평가한다.

Essence

![Figure 1](figures/fig1.webp) *AstroAgents는 8개의 협력 에이전트로 구성된 다중 에이전트 시스템으로, 질량 분석(Mass Spectrometry) 데이터로부터 천문생물학적 가설을 생성하고 평가한다.* 본 논문은 대규모 언어 모델(LLM) 기반의 다중 에이전트 AI 시스템인 AstroAgents를 제시하여, 운석과 토양 샘플의 질량 분석 데이터로부터 생명의 기원에 관한 과학적 가설을 자동 생성한다. 8개의 전문화된 에이전트의 협력을 통해 데이터 해석, 가설 생성, 문헌 검토, 비판적 평가의 전체 파이프라인을 구현했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

AstroAgents는 천문생물학 분야에 다중 에이전트 AI 시스템을 처음 적용한 창의적 연구로, 36% 타당성과 66% 새로움이라는 실증적 성과를 보여주었으나, 평가 데이터셋 규모, 단일 평가자 편향, 모델 의존성 등 방법론적 한계가 있다. 향후 실험적 검증 및 더 큰 규모의 다양한 샘플 데이터 적용을 통해 실용성을 강화할 필요가 있다.

#309 2025 4/5

HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

저자: Haokun Liu, Sicong Huang, Jingyu Hu, Yangqiaoyu Zhou, Chenhao Tan | 날짜: 2025 | DOI: 10.48550/arXiv.2504.11524

대학 입시 예시를 통해 합성 데이터셋의 난이도 제어 메커니즘을 보여줌: 특성 개수 증가, 노이즈 추가, 특성 상호작용, 방해 특성 추가

Essence

대규모 언어모델(LLM)의 가설 생성(Hypothesis Generation) 능력을 체계적으로 평가하기 위해 7개의 실제 과제와 5개의 합성 과제로 구성된 194개 데이터셋을 포함하는 벤치마크 HypoBench를 제시한다. 합성 데이터셋에서 난이도 증가에 따라 성능이 급격히 저하되는 점(최고 38.8% 회복율)을 통해 현존 가설 생성 방법의 상당한 개선 여지를 드러낸다.

Evaluation

Overall: 4

HypoBench는 가설 생성 분야의 첫 체계적 벤치마크로서, 명확한 문제 정의와 194개 데이터셋의 방대한 규모에서 큰 가치를 지닌다. 특히 난이도 제어 가능한 합성 데이터를 통해 현존 방법(38.8% HDR)의 한계를 정량화한 점은 향후 연구에 명확한 방향성을 제시한다. 다만 실제 데이터의 그라운드 트루스 부재와 흥미로움 지표의 미완성이 평가의 완전성을 제약하므로, 후속 개선과 확장이 기대된다.

#310 2025 4/5

LLM-based Corroborating and Refuting Evidence Retrieval for Scientific Claim Verification

저자: Siyuan Wang, James R. Foulds, Md Osman Gani, Shimei Pan | 날짜: 2025 | DOI: arXiv:2503.07937

CIBER 시스템 아키텍처: 다중 측면 심문(MAI), 응답 해석(RR), 판정 및 신뢰도(V&C) 모듈로 구성

Essence

![Figure 1](figures/fig1.webp) *CIBER 시스템 아키텍처: 다중 측면 심문(MAI), 응답 해석(RR), 판정 및 신뢰도(V&C) 모듈로 구성* CIBER는 검색 증강 생성(RAG) 프레임워크를 확장하여 과학적 주장(claim)을 검증하기 위해 지지 증거와 반박 증거를 체계적으로 식별하고 검색하는 프레임워크이다. 다양한 질문 프로브(probe)를 통해 LLM의 응답 일관성을 평가함으로써 환각(hallucination) 문제를 완화한다.

Evaluation

Overall: 4

CIBER는 RAG의 생성 단계에 초점을 맞춰 다중 측면 심문을 통해 LLM 응답의 신뢰성을 체계적으로 평가하는 혁신적 프레임워크로, 과학적 주장 검증과 같은 고신뢰도 응용에서 실질적 가치를 제공한다. 다만 대규모 실제 데이터에서의 광범위한 검증과 계산 비용 최적화, 설명가능성 강화가 향후 과제이다.

#311 2025 4/5

Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

저자: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari | 날짜: 2025 | DOI: 10.24963/ijcai.2025/873

TruthHypo 벤치마크의 개요: 데이터셋 구성, 작업 공식화, 진실성 평가

Essence

![Figure 1](figures/fig1.webp) *TruthHypo 벤치마크의 개요: 데이터셋 구성, 작업 공식화, 진실성 평가* 본 논문은 과학 가설 생성에서 대규모 언어모델(LLM)의 진실성을 평가하기 위한 TruthHypo 벤치마크와 환각(hallucination) 탐지를 위한 KnowHD 프레임워크를 제시한다. LLM이 그럴듯해 보이지만 과학적으로 부정확한 가설을 생성하는 문제를 체계적으로 연구하기 위한 포괄적 접근법을 제공한다.

Evaluation

Overall: 4

이 논문은 LLM 기반 과학 발견의 신뢰성 문제를 처음 체계적으로 다루며, TruthHypo와 KnowHD라는 실용적 도구를 제공함으로써 과학 혁신에 실질적으로 기여할 수 있는 중요한 작업이다. 다만 생의학 영역 국한과 자동 평가의 견고성 강화가 향후 과제이다.

Multi-Agent Scientific Computing Platforms 146편 ▶

Multi-Agent Scientific Computing Platforms Timeline

Category Overview

멀티에이전트 과학 컴퓨팅 플랫폼(Multi-Agent Scientific Computing Platforms)은 대규모 언어 모델(Large Language Models)과 자동화 에이전트를 결합하여 과학 연구의 전 단계를 자동화하는 혁신적인 기술 영역이다. ReAct 프레임워크[655]를 기반으로 한 추론과 행동의 통합부터, 데이터 분석[429], 유전자 분석[371], 메타데이터 수집[398] 등 다양한 과학적 작업에 특화된 에이전트 시스템들이 개발되고 있다. 지구 관측[298], 물리 법칙 발견[085], 계산유체역학(Computational Fluid Dynamics)[587] 등 특정 과학 도메인을 대상으로 한 전문화된 에이전트들이 등장하면서, 과학 연구의 자동화 수준이 점진적으로 향상되고 있다. 자율 실험실 로봇(Autonomous Laboratory Robotics)[141, 745], 약물 발견(Drug Discovery)[764], AI 연구 자동화[828] 등 실제 임상·산업 응용 분야에서도 멀티에이전트 시스템의 효용이 입증되고 있다. SciAgentGym[704]과 ScienceAgentBench[716] 같은 벤치마크 플랫폼들은 과학 에이전트의 성능을 체계적으로 평가하고 개선하기 위한 표준화된 평가 환경을 제공한다. 이러한 플랫폼들은 가설 자동 검증[123], 동료 평가 자동화[070], 소프트웨어 개발 자동화[586] 등으로 확장되며, 과학 발견 자동화(Autonomous Hypothesis Discovery)의 새로운 시대를 열고 있다.

Multi-agent Language Systems: # Multi-agent Language Systems Multi-agent Language Systems는 대규모 언어 모델(Large Language Models, LLM)을 기반으로 여러 에이전트가 협력하여 과학적 문제를 해결하는 플랫폼입니다. 이러한 시스템은 추론(Reasoning)과 행동(Acting)을 결합하여 복잡한 과학 계산 작업을 자동화하고 최적화합니다[655]. 데이터 분석, 과학적 발견, 기호 추론(Symbolic Reasoning) 등 다양한 도메인에서 언어 모델 기반 에이전트들이 구조화된 작업을 수행하며, 이들의 성능을 평가하기 위한 벤치마크 데이터셋이 개발되고 있습니다[429][792]. 특히 자동화된 데이터 과학(Automated Data Science)이나 과학 텍스트 분석과 같은 특화된 응용 분야에서 다중 에이전트 시스템이 인간 전문가의 역할을 보조하고 확장합니다[594]. 이러한 플랫폼들은 도메인 특화 지식과 언어 모델의 범용성을 결합하여 과학 연구의 효율성을 획기적으로 향상시키는 기술입니다.
Multi-Agent Scientific Frameworks: Multi-Agent Scientific Frameworks는 다중 에이전트 시스템을 활용하여 과학 연구의 자동화와 최적화를 실현하는 기술 분야입니다. 이 분야는 LLM(Large Language Model) 기반 에이전트들이 협력하여 가설 검증, 수치 계산, 실험 재현 등의 복잡한 과학적 작업을 자율적으로 수행하는 것을 목표로 합니다. [123]의 자동화된 가설 검증 시스템과 [142]의 PDE 해결을 위한 멀티에이전트 파이프라인처럼, 이러한 프레임워크들은 전문가 수준의 과학적 의사결정을 지원합니다. 또한 [497]에서 제시하는 시뮬레이션과 LLM의 이계층 최적화(Bilevel Optimization) 패러다임은 탐색과 최적화의 새로운 방향을 제시하고 있습니다. 안전성과 신뢰성 측면에서는 [692]의 위험 인식 기반 과학 발견 방법과 [039]의 에이전트 메모리 구조가 시스템의 신뢰도를 향상시키고 있습니다. Multi-Agent Scientific Frameworks는 과학 연구의 효율성을 획기적으로 증대시키며, 인간 과학자와 AI의 협업 모델을 재정의하고 있습니다.
Scientific Code Agents: Scientific Code Agents는 AI 연구와 과학 계산을 자동화하기 위해 설계된 다중 에이전트 시스템으로, Large Language Models(LLM)을 기반으로 자율적으로 과학 코드를 작성하고 실행하며 최적화할 수 있습니다. [828]에서 제시된 end-to-end automation 개념과 [738]의 Global Web of Autonomous 플랫폼은 연구자들이 반복적인 코딩 작업을 자동화하고 발견을 가속화할 수 있는 기반을 마련합니다. [121]의 Autokaggle과 [059]의 Agent Laboratory는 데이터 사이언스와 연구 실험 자동화에 특화된 프레임워크로, 에이전트들이 협력하여 데이터 분석, 모델 개발, 결과 해석을 독립적으로 수행합니다. [384]의 GIS Copilot과 [098]의 geospatial agent framework는 공간 데이터 분석 분야에서 도메인 특화 자동화를 실현하는 사례입니다. 이러한 Scientific Code Agents는 [071]에서 강조된 Collaborative Autonomous Research 환경을 조성하여, 인간 연구자와 AI 에이전트가 함께 과학적 발견을 추진할 수 있는 새로운 패러다임을 제시합니다.
Clinical Multi-Agent Systems: 임상 다중에이전트 시스템(Clinical Multi-Agent Systems)은 의료 분야에서 대규모 언어모델(Large Language Models, LLMs)을 기반으로 여러 AI 에이전트가 협력하여 진단, 상담, 의사결정을 지원하는 기술이다. [529]와 [644]에서 제시된 바와 같이, 이러한 시스템은 MedAgents, Psyche, PatientSim 등의 플랫폼을 통해 환자 시뮬레이션(Patient Simulation)과 의료 전문가 간 상호작용을 재현할 수 있다. [078]의 AI Hospital 벤치마크와 [027]의 설문 연구에 따르면, 다중에이전트 아키텍처는 제로샷(Zero-shot) 학습 능력을 활용하여 의료 지식 근거를 제공하고 임상 의사결정 지원(Clinical Decision Support)을 강화한다. [531]과 [663]에서 강조하는 인간-AI 협업(Human-AI Collaboration)과 강화학습(Reinforcement Learning) 기법을 통해 진단 정확성을 개선하고 상담 효과를 증대시킬 수 있다. 이러한 임상 다중에이전트 시스템은 의료 업무의 자동화와 전문가 판단의 보완을 동시에 달성하는 혁신적 접근법이다.
Autonomous Hypothesis Discovery: 자율 가설 발견(Autonomous Hypothesis Discovery)은 멀티 에이전트 과학 컴퓨팅 플랫폼에서 인공지능이 인간의 개입 없이 독립적으로 새로운 과학적 가설을 생성하고 검증하는 기술 분야이다. 이러한 접근법은 대규모 언어 모델(Large Language Model)과 멀티 에이전트 시스템(Multi-Agent System)을 활용하여 생물학, 화학, 물리학 등 다양한 과학 영역에서 탐색 공간을 체계적으로 탐색한다[371][764]. Physics-informed 원칙과 Self-verification 메커니즘을 통해 에이전트들은 단순한 데이터 분석을 넘어 개념 기반(Concept-driven)의 과학적 법칙 발견을 수행한다[085][620]. Self-driving laboratories와 같은 실험 자동화 플랫폼과 통합되면, 가설 발견에서 검증까지의 전체 과학 연구 사이클을 자동화할 수 있다[745]. Heuristic search와 Bayes-Entropy 기반의 협업 최적화 기법은 광대한 가설 공간에서 가장 유망한 후보를 효율적으로 탐색하는 데 기여한다[213][623].
CRISPR Drug Tools: CRISPR 약물 개발 도구(CRISPR Drug Tools)는 대규모 언어 모델(Large Language Model, LLM) 기반의 AI 에이전트를 활용하여 유전자 편집 및 신약 개발 프로세스를 자동화하는 멀티-에이전트 과학 컴퓨팅 플랫폼입니다. [240]의 CRISPR-GPT는 유전자 편집 실험의 설계를 자동화하며, [290]의 DrugAgent는 AI 기반 신약 발견 프로그래밍을 자동화합니다. [351]의 FROGENT는 신약 설계의 전체 프로세스를 다루는 멀티-에이전트 시스템으로, 계획과 실행을 통합합니다. [248]의 Curie와 [229]의 COCOA는 과학 실험의 엄격한 자동화와 AI 에이전트 간의 협력 계획(Co-planning)을 실현합니다. [407]의 HoneyComb은 유연한 LLM 기반 에이전트 시스템으로 재료 과학 분야에 적용되며, [774]의 STELLA는 자가 진화(Self-Evolving) 능력을 갖춘 생의학 세계 모델(Biomedical World Model)을 구축합니다. 이러한 도구들은 복잡한 생물학적 및 화학적 실험을 인간 개입 없이 수행할 수 있게 함으로써 신약 개발의 효율성을 대폭 향상시킵니다.
Autonomous Laboratory Robotics: Autonomous Laboratory Robotics는 과학 연구의 자동화를 위해 AI 에이전트와 로봇 시스템을 통합하는 분야입니다. 이 카테고리는 지구 관측(Earth observation) [298], 생물학적 이미징(biological imaging) [141], 공간 생물학(spatial biology) [766] 등 다양한 영역에서 자율적 실험 수행을 가능하게 합니다. 시스템 생물학 연구의 완전 자동화 [381]부터 행동 분석(behavior analysis) [097], 로봇 자동화 시뮬레이션(robotic automation simulation) [118], 그리고 대규모 언어 모델(large language models)을 활용한 생물정보학 에이전트(bioinformatics agent) [164]에 이르기까지, 이들 플랫폼은 인간 개입을 최소화하면서 높은 정확도의 과학적 발견을 추구합니다. 자율 로봇 시스템의 발전은 실험 처리량(experimental throughput)을 대폭 증대시키고 연구 비용을 절감하는 핵심 기술로 부상하고 있습니다.
Multi-Agent Language Interaction: Multi-Agent Language Interaction은 여러 AI 에이전트(agent)가 자연언어를 통해 상호작용하며 과학 및 소프트웨어 개발 작업을 협력적으로 수행하는 분야입니다. [586][205]에서 보는 바와 같이, OpenHands와 ChatDev 같은 플랫폼들은 communicative agent 기반의 협업 시스템을 구현하여 복잡한 개발 업무를 자동화합니다. 이러한 시스템들은 multi-agent collaboration 메커니즘을 통해 각 에이전트가 역할을 분담하고 언어 기반의 피드백(feedback)을 주고받으며 문제 해결 능력을 향상시킵니다[514]. 또한 [888]에서 제시된 웹 벤치마크(benchmark)와 같은 평가 방법론이 다중 언어 환경에서 에이전트의 성능을 검증하는 데 중요한 역할을 합니다. Small Language Models의 활용[760]은 제한된 컴퓨팅 자원 환경에서도 효율적인 multi-agent 시스템 운영을 가능하게 합니다.
LLM-Driven Drug Discovery: LLM 기반 신약 개발(LLM-Driven Drug Discovery)은 대규모 언어모델(Large Language Models, LLM)을 활용하여 약물 발견 과정을 자동화하고 가속화하는 다중 에이전트(Multi-Agent) 과학 컴퓨팅 플랫폼입니다. 이 분야의 연구들은 LLM 에이전트들이 협력하여 약물 후보 물질 탐색, 분자 설계, 약효 예측 등의 복잡한 약학 연구 작업을 수행할 수 있음을 보여줍니다 [554][616]. 피어 리뷰(Peer Review) 프로세스 자동화 [070]부터 생의학 연구 자동화(Automating Biomedical Research) [357]에 이르기까지, 이러한 플랫폼들은 가상 제약회사(Virtual Pharma) 구축을 통해 신약 개발의 시간과 비용을 획기적으로 단축할 수 있는 잠재력을 제시합니다. 또한 물리 법칙 발견(Physical Laws Discovery) [012]과 같은 기초 과학 분야와의 융합을 통해 LLM 에이전트 기반 과학 연구의 범용성을 확대하고 있습니다. LLM 기반 신약 개발 플랫폼은 현대 약학 연구의 패러다임 전환을 주도하는 핵심 기술로 주목받고 있습니다.
Embodied AI Research: Embodied AI Research는 물리적 환경과 상호작용하며 학습하고 사고하는 AI 시스템 개발에 중점을 두는 연구 분야입니다. 이 분야는 AI가 단순한 계산 도구를 넘어 과학적 발견과 창의적 사고에 참여하는 지능형 에이전트(intelligent agent)로 발전하는 것을 목표로 합니다. [079]에서는 AI 연구 아이디어 생성을 위한 벤치마크를 제시하며, [175]에서는 인간과 함께 학습하고 사고하는 기계 개발의 필요성을 강조합니다. 멀티에이전트 시스템(multi-agent system)의 협력을 통해 [817]에서 제안한 바와 같이 과학 발견을 위한 AI 과학자 팀 구축이 가능해집니다. [285]의 폐쇄 루프 자동 연구(closed-loop auto-research) 방식은 AI가 독립적으로 과학적 가설을 검증하고 개선하는 능력을 보여줍니다. Embodied AI Research는 인간-AI 협업(human-AI collaboration)의 새로운 패러다임을 제시하며, 과학 연구의 효율성과 창의성을 획기적으로 향상시킬 수 있는 잠재력을 가지고 있습니다.
AI-Powered Protein Research: AI 기반 단백질 연구(AI-Powered Protein Research)는 대규모 언어 모델(Large Language Model, LLM)을 활용하여 과학 연구의 자동화와 효율성을 극대화하는 분야입니다. AutoProteinEngine과 같은 LLM 기반 에이전트 프레임워크[144]는 단백질 구조 예측, 약물 발견, 생명과학 연구 등의 복잡한 작업을 자율적으로 수행합니다. 화학 문헌 분석을 위한 자율 에이전트[1084]와 머신러닝 연구 자동화(MLR-COPILOT)[549]도 과학자들의 의사결정을 지원하며 연구 시간을 대폭 단축시킵니다. 다만 LLM 기반 에이전트 시스템에서는 할루시네이션(hallucination) 완화[396]와 같은 신뢰성 확보가 중요한 과제입니다. AI 에이전트의 도입은 과학 연구의 워크플로우를 자동화 및 강화(Automation and Augmentation)하면서 미래 연구 환경의 패러다임을 변화시키고 있습니다[365].
Scientific Discovery Benchmarks: Scientific Discovery Benchmarks는 대규모 언어모델(LLM)을 기반으로 한 멀티에이전트 과학 컴퓨팅 플랫폼의 성능을 평가하기 위한 벤치마크 모음입니다. [704]의 SciAgentGym은 다중 단계의 과학 도구 활용(multi-step scientific tool-use) 능력을 체계적으로 측정하는 평가 프레임워크를 제시하며, [716]의 ScienceAgentBench는 언어 에이전트(language agent)의 엄격한 성능 평가를 위한 평가 방법론을 제안합니다. [294]의 DSBench는 데이터 과학 에이전트(data science agent)가 실제 데이터 과학자 수준에 얼마나 근접했는지를 측정하는 벤치마크이며, [496]과 [277]의 연구들은 에이전트 도구 활용(agent tool-use) 및 대규모 언어모델을 활용한 데이터 기반 발견(data-driven discovery)의 능력을 평가합니다. 이러한 벤치마크들은 자동화된 과학 연구와 발견 과정에서 AI 에이전트의 신뢰성과 실용성을 검증하는 데 필수적입니다.
Physics-Informed Neural Agents: Physics-Informed Neural Agents (PINA)는 물리 법칙을 신경망에 통합하여 과학 컴퓨팅 문제를 해결하는 지능형 에이전트들의 범주입니다. [456] Lang-PINN은 자연언어로부터 물리기반신경망(Physics-Informed Neural Networks)을 자동 생성하는 기술로, 사용자의 문제 기술을 직접 신경망 모델로 변환하는 혁신적 접근을 제시합니다. [061] Agent S와 같은 오픈 에이전트 프레임워크들은 컴퓨터를 활용하여 복잡한 과학 계산을 자동화하며, 이러한 시스템들이 과학자의 의도를 이해하고 실행할 수 있는 능력을 제공합니다. [596] OWL과 같은 다중에이전트 학습(Multi-Agent Learning) 최적화 기법들은 여러 물리 에이전트들이 협력하여 일반적인 계산 작업을 효율적으로 수행할 수 있도록 합니다. 이러한 Physics-Informed Neural Agents는 과학 발견 자동화, 실험 설계 최적화, 그리고 복잡한 물리 시뮬레이션 분야에서 혁신적인 가능성을 열어주고 있습니다.
Computational Fluid Dynamics: # 계산유체역학(Computational Fluid Dynamics, CFD) 계산유체역학 분야의 다중 에이전트 과학 컴퓨팅 플랫폼은 대규모 언어 모델(Large Language Model, LLM)을 기반으로 CFD 시뮬레이션의 자동화를 추진하고 있습니다. OpenFOAMGPT와 MetaOpenFOAM 같은 시스템들은 사용자가 자연어로 유동 문제를 기술하면, 복잡한 CFD 설정과 계산을 자동으로 수행하는 에이전트 기반 프레임워크를 제공합니다[535][588]. 특히 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기술을 활용하여 신뢰할 수 있는 자동화 시스템을 구축함으로써, 비전문가도 고급 CFD 분석을 수행할 수 있게 만들었습니다[589]. 이러한 플랫폼들은 OpenFOAM 같은 오픈소스 CFD 소프트웨어와 LLM을 통합하여 엔드-투-엔드(End-to-End) 워크플로우를 제공합니다[587]. 다중 에이전트 구조는 문제 정의, 메시 생성(Mesh Generation), 경계 조건(Boundary Condition) 설정, 시뮬레이션 실행 등 각 단계별로 특화된 에이전트들이 협력하여 작동합니다. 이는 CFD 분야의 접근성을 크게 향상시키고 시뮬레이션 개발 시간을 단축하는 혁신적인 접근법입니다.

Multi-agent Language Systems 42 ▶

#312 2022 4/5

ReAct: Synergizing Reasoning and Acting in Language Models

저자: Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran | 날짜: 2022 | DOI: 10.48550/arXiv.2210.03629

Figure 1: 4가지 프롬프팅 방식 비교 - (a) 표준, (b) 사고의 연쇄(CoT), (c) 행동만, (d) ReAct (reasoning+acting). HotpotQA와 AlfWorld 작업 해결 과정 시연

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 4가지 프롬프팅 방식 비교 - (a) 표준, (b) 사고의 연쇄(CoT), (c) 행동만, (d) ReAct (reasoning+acting). HotpotQA와 AlfWorld 작업 해결 과정 시연* 본 논문은 대규모 언어 모델(LLM)의 추론(reasoning)과 행동(acting)을 상호작용적으로 결합하여 복잡한 작업을 해결하는 ReAct 패러다임을 제시한다. 모델이 사고(thought)와 행동(action)을 번갈아 생성하면서 외부 환경과 상호작용하여 동적 추론을 수행하고 오류 전파 및 환각(hallucination)을 완화한다.

Evaluation

Overall: 4

ReAct는 대규모 언어 모델의 추론과 행동을 상호작용적으로 통합하여 복잡한 작업 해결 능력을 획기적으로 향상시킨 매우 영향력 있는 연구이다. 광범위한 벤치마크(HotpotQA, Fever, ALFWorld, WebShop)에서 기존 방식을 압도하는 성능을 보였으며, 특히 해석가능성과 신뢰성의 동시 개선이라는 부가 이점을 제공한다. 다만 동결된 모델에 대한 프롬프팅 의존, 외부 자원 필요성, 사고의 질적 분석 부족 등이 한계로 남으나, 파인튜닝 실험을 통해 개선 가능성을 시사하고 있다. LLM 기반 에이전트 개발의 실질적 표준이 될 수 있는 중요한 기여라고 평가된다.

#313 2024.11 4/5

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

저자: Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan | 날짜: 2024.11 | DOI: 10.48550/arXiv.2310.06770

Figure 1: SWE-bench는 GitHub 이슈를 실제 코드베이스와 함께 제시하여 언어 모델이 생성한 패치를 단위 테스트로 검증하는 방식으로 작동

Essence

![Figure 1](figures/fig1.webp) *Figure 1: SWE-bench는 GitHub 이슈를 실제 코드베이스와 함께 제시하여 언어 모델이 생성한 패치를 단위 테스트로 검증하는 방식으로 작동* 실제 GitHub 이슈 2,294개를 기반으로 한 소프트웨어 엔지니어링 벤치마크 SWE-bench를 제시하며, 최고 성능 모델(Claude 2)도 1.96%의 낮은 해결율만 달성하여 대규모 언어 모델의 실제 소프트웨어 엔지니어링 능력의 한계를 명확히 드러낸다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

SWE-bench는 기존 코딩 벤치마크의 인공성을 벗어나 실제 GitHub 이슈 해결을 통해 언어 모델의 실무 소프트웨어 엔지니어링 능력을 엄격하게 평가하는 중요한 작업이며, 공개 데이터셋과 자동화된 확장성으로 장기적 학술 가치가 높다. 다만 검색 기반 접근과 초기 평가 모델 제한은 개선 여지가 있다.

#314 2025.02 4/5

Harnessing Large Language Models to Collect and Analyze Metal–Organic Framework Property Data Set

저자: Yeonghun Kang, Wonseok Lee, Taeun Bae, Seunghee Han, Huiwon Jang, Jihan Kim | 날짜: 2025.02 | DOI: 10.1021/jacs.4c11085

Essence

![Figure 1](figures/fig1.webp) *L2M3 모델의 전체 구조: (a) 테이블과 텍스트에서 정보를 추출하는 통합 프레임워크, (b) 테이블 마이닝 프로세스, (c) 텍스트 마이닝 프로세스* 대규모 언어모델(LLM)을 활용하여 과학 문헌에서 40,000개 이상의 금속-유기 골격(MOF) 관련 논문을 분석하고, 32개의 핵심 특성과 21개 합성 조건 카테고리를 자동으로 추출한 포괄적인 데이터셋을 구축했다. 이 데이터셋을 통해 합성 조건과 실험 데이터 간의 차이를 규명하고 합성 조건 추천 시스템을 개발했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 자동화된 데이터 마이닝의 뛰어난 실례로, 40,000개 논문에서 포괄적 MOF 데이터셋을 체계적으로 구축하고 시뮬레이션-실험 간극을 규명했으며 실용적 추천 시스템을 제시함으로써 데이터 기반 물질 과학의 새로운 표준을 제시한다. 다만 LLM 고유의 할루시네이션 위험과 검증 표본의 제한으로 인해 완전한 정확성 보증에는 미치지 못한다.

#315 2024 4/5

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

저자: Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Qianli Ma, Guoyin Wang, Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Jiwei Li, Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu | 날짜: 2024 | DOI: arXiv:2401.05507

Essence

![Figure 1](figures/fig1.webp) *LLM 기반 에이전트가 CSV 파일을 입력받아 ReAct 방식으로 코드를 작성, 실행하고 결과를 도출하는 데이터 분석 태스크의 평가 프로세스* 본 논문은 LLM 기반 에이전트의 데이터 분석 능력을 평가하기 위한 최초의 종합 벤치마크 **InfiAgent-DABench**를 제안한다. 257개의 폐쇄형(closed-form) 데이터 분석 질문과 52개의 CSV 파일로 구성된 DAEval 데이터셋과, 이를 평가하기 위한 에이전트 프레임워크를 제공한다.

Evaluation

Overall: 4

본 논문은 LLM 기반 에이전트의 데이터 분석 능력을 평가하기 위한 최초의 종합 벤치마크를 제시하며, 포맷 프롬팅을 통한 폐쇄형 평가 방법론이 실용적이고 창의적이다. 광범위한 LLM 벤치마킹과 오픈소스 DAAgent 개발로 실제 임팩트를 제공하지만, 평가 방식의 표현 한계와 데이터셋 규모 제약이 개선될 필요가 있다.

#316 2024 4/5

Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

저자: Antoine Grosnit, Alexandre Maraval, Refinath S N, Zichao Zhao, James Doran, Giuseppe Paolo, Albert Thomas, Jonas Gonzalez, Abhineet Kumar, Khyati Khandelwal, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balázs Kégl, Haitham Bou-Ammar, Jun Wang (Huawei Noah's Ark Lab, AI Centre UCL, TU Darmstadt) | 날짜: 2024 | DOI: arXiv:2411.03562

Kolb의 경험적 학습 이론의 계산적 형식화: 내재적 함수(반성과 추상화)와 외재적 함수(환경과의 상호작용)의 순환 구조

Essence

![Figure 1](figures/fig1.webp) *Kolb의 경험적 학습 이론의 계산적 형식화: 내재적 함수(반성과 추상화)와 외재적 함수(환경과의 상호작용)의 순환 구조* 본 논문은 Kolb의 경험적 학습 이론(Experiential Learning Theory)과 Vygotsky의 근접발달영역(Zone of Proximal Development, ZPD)을 계산적으로 구현한 Agent K를 제시하며, 이를 통해 LLM 기반 자율 에이전트가 실제 데이터 과학 경진대회(Kaggle)에서 최상위 인간 수준의 성능을 달성하였다.

Evaluation

Overall: 4

본 논문은 인지 과학 이론(Kolb, Vygotsky)을 엄밀하게 계산적으로 구현하여 LLM 기반 자율 에이전트의 설계 원리를 제시하고, 이를 실제 최고 수준의 Kaggle 경진대회에서 검증함으로써 AI 일반화 능력의 새로운 수준을 입증한 매우 의미 있는 연구이다. 다만 계산 효율성, 오류 분석 정확성, 다른 도메인으로의 확장성 측면에서는 추가 연구가 필요하다.

#317 2025 4/5

Text2world: Benchmarking large language models for symbolic world model generation

저자: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Yao Mu, Hongyuan Zhang, Wenqi Shao, Ping Luo | 날짜: 2025 | DOI: ---

TEXT2WORLD 벤치마크의 전체 파이프라인: 자연언어 설명으로부터 PDDL 도메인 모델 생성, 자동 수정, 다중 기준 평가

Essence

![Figure 1](figures/fig1.webp) *TEXT2WORLD 벤치마크의 전체 파이프라인: 자연언어 설명으로부터 PDDL 도메인 모델 생성, 자동 수정, 다중 기준 평가* 대규모 언어모델(LLM)이 자연언어 설명으로부터 기호적 세계 모델(symbolic world model)을 생성할 수 있는지 평가하기 위해 PDDL 기반의 포괄적인 벤치마크 TEXT2WORLD를 제안하고, 수백 개의 다양한 도메인과 실행 기반 평가 지표를 통해 현재 LLM의 세계 모델링 능력이 여전히 제한적임을 밝혔다.

Evaluation

Overall: 4

TEXT2WORLD는 기호적 세계 모델 생성 평가의 신뢰성과 포괄성을 크게 향상시킨 중요한 벤치마크로, 엄격한 품질 관리와 다차원 평가 지표로 기존 연구의 한계를 효과적으로 해결하였다. 다만 최종 103개 도메인의 규모 제약과 LLM의 여전한 성능 한계 개선 방안에 대해서는 추가적인 논의가 필요하다.

#318 2024 4/5

DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning

저자: Siyuan Guo, Cheng Deng, Ying Wen, Hechang Chen, Yi Chang, Jun Wang | 날짜: 2024 | DOI: arXiv:2402.17453

DS-Agent의 CBR 기반 구조: (a) 개발 단계와 배포 단계의 개요 (b) 반복 단계에 따른 성능 개선

Essence

![Figure 1](figures/fig1.webp) *DS-Agent의 CBR 기반 구조: (a) 개발 단계와 배포 단계의 개요 (b) 반복 단계에 따른 성능 개선* LLM 기반 에이전트를 케이스 기반 추론(Case-Based Reasoning, CBR)과 결합하여 자동화된 데이터 과학 작업(ML 모델 설계, 학습, 검증)을 수행하는 프레임워크이다. Kaggle의 전문가 지식을 활용하고 실행 피드백을 통한 반복적 개선으로 기존 LLM 에이전트의 낮은 성공률 문제를 해결한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

DS-Agent는 CBR과 LLM을 효과적으로 결합하여 자동화된 데이터 과학 작업에서 기존 접근법을 크게 능가하는 실용적이고 비용 효율적인 솔루션을 제시한다. 특히 저자원 배포 단계에서의 성능과 오픈소스 모델의 대폭적 개선은 주목할 만하나, 케이스 품질 의존성과 도메인 일반화 능력에 대한 추가 검증이 필요하다.

#319 2024.12 4/5

Aviary: training language agents on challenging scientific tasks

저자: Siddharth Narayanan, James D. Braza, Ryan-Rhys Griffiths, Manu Ponnapati, Albert Bou, Jon Laurent, Ori Kabeli, Geemi Wellawatte, Sam Cox, Samuel G. Rodriques, Andrew D. White | 날짜: 2024.12

그림 1: 5개의 Aviary 환경과 언어 결정 과정(LDP) 프레임워크 개요

Essence

![Figure 1](figures/fig1.webp) *그림 1: 5개의 Aviary 환경과 언어 결정 과정(LDP) 프레임워크 개요* 본 논문은 과학적 작업을 해결하기 위한 언어 에이전트(language agent)를 훈련하기 위한 확장 가능한 체육관 프레임워크인 Aviary를 제시한다. 저자들은 언어 에이전트를 언어-기반 부분 관찰 가능 마르코프 결정 과정(language decision process, LDP)으로 형식화하고, DNA 조작, 과학 문헌 질문 응답, 단백질 안정성 공학 등 3개의 과학 환경을 포함한 5개 환경을 구현했다.

Evaluation

Overall: 4

본 논문은 언어 에이전트를 위한 명확한 이론적 틀(LDP)과 실용적 구현(Aviary)을 제공하며, 과학 작업의 자동화라는 중요한 응용에서 경제성 높은 성과를 달성했다. 특히 오픈 소스 소형 모델의 잠재력을 입증한 점이 주목할 만하나, 환경 확장성, 이론적 분석 심화, 다중 도메인 검증 등 향후 연구가 필요하다.

#320 2024 4/5

ChatMOF: an artificial intelligence system for predicting and generating metal-organic frameworks using large language models

저자: Y. Kang, Jihan Kim | 날짜: 2024 | DOI: 10.1038/s41467-024-48998-4

Fig. 1 | ChatMOF의 개념도(a)와 구조도(b). ChatMOF는 에이전트, 도구 모음, 평가기의 세 가지 핵심 요소로 구성되어 자연어 질문에 기반하여 금속-유기 골격의 성질을 예측하고 구조를 생성한다.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1 | ChatMOF의 개념도(a)와 구조도(b). ChatMOF는 에이전트, 도구 모음, 평가기의 세 가지 핵심 요소로 구성되어 자연어 질문에 기반하여 금속-유기 골격의 성질을 예측하고 구조를 생성한다.* 대규모 언어 모델(Large Language Model, LLM)을 활용하여 금속-유기 골격(Metal-Organic Framework, MOF)의 성질을 예측하고 신규 구조를 생성할 수 있는 인공지능 시스템 ChatMOF를 개발했다. 자연스러운 텍스트 입력만으로 복잡한 재료 과학 작업을 자동화할 수 있음을 보여주었다.

Evaluation

Overall: 4

ChatMOF는 대규모 언어 모델을 데이터베이스 및 기계학습과 결합하여 재료 과학 분야에 실질적 가치를 제공하는 혁신적 AI 시스템이며, 특히 자연언어 기반 인터페이스와 구조 생성 기능은 주목할 만하나, 생성 정확도 향상과 실험적 검증을 통한 추가 개발이 필요하다.

#321 2024 4/5

Executable Code Actions Elicit Better LLM Agents

저자: Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li | 날짜: 2024 | DOI: 10.48550/arXiv.2402.01030

Essence

![Figure 1](figures/fig1.webp) *CodeAct와 Text/JSON 액션의 비교: (상) 다양한 액션 형식 간 예시 비교, (하) M3ToolEval 벤치마크에서의 정량적 결과* LLM 에이전트의 액션 공간을 통합하기 위해 실행 가능한 Python 코드를 직접 사용하는 CodeAct 프레임워크를 제안하며, 기존의 JSON/텍스트 기반 액션 방식 대비 최대 20% 높은 성공률을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

CodeAct는 LLM 에이전트의 액션 공간 표현에 대한 패러다임 전환을 제시하며, 광범위한 실증적 검증과 실용적 에이전트 개발을 통해 높은 실용 가치를 입증했다. 다만 보안, 신뢰성, 프로그래밍 언어 다양성 측면의 개선과 물리적 환경에서의 추가 검증이 필요하다.

저자: Mingjie Bi, Xue Feng, Yizhe Huang, Fanqi Kong, Hao Liu, Siyuan Qi, Aoyang Qin, Min Tang, Xingbo Wang, Song-Chun Zhu | 날짜: 2024

Essence

![Figure 1: AdaSociety의 물리적 요소와 사회적 요소 개요](figures/fig1.webp) 본 논문은 **적응형 물리적 환경과 동적 사회 구조를 결합한 다중 에이전트 의사결정 환경(AdaSociety)**을 제시한다. 에이전트들이 행동함에 따라 과제가 자동으로 생성되며, 사회적 연결이 보상과 정보 접근을 형성하여 다양한 학습 문제를 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

AdaSociety는 적응형 물리 환경과 동적 사회 구조를 결합한 혁신적 다중 에이전트 환경을 제시하며, 사회적 지능 연구를 위한 중요한 벤치마크 플랫폼을 제공한다. 다층 방향성 그래프 기반의 명시적 사회 상태 표현과 일반 합 게임 프레임워크는 기존 환경들과 차별화된다. 다만, 현존 RL/LLM 알고리즘의 낮은 성능과 Growing-MG 문제의 제한적 형식화는 이 환경이 새로운 알고리즘 개발의 필요성을 강력히 드러내면서도, 구체적인 해결 방향을 제시하지 못한 점이 아쉽다. 벤치마크로서의 가치는 높지만, 학술적 깊이를 위해서는 이론적 분석과 기준 알고리즘의 강화가 필요하다.

#328 2023 4/5

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

저자: Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Beibin Li | 날짜: 2023

Essence

![Figure 1](figures/fig1.webp) *AutoGen이 지원하는 다중 에이전트 대화 기반 LLM 애플리케이션의 다양한 형태* AutoGen은 LLM 기반 에이전트들이 서로 대화하면서 협력하여 복잡한 작업을 해결할 수 있는 오픈소스 프레임워크로, 개발자가 다양한 도메인의 LLM 애플리케이션을 빠르게 구축할 수 있도록 돕는다.

Evaluation

Overall: 4

AutoGen은 다중 에이전트 대화 기반의 혁신적인 프로그래밍 패러다임을 제시하여 LLM 애플리케이션 개발의 복잡성을 크게 감소시킨 실질적이고 영향력 있는 오픈소스 프레임워크이다. 다양한 도메인에서의 적용 가능성과 개발자 친화적인 설계가 큰 강점이며, 향후 대규모 시스템 최적화와 이론적 토대 구축이 추가로 필요하다.

#329 2026.02 4/5

Automated Extraction of Mechanical Constitutive Models from Scientific Literature using Large Language Models: Applications in Cultural Heritage Conservation

저자: Rui Hu, Yue Wu, Tianhao Su, Yin Wang, Shunbo Hu, Jizhong Huang | 날짜: 2026.02 | DOI: 미공개

Essence

![Figure 1](figures/fig1.webp) *두 단계 에이전트 프레임워크의 개요. 원본 PDF 수집부터 구조화된 JSON 데이터베이스까지의 처리 흐름* 대규모 언어모델(LLM)을 활용하여 과학 문헌에 산재된 기계적 구성 모델(constitutive model)을 자동으로 추출하고, 이를 문화유산 보존 분야의 디지털 트윈 구축에 활용하는 혁신적 시스템을 제시한다. 2,000여 편의 논문에서 185개의 구성 모델과 450개 이상의 보정된 매개변수를 추출하여 80.4%의 정확도를 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

#330 2024 4/5

DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning

저자: Siyuan Guo, Cheng Deng, Ying Wen, Hechang Chen, Yi Chang, Jun Wang | 날짜: 2024

DS-Agent의 개요: (a) CBR 기반 LLM의 구조, (b) 반복 단계에 따른 성능 개선

Essence

![Figure 1](figures/fig1.webp) *DS-Agent의 개요: (a) CBR 기반 LLM의 구조, (b) 반복 단계에 따른 성능 개선* 대규모 언어모델(LLM)의 사례 기반 추론(Case-Based Reasoning, CBR)을 결합하여 자동화된 데이터 과학 작업을 수행하는 DS-Agent 프레임워크를 제시한다. 개발 단계에서는 Kaggle의 전문가 지식을 활용한 반복적 개선을, 배포 단계에서는 저자원 환경에서의 효율적 코드 생성을 달성한다.

Evaluation

Overall: 4

DS-Agent는 LLM과 CBR의 효과적 결합을 통해 데이터 과학 자동화의 실질적 성능 개선을 달성한 의미 있는 연구이다. 특히 저자원 환경에서의 배포 가능성과 오픈소스 LLM 성능 향상은 실용적 가치가 높으나, 제한된 평가 범위와 단순한 검색 메커니즘이 향후 개선 대상이다.

#331 2024 4/5

Hyperagent: Generalist software engineering agents to solve coding tasks at scale

저자: H. N. Phan, Phong X. Nguyen, Nghi D. Q. Bui | 날짜: 2024 | DOI: 미제공

그림 1: 소프트웨어 엔지니어링 작업을 해결하기 위한 개발자의 전형적인 워크플로우 (분석 & 계획 → 기능 위치 파악 → 코드 편집 → 실행)

Essence

![Figure 1](figures/fig1.webp) *그림 1: 소프트웨어 엔지니어링 작업을 해결하기 위한 개발자의 전형적인 워크플로우 (분석 & 계획 → 기능 위치 파악 → 코드 편집 → 실행)* HYPERAGENT는 인간 개발자의 워크플로우를 모방하는 멀티에이전트 시스템으로, 플래너(Planner), 네비게이터(Navigator), 코드 에디터(Code Editor), 실행기(Executor)의 네 가지 전문화된 에이전트로 구성되어 다양한 프로그래밍 언어와 소프트웨어 엔지니어링 작업을 일반적으로 해결할 수 있는 최초의 통합 시스템이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

HYPERAGENT는 인간 개발자의 워크플로우를 체계적으로 모방하는 설계 철학으로 범용성, 효율성, 확장성을 모두 달성한 실용적이고 혁신적인 멀티에이전트 시스템이며, 다양한 벤치마크에서의 강력한 성능 입증으로 실제 소프트웨어 개발 환경으로의 즉시적 적용 가능성을 보여주는 의미 있는 기여이다.

#332 2024 4/5

Large language model agent for hyper-parameter optimization

저자: Siyi Liu, Chen Gao, Yong Li | 날짜: 2024

Figure 1: DS-Agent의 개요 (a) 및 반복 단계에 따른 성능 개선 곡선 (b)

Essence

본 논문은 LLM(Large Language Model) 기반 에이전트에 사례기반추론(CBR, Case-Based Reasoning)을 통합하여 자동 데이터 과학(Automated Data Science) 작업, 특히 하이퍼파라미터 최적화를 수행하는 DS-Agent 프레임워크를 제안한다. 개발 단계에서 Kaggle의 전문가 지식을 활용하여 반복적 개선을 이루고, 배포 단계에서 저자원 환경에서도 효과적으로 작동한다.

Evaluation

Overall: 4

DS-Agent는 CBR-LLM 통합을 통해 자동 데이터 과학의 실질적 문제를 해결하고 우수한 실증 결과를 달성했으나, 사례 의존성, 제한된 일반화 가능성, 기술적 깊이 면에서 보완 여지가 있다. 실무 배포 관점에서는 높은 가치가 있으나, 기술적 혁신성 측면에서는 기존 기법의 조합에 가까운 평가를 받는다.

#333 2024 4/5

LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models

저자: Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Adrian de Wynter | 날짜: 2024 | DOI: 10.48550/arXiv.2404.01230

Figure 1: 대규모 언어모델(LLM)을 이용한 전략적 추론 (다양한 참여자 역할: 경매 참여자, 포커 플레이어, 게임 이론 분석가, 토론자)

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 대규모 언어모델(LLM)을 이용한 전략적 추론 (다양한 참여자 역할: 경매 참여자, 포커 플레이어, 게임 이론 분석가, 토론자)* 본 논문은 대규모 언어모델(LLM)의 **전략적 추론(Strategic Reasoning)** 능력을 종합적으로 조사한 서베이이다. 전략적 추론은 다중 에이전트 환경에서 상대방의 행동을 예측하고 이에 따라 전략을 적응적으로 조정하는 고차원적 추론 능력으로, LLM이 보유한 새로운 인지 능력으로 주목받고 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM의 전략적 추론 능력을 종합적으로 정리한 시의적절한 서베이로, 산재된 문헌의 체계화와 향후 연구 방향 제시에 기여하지만, 실제 적용 환경에서의 신뢰성 검증과 윤리적 위험성 분석이 보강되어야 한다.

#334 2023.11 4/5

MechAgents: Large language model multi-agent collaborations can solve mechanics problems, generate new data, and integrate knowledge

저자: Bo Ni, Markus J. Buehler | 날짜: 2023.11 | DOI: 10.48550/arXiv.2311.08166

다양한 역할을 가진 LLM 기반 에이전트들의 협력 구조: (a) GPT-4 기반 에이전트 시스템, (b) 자기수정 기능을 가진 2개 에이전트 팀, (c) 역할 분담이 있는 다중 에이전트 그룹

Essence

![Figure 1](figures/fig1.webp) *다양한 역할을 가진 LLM 기반 에이전트들의 협력 구조: (a) GPT-4 기반 에이전트 시스템, (b) 자기수정 기능을 가진 2개 에이전트 팀, (c) 역할 분담이 있는 다중 에이전트 그룹* 대규모 언어모델(LLM) 기반 다중 에이전트 시스템이 자동으로 역학(mechanics) 문제를 풀 수 있음을 보여준다. 에이전트 간 상호작용과 자기수정을 통해 유한요소법(FEM)을 활용한 탄성론 문제 해결이 가능하며, 물리 기반 모델링과 LLM의 지능을 결합하는 새로운 접근법을 제시한다.

Evaluation

Overall: 4

이 논문은 대규모 언어모델을 다중 에이전트 체계로 조직하여 물리 기반 수치해석 문제를 자동으로 풀 수 있음을 최초로 실증하였으며, 특히 자기수정과 상호 비판을 통한 협력 메커니즘이 단순 다중 에이전트보다 우월함을 보여줌으로써 공학 AI 자동화의 새로운 가능성을 열었다. 다만 적용 범위 확대와 자동 오류 감지 개선이 필요하다.

#335 2025 4/5

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

저자: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin | 날짜: 2025 | DOI: 10.48550/arXiv.2504.11536

AIME 2024 & 2025에서 ReTool(CI-powered RL)과 텍스트 기반 RL 베이스라인의 성능 비교

Essence

강화학습(RL)을 활용하여 LLM이 추론 과정 중 코드 인터프리터(Code Interpreter, CI)를 동적으로 호출하도록 학습시키는 프레임워크로, 수학 올림피아드 문제 해결에서 o1-preview를 27.9% 초과 달성한다.

Evaluation

Overall: 4

ReTool은 LLM의 도구 활용을 RL로 학습시키는 실용적이고 효과적인 프레임워크이며, AIME에서의 강한 성능과 창발 행동 관찰이 하이브리드 신경-기호 추론의 가능성을 시사한다. 다만 보상 설계 정교화와 다영역 일반화 검증이 필요하다.

#336 2026.02 4/5

Towards Autonomous Mathematics Research

저자: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Demis Hassabis, Quoc V. Le, Thang Luong | 날짜: 2026.02 | DOI: arXiv:2602.10177

Figure 1: Aletheia의 시각적 개요 - Generator, Verifier, Reviser의 반복적 상호작용

Essence

이 논문은 LLM 기반의 자율적 수학 연구 에이전트인 Aletheia를 소개하며, AI가 IMO 수준의 문제 해결을 넘어 전문 연구 수준의 새로운 수학적 정리를 독립적으로 발견하고 증명할 수 있음을 시연한다.

Evaluation

Overall: 4

본 논문은 경쟁 수학 해결에서 자율적 연구 발견으로의 의미 있는 전환을 보여주며, 특히 투명한 평가 기준 제시라는 메타적 기여가 중요하다. 다만 해결된 문제들의 수학적 중요도가 제한적이고 환각 문제의 근본적 해결이 미흡하여, 진정한 "연구 자율성"의 주장이 부분적으로 경계되어야 한다.

#337 2025 4/5

A fine-tuned large language model based molecular dynamics agent for code generation to obtain material thermodynamic parameters

저자: Zhuo-Fan Shi, Chunxiao Xin, Tong Huo, Yun-Tao Jiang, Bowen Wu | 날짜: 2025 | DOI: 10.1038/s41598-025-92337-6

Fig. 1. Comparison of thermodynamic analysis workflow with and without the use of Molecular Dynamics

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Comparison of thermodynamic analysis workflow with and without the use of Molecular Dynamics* LAMMPS 기반 분자동역학(MD) 시뮬레이션을 위해 미세조정된 대규모언어모델(LLM)을 활용하여 재료의 열역학 파라미터를 자동으로 계산하는 MDAgent 프레임워크를 제안한다. 텍스트-코드 생성 기술로 코드 개발 시간을 42.22% 단축하였다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLM 기반 텍스트-코드 생성 기술을 재료과학의 LAMMPS 시뮬레이션 자동화에 최초로 적용하여, 전문 데이터셋 구축과 함께 혁신적인 에이전트 프레임워크를 제시한다. 42% 시간 단축과 전문가 평가 검증으로 현실적 가치를 입증했으며, 향후 다른 도메인으로의 확장 가능성이 높다.

#338 2025 4/5

Agent-based multimodal information extraction for nanomaterials

저자: R. Odobesku, K. Romanova, S. Mirzaeva, O. Zagorulko, R. Sim | 날짜: 2025 | DOI: 10.1038/s41524-025-01674-7

nanoMINER: 다중 에이전트 시스템의 구조로 PDF 입력부터 구조화된 데이터 출력까지의 전체 파이프라인 표시

Essence

nanoMINER은 대규모 언어모델(LLM)과 멀티모달 분석을 결합하여 나노물질 관련 과학 논문에서 구조화된 데이터를 자동으로 추출하는 다중 에이전트 시스템이다. 기존의 수동 데이터 수집을 자동화하면서도 높은 정확도(nanozyme의 경우 0.98)를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

nanoMINER은 다중 에이전트 오케스트레이션을 통해 과학 문헌에서의 구조화된 데이터 추출을 효과적으로 자동화한 의미 있는 연구이며, 향후 재료과학 및 생의학 분야에서 데이터 기반 발견을 가속화할 잠재력을 보유하고 있다. 다만 더 광범위한 재료 클래스에 대한 일반화 검증과 실제 도입 시 비용-효율성 분석이 필요하다.

#339 2025 4/5

Agent-enhanced large language models for researching political institutions

저자: Joseph Loffredo, Suyeol Yun | 날짜: 2025 | DOI: 미제공

Essence

![Figure 2](figures/fig2.webp) *Agentic RAG: 연구자가 정의한 함수 집합과 AI 어시스턴트 프레임워크를 통해 LLM이 언제, 어디서, 어떻게 외부 정보를 검색할지 동적으로 결정하는 자율 에이전트로 작동* 본 논문은 대규모 언어 모델(LLM)에 사전 정의된 함수와 특화된 도구를 장착하여 에이전틱 검색증강생성(Agentic RAG)을 구현한 LLM 에이전트가 정치기관 연구에서 데이터 수집, 전처리, 분석을 효율화할 수 있음을 보여준다. CongressRA라는 미 의회 연구 지원용 LLM 에이전트를 사례로 제시하며 이러한 접근법의 잠재력을 입증한다.

Evaluation

Overall: 4

본 논문은 LLM 에이전트의 정치과학 연구 적용이라는 실질적으로 중요한 주제를 다루며, Agentic RAG를 통한 해결책 제시와 CongressRA라는 구체적 구현 사례를 제공함으로써 학문 공동체에 기여한다. 다만 기술적 혁신성이 제한적이고, 할루시네이션 및 편향 문제에 대한 심화된 논의와 대규모 실증 검증이 추가될 필요가 있다.

#340 2025 4/5

Beyond outlining: Heterogeneous recursive planning for adaptive long-form writing with language models

저자: Ruibin Xiong, Yimeng Chen 외 | 날짜: 2025 | DOI: 10.48550/arXiv.2503.08275

Essence

![Figure 1](figures/fig1.webp) *WriteHERE 프레임워크: 재귀적 과제 분해와 상태 기반 계층적 스케줄링을 통한 적응형 장문 작성* 기존의 사전 계획(pre-writing planning) 기반 접근법의 경직성을 극복하기 위해, 본 논문은 검색(Retrieval), 추론(Reasoning), 작성(Composition) 세 가지 인지 과제를 동적으로 통합하는 이질적 재귀적 계획(Heterogeneous Recursive Planning) 프레임워크를 제시한다.

Evaluation

Overall: 4

WriteHERE는 기존의 경직된 사전 계획 방식에서 벗어나 검색, 추론, 작성을 동적으로 통합하는 이질적 재귀적 계획 프레임워크를 제시함으로써, 장문 작성의 적응성 문제에 대한 진정한 해결책을 제공한다. 형식적 공식화와 실증적 성능 향상이 강점이나, 계산 비용 분석과 더 광범위한 도메인 검증이 향후 필요하다.

#341 2025 4/5

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

저자: Shubham Parashar, Shurui Gui, Xiner Li, Hongyi Ling, Sushil Vemuri | 날짜: 2025 | DOI: 10.48550/arXiv.2506.06632

Pass@k 평가에서 E2H가 기저 모델을 상회: (a) Countdown, (b) Blocksworld, (c) LLaMA 3.2 3B의 추론 예시

Essence

![Figure 2](figures/fig2.webp) *E2H Reasoner의 작업 분해: 학습이 진행됨에 따라 자명(Trivial) → 쉬움(Easy) → 중간(Medium) → 어려움(Hard) 작업으로 점진적 전환* 본 논문은 대규모 언어모델(LLM)의 추론 능력을 강화학습(RL)과 커리큘럼 학습을 결합하여 개선하는 **E2H Reasoner** 방법을 제시한다. 작업을 난이도별로 분해하고 확률적 스케줄러를 통해 쉬운 작업에서 어려운 작업으로 점진적 학습을 수행함으로써, 단순 RL만으로는 해결 불가능한 추론 문제를 학습 가능하게 한다.

Evaluation

Overall: 4

본 논문은 LLM 추론 학습을 위해 커리큘럼 학습과 강화학습을 결합한 실질적으로 효과적인 방법을 제시하며, 이론적 수렴 보장과 실증적 우수성을 동시에 제공한다. 다만 난이도 분해의 자동화, 대규모 모델 검증, 하이퍼파라미터 민감도 분석 등의 보완이 있으면 영향력이 더욱 증대될 것으로 판단된다.

#342 2024 4/5

LLMs Outperform Outsourced Human Coders on Complex Textual Analysis

저자: Vicente J. Bermejo, Andres Gago, Ramiro H. Gálvez, Nicolás Harari | 날짜: 2024 | DOI: 10.2139/ssrn.5020034

Essence

본 연구는 스페인어 뉴스 기사 210개를 대상으로 GPT-3.5-turbo, GPT-4-turbo, Claude 3 Opus, Claude 3.5 Sonnet 등의 대형언어모델(LLMs)과 외주 인간 코더의 성능을 5가지 자연언어처리(NLP) 과제에서 비교하여, LLMs가 특히 심층적 문맥 이해가 필요한 복잡한 텍스트 분석에서 인간 코더를 일관되게 능가함을 입증한다.

Evaluation

Overall: 4

본 논문은 LLMs이 외주 인간 코더를 복잡한 텍스트 분석에서 명확히 능가한다는 실증적 증거를 제시함으로써, 프로그래밍 숙련도 없는 연구자들이 대규모 텍스트 데이터를 효과적으로 분석할 수 있는 새로운 방법론을 확립하는 데 크게 기여한다.

#343 2023 4/5

MLCopilot: Unleashing the power of large language models in solving machine learning tasks

저자: Lei Zhang, Yuge Zhang, Kan Ren, Dongsheng Li, Yuqing Yang | 날짜: 2023

MLCopilot의 오프라인 및 온라인 단계 개요

Essence

![Figure 1](figures/fig1.webp) *MLCopilot의 오프라인 및 온라인 단계 개요* 대규모 언어 모델(LLM)을 활용하여 과거 ML 작업의 경험으로부터 지식을 추출하고, 새로운 ML 작업에 대한 솔루션을 즉시 제시하는 프레임워크를 제안한다. 이는 시간이 많이 소요되는 AutoML 방식과 달리 인간의 문제 해결 방식을 모방한 해석 가능한 솔루션을 제공한다.

Evaluation

Overall: 4

MLCopilot은 LLM의 강력한 추론 능력과 과거 경험 기반 학습을 결합하여 해석 가능하고 신속한 ML 솔루션 생성을 가능하게 한 혁신적 프레임워크이다. 다만 수학적 추론 한계와 광범위한 성능 검증이 필요하며, 후속 연구를 통해 더욱 강력하고 일반화된 접근법으로 발전할 여지가 있다.

#344 2025 4/5

Mooseagent: A llm based multi-agent framework for automating moose simulation

저자: Tao Zhang, Zhenhai Liu, Yong Xin, Yongjun Jiao | 날짜: 2025 | DOI: 미제공

MooseAgent의 전체 프레임워크 개요: 사용자 요구사항으로부터 Moose 시뮬레이션 결과까지의 자동화된 워크플로우

Essence

![Figure 1](figures/fig1.webp) *MooseAgent의 전체 프레임워크 개요: 사용자 요구사항으로부터 Moose 시뮬레이션 결과까지의 자동화된 워크플로우* 본 논문은 대규모 언어 모델(LLM)과 다중 에이전트 기술을 활용하여 복잡한 유한요소법(FEM) 기반 Moose 멀티피직스 시뮬레이션의 자동화를 달성한 MooseAgent 시스템을 제안한다. 자연언어 요구사항으로부터 자동으로 Moose 입력 파일을 생성하여 평균 93%의 성공률을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

MooseAgent는 LLM과 다중 에이전트 기술을 유한요소법 시뮬레이션 분야에 창의적으로 적용하여 높은 자동화 성공률(93%)을 달성한 실용적이고 가치 있는 시스템이다. 특히 오픈소스 공개와 경제성 입증은 산업 적용 가능성을 높이나, 더 다양한 멀티피직스 문제에 대한 확장성 검증과 이론적 분석 강화가 필요하다.

#345 2024 4/5

Neural automated writing evaluation with corrective feedback

저자: Izia Xiaoxiao Wang, Xihan Wu, Edith Coates, Min Zeng, Jiexin Kuang, Siliang Liu, Mengyang Qiu, Jungyeul Park | 날짜: 2024

시스템 워크플로우: 학습자가 에세이를 제출하면 자동 쓰기 평가(AWE)와 문법 오류 수정(GEC)을 통합하여 점수와 수정 피드백을 제공

Essence

![Figure 1](figures/fig1.webp) *시스템 워크플로우: 학습자가 에세이를 제출하면 자동 쓰기 평가(AWE)와 문법 오류 수정(GEC)을 통합하여 점수와 수정 피드백을 제공* 본 논문은 자동 쓰기 평가(AWE: Automated Writing Evaluation)와 문법 오류 수정(GEC: Grammatical Error Correction) 시스템을 통합하여, 제2언어 학습자에게 즉각적인 에세이 평점과 문법 수정 피드백을 동시에 제공하는 통합 시스템을 제시한다. 이를 통해 시험 시뮬레이션 환경을 구현하여 보다 실질적인 언어 학습 경험을 제공한다.

Evaluation

Overall: 4

본 논문은 자동화 쓰기 평가와 문법 오류 수정을 신경망 기반으로 처음 통합하여 제2언어 학습자에게 실질적 가치를 제공하는 시스템을 제시했으나, 실제 학습 효과에 대한 실증적 검증과 장기 영향 분석이 보완되면 더욱 강력한 기여가 될 수 있다.

#346 2024 4/5

Openai o1 system card

저자: OpenAI (Aaron Jaech, Adam Tauman Kalai, Adam Lerer 등) | 날짜: 2024 | DOI: -

Figure 1: GPT-4o, o1, o1-preview, o1-mini의 jailbreak 평가 성능 비교

Essence

![Figure 1](figures/fig1.webp) *Figure 1: GPT-4o, o1, o1-preview, o1-mini의 jailbreak 평가 성능 비교* OpenAI o1 모델은 대규모 강화학습(reinforcement learning)으로 훈련된 chain-of-thought 추론 능력을 갖춘 모델로, 기존 GPT-4o 대비 안전성과 강건성이 크게 향상되었으며 특히 jailbreak 공격에 대한 저항성이 획기적으로 개선되었다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 보고서는 대규모 언어모델의 안전성 평가에 있어 chain-of-thought 추론 능력이 defensive alignment의 새로운 차원을 제시함을 실증적으로 입증했으며, 다층적이고 체계적인 평가 프레임워크를 제시한 점에서 학계와 산업 모두에 중요한 기여를 한다. 다만 chain-of-thought 자체가 야기할 수 있는 deception 위험과 도메인 특화 평가의 부족은 향후 연구의 중요한 과제로 남아있다.

#347 2023 4/5

Tree-planner: Efficient close-loop task planning with large language models

저자: Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo | 날짜: 2023

기존 반복적 플래닝 패러다임의 개요

Essence

![Figure 2](figures/fig2.webp) *TREE-PLANNER의 3단계 파이프라인: (I) 실행 전 잠재적 계획 샘플링, (II) 샘플링된 계획들을 집계하여 액션 트리 구성, (III) 폐루프에서 LLM이 액션 트리 상에서 의사결정* 대규모 언어모델(LLM)을 활용한 폐루프 태스크 플래닝에서 토큰 효율성과 오류 수정 효율성을 동시에 개선하는 TREE-PLANNER를 제안한다. 기존의 반복적 플래닝(iterative planning) 대신 계획 샘플링-액션 트리 구성-그라운디드 의사결정의 3단계로 재구조화하여 토큰 소비 92.2% 감소와 오류 수정 40.5% 감소를 달성한다.

Evaluation

Overall: 4

TREE-PLANNER는 LLM 기반 폐루프 태스크 플래닝의 토큰 효율성과 오류 수정 효율성을 동시에 해결하는 실용적이고 효과적인 방법으로, 계획 샘플링과 의사결정 분리라는 명확한 패러다임 전환을 제시한다. 다만 VirtualHome에 국한된 평가와 실제 로봇 환경으로의 검증 필요가 남아있어 완성도 4점이다.

#348 2025.02 4/5

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

저자: Axel Backlund, Lukas Petersson | 날짜: 2025.02 | DOI: 10.48550/arXiv.2502.15840

Vending-Bench 벤치마크 개요

Essence

![Figure 1](figures/fig1.webp) *Vending-Bench 벤치마크 개요* 본 논문은 LLM 기반 에이전트가 장기간(>2천만 토큰)에 걸쳐 일관된 성능을 유지하는 능력을 평가하기 위해 자판기 운영이라는 단순하지만 장시간 지속되는 비즈니스 시뮬레이션 환경을 제시한다. 실험 결과 Claude 3.5 Sonnet과 o3-mini는 대부분의 실행에서 수익을 창출하지만 모든 모델이 높은 분산도(variance)를 보이며, 배송 일정 오해석, 주문 망각, 또는 "멜트다운" 루프 등으로 인해 장기적으로 성능이 저하됨을 발견했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 에이전트의 장기 일관성이라는 중요하지만 소외된 문제를 다루는 실질적이고 잘 설계된 벤치마크를 제시하며, 현재 최고 성능 모델들도 장기간 안정성에서 현저한 문제를 보인다는 발견은 AI 에이전트 개발과 안전 평가에 시사점을 제공한다. 다만 실패 원인 분석의 심화, 인간 기준선의 통계적 확충, 다중 도메인 확장을 통해 연구가 더욱 강화될 수 있을 것으로 판단된다.

#349 2025 4/5

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

저자: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang | 날짜: 2025 | DOI: 10.48550/arXiv.2508.05748

4개 벤치마크에서 WebWatcher의 전체 성능 비교: Humanity's Last Exam-VL에서 13.6점, BrowseComp-VL에서 27.0점, LiveVQA에서 58.7점, MMSearch에서 55.3점으로 GPT-4o, Gemini, Claude 등 폐쇄형 모델과 오픈소스 에이전트들을 능가

Essence

![Figure 2](figures/fig2.webp) *VL 추론 에이전트의 비교: WebWatcher는 순수 시각 추론이나 검색 기반 에이전트를 개별적으로 이길 수 없는 GAIA 사례를 해결하며, 다중 도구 통합과 심층 추론의 강점을 입증* WebWatcher는 비전-언어(Vision-Language, VL) 통합 추론 능력을 갖춘 멀티모달 심층 연구 에이전트로, 합성 멀티모달 궤적(synthetic multimodal trajectories)을 통한 효율적인 학습, 다양한 도구의 활용, 강화학습을 통한 일반화로 웹 검색, 이미지 분석, 웹페이지 탐색 등 복잡한 정보 추구 작업을 수행한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

WebWatcher는 텍스트 중심 web agent를 멀티모달 영역으로 성공적으로 확장한 의미 있는 연구로, 자동화된 데이터 생성 파이프라인과 다중 도구 통합이 핵심 강점이며, BrowseComp-VL

#350 2023 3/5

AutoML-GPT: Automatic Machine Learning with GPT

저자: Shujian Zhang, Chengyue Gong, Lemeng Wu, Xingchao Liu, Mingyuan Zhou | 날짜: 2023 | DOI: 미제공

그림 1: AutoML-GPT의 개요. 데이터 처리부터 모델 아키텍처, 하이퍼파라미터 튜닝, 예측 훈련 로그 생성까지의 전체 파이프라인을 보여줌

Essence

![Figure 1](figures/fig1.webp) *그림 1: AutoML-GPT의 개요. 데이터 처리부터 모델 아키텍처, 하이퍼파라미터 튜닝, 예측 훈련 로그 생성까지의 전체 파이프라인을 보여줌* 본 논문은 GPT와 같은 대규모 언어모델(LLM)을 자동 머신러닝(AutoML) 시스템의 컨트롤러로 활용하여, 데이터 처리부터 모델 아키텍처 설계, 하이퍼파라미터 튜닝까지 전체 머신러닝 파이프라인을 자동화하는 AutoML-GPT 시스템을 제안한다. 모델 카드(Model Card)와 데이터 카드(Data Card)를 활용한 구조화된 프롬프트를 통해 LLM이 다양한 AI 작업을 자동으로 최적화할 수 있게 한다.

Evaluation

Overall: 3

AutoML-GPT는 LLM의 강력한 언어 이해 능력을 머신러닝 자동화에 창의적으로 적용한 흥미로운 시도이며, 다양한 도메인에서의 응용 가능성이 높다. 그러나 예측 훈련 로그의 정확성 검증 부재와 실제 구현 세부사항의 부족으로 기술적 완성도 측면에서 개선이 필요하다.

#351 2024 3/5

Dynamic multi-agent orchestration and retrieval for multi-source question-answer systems using large language models

저자: Antony Seabra, Claudio Cavalcante, João Nepomuceno, Lucas Lago, Nicolaas Ruberg, Sérgio Lifschitz | 날짜: 2024

Essence

![Figure 4](figures/fig4.webp) *에이전트 아키텍처* 다양한 데이터 소스(비정형 문서, 구조화된 데이터베이스)를 통합하는 다중 에이전트 기반 질의응답 시스템을 제안한다. 동적 프롬프트 엔지니어링과 함께 SQL 에이전트, RAG(Retrieval-Augmented Generation) 에이전트, 라우터 에이전트를 조합하여 질의 특성에 따라 최적의 검색 전략을 자동으로 선택한다.

Evaluation

Overall: 3

이 논문은 실무 중심의 멀티소스 Q&A 시스템을 위해 기존 LLM 기법들(RAG, Text-to-SQL)을 에이전트 기반 오케스트레이션으로 통합한 실용적 접근방식을 제시하며, 계약 관리 도메인에서의 응용 가치가 높으나, 정량적 평가와 기술적 세부사항의 제시, 그리고 일반화 가능성에 대한 검증이 더 필요한 상태로 보인다.

#352 2024 3/5

KGValidator: A framework for automatic validation of knowledge graph construction

저자: Jack Boylan, Shashank Mangla, Dominic Thorn, Demian Gholipour Ghalandari, Parsa Ghaffari, Chris Hokamp (Quantexa) | 날짜: 2024 | DOI: arXiv:2404.15923

지식 그래프 트리플 검증을 위한 프레임워크: 외부 데이터(웹, Wikidata, 문서)와 LLM을 활용하여 검증되지 않은 트리플을 검증된 트리플로 변환

Essence

![Figure 1](figures/fig1.webp) *지식 그래프 트리플 검증을 위한 프레임워크: 외부 데이터(웹, Wikidata, 문서)와 LLM을 활용하여 검증되지 않은 트리플을 검증된 트리플로 변환* 본 논문은 대규모 언어모델(LLM)을 활용하여 지식 그래프(Knowledge Graph, KG) 완성 모델을 자동으로 검증하는 프레임워크인 KGValidator를 제안한다. 기존의 인간 주석에 의존하는 검증 방식을 LLM 기반의 생성 에이전트로 대체할 수 있음을 보여준다.

Evaluation

Overall: 3

KGValidator는 LLM을 활용한 KG 검증 자동화라는 실용적 문제 해결 방안을 제시하지만, 정량적 평가 결과와 구현 공개 제약으로 인해 학술적 기여도는 중간 수준이다. 산업 적용 가치는 높으나 재현성과 기술적 엄밀성 측면에서 개선이 필요하다.

#353 2024 3/5

LLM With Tools: A Survey

저자: Zhuocheng Shen | 날짜: 2024 | DOI: 10.48550/arXiv.2409.18807

Essence

![Figure 1](figures/fig1.webp) *LLM이 도구를 사용하는 전체 프로세스* 본 논문은 대규모 언어 모델(LLM)에 외부 도구 통합을 통해 모델의 성능을 향상시키는 방법론을 체계적으로 조사한 종합 리뷰이다. 사용자 지시 이해부터 도구 선택, 실행, 피드백 처리까지의 표준화된 패러다임을 제시하고, 미세조정(Fine-tuning)과 문맥 내 학습(In-Context Learning) 기법을 통해 LLM의 도구 활용 능력을 강화하는 방법을 탐구한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 3 Overall: 3

본 논문은 LLM의 도구 통합이라는 중요한 주제를 체계적이고 형식적인 프레임워크로 정리한 가치 있는 종합 리뷰이나, 개념적 프레임워크 제시에 치중되어 있어 구체적 실험 검증, 정량적 성과 비교, 실제 구현 상세 부족으로 인해 원본 리서치 논문으로서의 기여도는 제한적이다.

Autonomous Laboratory Robotics 7 ▶

#354 2025.09 4/5

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

저자: Peilin Feng, Zhutao Lv, Junyan Ye, Xiaolei Wang, Xinjie Huo, Jinhua Yu, Wanghan Xu, Wenlong Zhang, Lei Bai, Conghui He, Weijia Li | 날짜: 2025.09 | DOI: 미제공

Earth-Agent의 종합 개요: 기존 MLLM 기반 연구, 에이전트 기반 연구와의 비교 및 제안된 Earth-Agent의 차별성

Essence

![Figure 1](figures/fig1.webp) *Earth-Agent의 종합 개요: 기존 MLLM 기반 연구, 에이전트 기반 연구와의 비교 및 제안된 Earth-Agent의 차별성* 본 논문은 RGB 이미지를 넘어 다중스펙트럼 데이터와 지구 관측 제품(Earth Products)을 통합적으로 처리하는 에이전트 기반 프레임워크 Earth-Agent를 제시하며, 이를 평가하기 위한 248개의 전문가 검증 과제로 구성된 Earth-Bench 벤치마크를 소개한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

Earth-Agent는 지구 관측 분야에서 에이전트 기반 분석의 새로운 표준을 수립하는 매우 가치 있는 연구로, RGB 이미지만 처리하던 기존 MLLM의 한계를 극복하고 과학적 엄밀성을 갖춘 이중수준 평가 체계를 도입함으로써 학술적·실무적 기여도가 높다. 다만 도구 확장성, LLM 오류 축적, 실시간 처리 등의 실질적 문제 해결을 위한 후속 연구가 필요하다.

#355 2024 4/5

Autonomous robotic system with optical coherence tomography guidance for vascular anastomosis

저자: Jesse Haworth, Rishi Biswas, Justin Opfermann, Michael Kam, Yaning Wang, Desire Pantalone, Francis X. Creighton, Robin Yang, Jin U. Kang, Axel Krieger | 날짜: 2024 | DOI: arXiv:2410.07493

Essence

![Figure 1](figures/fig1.webp) *그림 1: µSTAR 시스템 개요 - LBR Med 로봇팔, 혈관 위치 결정 시스템(MAPS), OCT 광섬유 및 마이크로카메라 장착 봉합 도구* 본 논문은 혈관 문합(vascular anastomosis)을 자율적으로 수행하는 최초의 로봇 시스템인 마이크로 스마트 조직 자율 로봇(µSTAR)을 개발했으며, OCT 기반 실시간 조직 감지와 신경망 기반 봉합 오류 감지를 통해 경험 많은 외과의들과 경쟁 가능한 수준의 성능을 ex vivo 조직에서 달성했다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 혈관 문합이라는 고도의 정밀성을 요구하는 수술 영역에서 최초로 자율 로봇 시스템을 성공적으로 구현한 획기적 업적이다. OCT 기반 실시간 센싱과 신경망 기반 오류 감지라는 기술적 혁신이 돋보이며, ex vivo 실험에서 숙련 외과의와 동등한 성능을 입증했다는 점은 높이 평가할 만하다. 다만, 임상 적용을 위해서는 체계적인 in vivo 동물 실험, 통계적으로 충분한 표본 규모, 알고리즘의 투명성 향상이 필수적이다.

#356 2025 4/5

SpatialAgent: An autonomous AI agent for spatial biology

저자: Hanchen Wang, Yichun He, Paula Coelho, M. Bucci, A. Nazir 외 | 날짜: 2025 | DOI: 10.1101/2025.04.03.646459

SpatialAgent의 모듈식 설계: 메모리(의미적/에피소딕), 계획(chain-of-thought), 행동(도구 실행) 통합

Essence

공간생물학(spatial biology) 연구의 전체 파이프라인을 자동화하는 LLM 기반 자율 AI 에이전트를 제시하며, 유전자 패널 설계에서 인간 전문가를 능가하고 세포-세포 상호작용 분석을 자동 수행한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

SpatialAgent는 공간생물학의 복잡하고 노동집약적 워크플로우를 자율 LLM 에이전트로 처음 체계적으로 자동화한 의미 있는 연구이며, 인간 전문가 능가 및 하이브리드 협력 효과 입증으로 과학 발견 가속화 잠재력을 보여준다. 다만 평가 범위 확대, 오류 분석 심화, 실제 임상 통합 검증이 실용화를 위해 필수적이다.

#357 2024.08 4/5

Genesis: Towards the Automation of Systems Biology Research

저자: Ievgeniia A. Tiukova, Daniel Brunnsåker, Erik Y. Bjurström, Alexander H. Gower, Filip Kronström, Gabriel K. Reder, Ronald S. Reiserer, Konstantin Korovin, Larisa B. Soldatova, John P. Wikswo, Ross D. King | 날짜: 2024.08 | DOI: 10.48550/arXiv.2408.10689

Essence

![Fig 1](Genesis_fig1.png) *그림 1. Genesis 시스템의 전체 아키텍처: 1,000개의 컴퓨터 제어식 μ-바이오리액터, 질량분석기, RNA-SEQ, 온톨로지 기반 지식베이스, AI 모듈이 통합된 완전 자동화 시스템* Genesis는 수천 개의 상호작용하는 인과관계 성분을 가진 시스템 생물학 모델을 자동으로 개선하기 위해 설계된 다음 세대 로봇 과학자이며, 하루에 1,000개의 가설 기반 폐쇄 루프 실험 사이클을 병렬로 실행할 수 있다.

Evaluation

Overall: 4

Genesis 프로젝트는 AI 기반 과학 자동화의 다음 단계를 제시하는 야심 찬 계획으로, 통합된 하드웨어-소프트웨어 플랫폼과 온톨로지 기반 지식 관리의 혁신성이 높다. 다만 대규모 시스템 완성과 LGEM+ 알고리즘의 성능 검증이 필요하며, 논문의 일부 핵심 기술 설명이 미완성된 점이 한계이다.

#358 2025 4/5

An autonomous AI agent for universal behavior analysis

저자: Almir Aljović, Zuwan Lin, Wenbo Wang, Xinhe Zhang, Arnau Marin-Llobet | 날짜: 2025 | DOI: 10.1101/2025.05.15.653585

그림 1: BehaveAgent 아키텍처. (a) 현재 행동 분석 방법론과 (b) BehaveAgent의 자동화된 워크플로우 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1: BehaveAgent 아키텍처. (a) 현재 행동 분석 방법론과 (b) BehaveAgent의 자동화된 워크플로우 비교* 멀티모달 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 통합한 자율 AI 에이전트 BehaveAgent는 재학습이나 수동 개입 없이 비디오에서 동물 행동을 보편적으로 분석할 수 있다. 식물부터 인간까지 다양한 종과 실험 패러다임에서 제로샷(zero-shot) 시각 추론을 통해 행동 분석을 자동화한다.

Evaluation

Overall: 4

BehaveAgent는 멀티모달 LLM 기반 자율 에이전트로서 행동 분석 분야에 혁신적 접근법을 제시하며 종 간 보편적 일반화 능력이 뛰어나나, 실제 행동 비디오 데이터에 대한 광범위한 정량적 검증과 성능 벤치마킹이 필요하다.

#359 2025 4/5

AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory

저자: Zhiqian Lan, Yuxuan Jiang, Ruiqi Wang et al. | 날짜: 2025 | DOI: arXiv:2505.14030v3

Essence

![Figure 1: AutoBio framework](/autocomplete-img) 본 논문은 생물 실험실 환경에서 로봇의 자동화를 평가하기 위한 시뮬레이션 프레임워크 및 벤치마크 AutoBio를 제시한다. 비전-언어-액션(VLA) 모델의 정밀 조작, 명령 수행, 시각 추론 능력을 과학 워크플로우에서 평가하는 최초의 전문 과학 영역 벤치마크이다.

Evaluation

Overall: 4

AutoBio는 로봇 자동화 벤치마크를 전문 과학 영역으로 확장하는 의미 있는 작업으로, 정밀 조작과 다중모드 상호작용이 필요한 생물 실험실을 체계적으로 모사한 첫 번째 프레임워크이다. 3DGS 기반 자산 디지털화, 생물 실험 특화 물리 플러그인, PBR 렌더링 등 기술적 기여가 견고하며, VLA 모델 평가에서 명확한 성능 격차를 드러냈다. 다만 실제 로봇 검증과 더 광범위한 모델 평가가 진행되면 영향력이 더욱 커질 것으로 예상된다.

#360 2024 4/5

BioInformatics Agent (BIA): Unleashing the Power of Large Language Models to Reshape Bioinformatics Workflow

저자: Q. Xin, Quyu Kong, Hongyi Ji, Yue Shen, Yuqi Liu | 날짜: 2024 | DOI: 10.1101/2024.05.22.595240

BIA의 입력 처리, 생성 과정, 응답 평가, 피드백 루프, 전달의 5단계 워크플로우

Essence

![Figure 1: BIA 전체 프레임워크 개요](figures/fig1.webp) *BIA의 입력 처리, 생성 과정, 응답 평가, 피드백 루프, 전달의 5단계 워크플로우* 대규모 언어모델(LLM) 기반 생물정보학 에이전트(BIA)를 개발하여 자연어 대화를 통해 단일세포 RNA 시퀀싱(scRNA-seq) 데이터의 자동 분석 파이프라인을 실현했다. 사용자는 복잡한 프로그래밍 없이 생물정보학 분석의 전체 과정을 수행할 수 있다.

Evaluation

Overall: 4

BIA는 LLM을 생물정보학 분석에 창의적으로 적용하여 사용자 진입 장벽을 획기적으로 낮출 수 있는 실용적 도구를 제시했으나, 성능 검증의 엄격함 부족과 단일 데이터 모달리티에 대한 제한으로 인해 현재로서는 개념 입증(proof of concept) 수준으로 평가된다.

Autonomous Hypothesis Discovery 8 ▶

#361 2025 4/5

GeneAgent: self-verification language agent for gene-set analysis using domain databases

저자: Zhizheng Wang, Qiao Jin, Chih-Hsuan Wei, Shubo Tian | 날짜: 2025 | DOI: 10.1038/s41592-025-02748-6

GeneAgent의 4단계 파이프라인: 생성(Generation), 자기검증(Self-verification), 수정(Modification), 요약(Summarization). 자기검증 단계에서 도메인 특화 데이터베이스와 상호작용하여 환각을 감지하고 검증 보고서를 생성함.

Essence

![Figure 1](figures/fig1.webp) *GeneAgent의 4단계 파이프라인: 생성(Generation), 자기검증(Self-verification), 수정(Modification), 요약(Summarization). 자기검증 단계에서 도메인 특화 데이터베이스와 상호작용하여 환각을 감지하고 검증 보고서를 생성함.* 대규모 언어모델(LLM)의 환각(hallucination) 문제를 자기검증 메커니즘으로 해결하는 유전자 집합 분석 AI 에이전트를 제시하며, GPT-4 대비 현저히 높은 정확도를 달성한다.

Evaluation

Overall: 4

GeneAgent는 도메인 데이터베이스 활용 자기검증으로 LLM의 환각 문제를 창의적으로 해결하며, 대규모 벤치마크와 실무 검증을 통해 생물정보학 분야의 신뢰도 있는 AI 활용을 선도하는 의미 있는 연구이다. 다만 미지의 유전자 기능 발견 능력과 다양한 생물종 적용성 확대가 향후 과제이다.

#362 2023 4/5

Self-driving laboratories to autonomously navigate the protein fitness landscape

저자: Jacob T. Rapp, Bennett J. Bremer, Philip A. Romero | 날짜: 2023 | DOI: 10.1101/2023.05.20.541582

Essence

![Figure 1](figures/fig1.webp) *SAMPLE 플랫폼의 개요: (a) 지능형 에이전트가 서열-기능 관계를 학습하고 단백질을 설계하면, 자동화된 실험실 환경이 검증하고 피드백을 제공하는 폐쇄 루프 시스템 (b) 다중 출력 가우시안 프로세스 모델의 성능 (c-d) 시뮬레이션 기반 설계 전략 비교 (e) 자동화 파이프라인의 재현성 검증 (f) 다층 예외 처리 및 데이터 품질 관리 시스템* 단백질 공학을 완전히 자동화하는 SAMPLE(Self-driving Autonomous Machines for Protein Landscape Exploration) 플랫폼을 제시하며, 지능형 에이전트와 로봇 실험 시스템이 협력하여 글리코사이드 하이드롤라제(GH1)의 열 안정성을 12°C 이상 향상시킨 신약 개발 패러다임을 제안한다. ---

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

#363 2025 4/5

Sparks: Multi-Agent Artificial Intelligence Model Discovers Protein Design Principles

저자: Alireza Ghafarollahi, Markus J. Buehler | 날짜: 2025 | DOI: 10.48550/arXiv.2504.19017

Sparks 다중에이전트 AI 모델의 개요: (a) 기존 AI 시스템과의 차이점, (b) 자동화된 가설 생성 및 검증 프로세스

Essence

![Figure 1](figures/fig1.webp) *Sparks 다중에이전트 AI 모델의 개요: (a) 기존 AI 시스템과의 차이점, (b) 자동화된 가설 생성 및 검증 프로세스* Sparks는 기존 AI 시스템의 훈련 분포 내 패턴 인식을 넘어 완전히 자동화된 과학적 발견 사이클을 수행하는 다중모달 다중에이전트 AI 모델이다. 본 연구는 단백질 과학에서 이전에 알려지지 않은 두 가지 현상을 발견함으로써 진정한 자동화된 과학 발견의 가능성을 입증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 AI 시스템이 훈련 데이터를 단순히 재현하는 수준을 넘어 진정한 과학적 발견을 수행할 수 있음을 최초로 입증한 획기적 연구이다. 생성-반사 구조의 대립적 설계와 완전 자동화된 실험 사이클은 향후 AI 기반 과학 발견의 패러다임을 제시하나, 실험적 검증 부족과 다른 영역으로의 일반화 가능성 검토가 필요하다.

#364 2025 4/5

AI-Newton: A concept-driven physical law discovery system without prior physical knowledge

저자: You-Le Fang, Dong-Shan Jian, Xiang Li, Yan-Qing Ma | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *AI-Newton의 실험 기반(experiment base), 이론 기반(theory base), 자동 발견 워크플로우* AI-Newton은 감독 없이 원본 다중 실험 데이터로부터 뉴턴의 제2법칙, 에너지 보존, 중력의 보편 법칙 등 일반적인 물리 법칙을 자동으로 발견하는 개념 기반 과학 발견 시스템이다. 이는 기존 AI 방식의 한계인 '개별 실험의 경험적 모델 도출'을 넘어 '다양한 현상에 공통으로 적용되는 기본 물리 법칙의 발견'을 달성한다.

Evaluation

Overall: 4

AI-Newton은 기존 AI 기반 물리 발견 방법의 근본적 한계를 명확히 인식하고, 명시적 기호 표현과 개념 기반 발견이라는 창의적 해결책을 제시한 의미 있는 연구다. 뉴턴 역학 범위 내에서의 성공적 재발현은 원칙 검증으로서 가치 있으나, 향후 더 광범위한 물리 영역 적용, 발견 속도 최적화, 진정한 감독 없는 학습 달성을 위한 후속 개선이 필요하다.

#365 2024 4/5

ChemReasoner: Heuristic Search over a Large Language Model's Knowledge Space using Quantum-Chemical Feedback

저자: Henry W. Sprueill, Carl N. Edwards, Khushbu Agarwal, Mariefel V. Olarte, Udishnu Sanyal | 날짜: 2024 | DOI: 10.48550/arXiv.2402.10980

Essence

![Figure 1](https://arxiv.org/html/2402.10980v5/x1.png) *ChemReasoner는 다양한 화학적 제약과 인자를 순차적으로 고려하여 LLM의 지식 공간을 탐색하고, 양자화학 피드백으로 보상을 계산하여 촉매 발견의 최적해를 도출한다.* 본 논문은 **대규모 언어모델(LLM)의 자동화된 휴리스틱 탐색(heuristic search)과 양자화학 피드백을 결합하여 촉매 발견을 가속화하는 AI 기반 프레임워크를 제시**한다. 언어 기반 추론의 유연성과 계산화학의 정확성을 통합하여 새로운 촉매의 발견 과정을 혁신한다.

Evaluation

Overall: 4

이 논문은 **LLM의 자동화된 계획과 양자화학 기반 보상을 결합한 혁신적인 하이브리드 프레임워크를 제시**하여, 촉매 발견에서 AI와 계산화학의 시너지를 성공적으로 입증했다. 오픈 사이언스 정신과 재현 가능한 구현으로 높이 평가되지만, 실험 검증 부재와 제한된 적용 범위가 아쉬운 점이다. 향후 실제 촉매 합성과 성능 검증을 통해 방법론의 실질적 가치가 더욱 명확해질 것으로 기대된다.

#366 2024 4/5

Physics-Informed Autonomous LLM Agents for Explainable Power Electronics Modulation Design

저자: Junhua Liu, Fanfan Lin, Xinze Li, Shuai Zhao, K. Lim | 날짜: 2024 | DOI: 10.1609/aaai.v40i47.41441

전력변환기 응용 사례: DAB(Dual Active Bridge) 변환기는 DC 트랜스포머로서 다양한 DC 버스를 연결하며, 스위치 변조가 전력 전송 효율, 전압 조절, 시스템 안정성에 직접 영향

Essence

![Figure 2](figures/fig2.webp) *PHIA 시스템 아키텍처: 엔지니어가 채팅 인터페이스를 통해 설계 요구사항을 제공하면, 플래너가 도구 세트를 조율하여 인간 개입 없이 변조 설계를 반복적으로 생성* 본 논문은 대규모 언어모델(LLM) 기반 자율 에이전트인 PHIA(Physics-Informed Autonomous Agent)를 제안하여, 신재생에너지 시스템의 전력변환기 변조 설계를 자동화하고 최소한의 인간 개입으로 고품질 설계를 생성한다. 물리 정보 신경망과 최적화 알고리즘을 통합함으로써 설명 가능성과 확장성을 동시에 달성한 획기적인 접근법이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 자율 에이전트와 물리 정보 신경망을 창의적으로 결합하여 전력전자 설계 자동화라는 실질적인 산업 문제를 해결한 우수한 연구이며, 33배의 설계 속도 개선과 63.2%의 오차 감소로 실용성을 입증했다. 다만 실제 하드웨어 검증과 다양한 토폴로지로의 확장 가능성 검증이 보강되면 더욱 강력한 기여가 될 수 있을 것으로 기대된다.

#367 2025 4/5

Piflow: Principle-aware scientific discovery with multi-agent collaboration

저자: Yingming Pu, Tao Lin, Hongyu Chen | 날짜: 2025 | DOI: 미제공

약물 발견 맥락에서 과학적 원리의 잠재력 설명: PiFlow는 높은 잠재력의 원리와 부합하는 가설을 우선시하여 탐색을 지시

Essence

![Figure 1](figures/fig1.webp) *약물 발견 맥락에서 과학적 원리의 잠재력 설명: PiFlow는 높은 잠재력의 원리와 부합하는 가설을 우선시하여 탐색을 지시* 본 논문은 LLM 기반 멀티에이전트 시스템(MAS)의 과학적 발견 과정을 정보이론적 원리에 기반한 불확실성 감소 문제로 재정의하고, 과학 법칙으로 안내되는 Min-Max 최적화 프레임워크 PiFlow를 제안한다. 이를 통해 기존의 무작위적 가설화와 증거 연결 실패 문제를 해결하면서도 기존 에이전트 아키텍처와의 플러그-앤-플레이 호환성을 달성한다.

Evaluation

Overall: 4

PiFlow는 정보이론과 최적화 이론을 과학발견의 원칙-기반 탐색에 창의적으로 적용하여 무작위적 가설화의 오랜 문제를 체계적으로 해결했으며, 5.6배 계산 가속화와 30% 이상의 효율성 개선을 동시에 달성한 실질적 기여도 높은 연구이다. 다만 초기 과학 원리의 도메인 의존성과 실제 과학계 노이즈 가정과의 부합도 검증이 추가되면 더욱 견고한 연구가 될 것으로 판단된다.

#368 2025 4/5

Bayes-Entropy Collaborative Driven Agents for Research Hypotheses Generation and Optimization

저자: Shiyang Duan, Yuan Tian, Qi-Tao Bing, Xiaowei Shao | 날짜: 2025 | DOI: 10.48550/arXiv.2508.01746

다양한 반복(iterations) 횟수에 따른 성능 영향: ELO 점수는 지속적으로 개선되고 엔트로피는 감소

Essence

![Figure 4](figures/fig4.webp) *HypoAgents 프레임워크의 흐름도: Hypothesis Proposal → Evidence Validation → Hypothesis Refinement의 폐쇄루프 구조* 본 논문은 베이지안 추론(Bayesian reasoning)과 정보엔트로피(information entropy) 기반 탐색을 결합하여 과학적 가설의 자동 생성 및 반복적 최적화를 수행하는 다중에이전트 프레임워크 HypoAgents를 제안한다. 기존의 대규모언어모델(LLM) 기반 방법들이 불확실성을 체계적으로 모델링하지 못했던 문제를 해결하기 위해, 폐쇄루프 피드백 메커니즘을 통해 가설 집합을 반복적으로 개선한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

본 논문은 과학 가설 생성에 베이지안 추론과 정보엔트로피 개념을 처음으로 체계적으로 통합하여 불확실성 기반 반복 최적화를 실현한 가치있는 연구이다. 다만 단일 도메인 평가, 불완전한 방법론 기술, 계산 효율성 미해결 등의 한계를 보완한다면 더욱 강력한 과학적 발견 도구로 발전할 수 있을 것으로 판단된다.

Multi-Agent Scientific Frameworks 21 ▶

#369 2026.02 4/5

M2F: Automated Formalization of Mathematical Literature at Scale

저자: Zichen Wang, Wanli Ma, Zhenyu Ming, Gong Zhang, Kun Yuan, Zaiwen Wen | 날짜: 2026.02

Essence

![Figure 1: M2F 프로젝트 규모 자동 형식화 파이프라인](figures/fig1.webp) 본 논문은 수학 교과서와 논문을 **프로젝트 규모의 Lean 형식화**로 자동 변환하는 최초의 에이전트 프레임워크 M2F를 제시한다. 검증자 피드백을 루프에 유지하며 세 주 안에 153,853줄의 형식화된 Lean 라이브러리를 생성하여 텍스트북 규모 형식화의 실용성을 입증했다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

M2F는 자동 형식화 분야의 **패러다임 전환**을 시도하는 논문이다. 기존의 고립된 증명 탐색에서 벗어나 프로젝트 규모의 구조 문제(의존성, 임포트, 타입 안정성)를 **검증자 피드백 루프**로 해결하는 VeriRefine 원시는 창의적이며, 153K 줄의 완전 컴파일 가능한 Lean 코드 생성은 학술 기준을 크게 상회한다. 다만 고정 환경 의존성, 순환 의존성 미처리, 비정형 원문 견건성 등이 한계로 남아 있어, 완전한 산업 배포까지는 추가 작업이 필요하다.

#370 2025.12 4/5

Towards a Science of Scaling Agent Systems

저자: Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff, Xin Liu | 날짜: 2025.12 | DOI: 10.48550/arXiv.2512.08296

Figure 1: 모델 지능(Intelligence Index)과 에이전트 구조에 따른 성능 변화. 세 가지 LLM 계열(OpenAI, Google, Anthropic)에서 다중 에이전트 시스템(MAS) 변형이 단일 에이전트 시스템(SAS) 대비 상이한 확장 특성을 보임.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 모델 지능(Intelligence Index)과 에이전트 구조에 따른 성능 변화. 세 가지 LLM 계열(OpenAI, Google, Anthropic)에서 다중 에이전트 시스템(MAS) 변형이 단일 에이전트 시스템(SAS) 대비 상이한 확장 특성을 보임.* 본 논문은 언어 모델 기반 에이전트 시스템의 성능을 결정하는 정량적 확장 원칙(scaling laws)을 최초로 체계적으로 도출한 연구이다. 도구 활용도, 모델 능력, 작업 특성 간의 상호작용을 분석하여 다중 에이전트 시스템(MAS)이 언제 성능을 향상시키고 언제 저하시키는지 정량화하는 예측 프레임워크를 제시한다.

Evaluation

Overall: 4

본 논문은 에이전트 시스템의 확장 원칙을 정량화하는 첫 대규모 제어 실험으로서, "다중 에이전트 = 항상 이득"이라는 통설을 정교하게 반박하고 작업-아키텍처 정렬이 성공의 핵심임을 증명했다. 특히 도구-좌표화 트레이드오프, 능력 포화, 토

#371 2025 4/5

Automated Hypothesis Validation with Agentic Sequential Falsifications

저자: Kexin Huang, Ying Jin, Ryan Li, Michael Y. Li, Emmanuel Candès | 날짜: 2025 | DOI: 10.48550/arXiv.2502.09858

Essence

![Figure 1](figures/fig1.webp) *POPPER 프레임워크 개요: 실험 설계 에이전트가 반박 실험을 제안하고, 실행 에이전트가 p-값을 생성하며, 순차적 검정 프레임워크가 누적 증거를 집계* 대규모 언어모델(LLM)이 생성하는 자유형식 가설을 자동으로 검증하기 위해 칼 포퍼의 반박 원칙(falsification principle)을 활용한 **POPPER** 프레임워크를 제안한다. 엄격한 제1종 오류 제어(Type-I error control)와 순차적 e-값 집계를 통해 통계적으로 타당한 가설 검증을 대규모로 수행 가능하게 한다.

Evaluation

Overall: 4

POPPER는 LLM 기반 가설 검증의 자동화와 통계적 엄격성을 동시에 달성한 중요한 기여 논문이다. 칼 포퍼의 고전적 철학을 현대적으로 구현하고, 순차적 검정 이론을 LLM 에이전트 시대에 맞게 적응시킨 점이 특히 가치 있다. 인간 전문가 대비 10배 시간 단축과 동등한 성능은 실무적 임팩트가 크며, 멀티도메인 검증으로 확장성을 입증했다. 다만 LLM 의존성, 도메인 특수성, 부 가설 발견의 완전성 등에서 향후 개선 여지가 있다.

#372 2025 4/5

LLM-based Multi-Agent Copilot for Quantum Sensor

저자: Rong Sha, Bing Wang, Jun Yang, Xiaoxiao Ma, Chengkun Wu | 날짜: 2025 | DOI: 10.48550/arXiv.2508.05421

QCopilot 프레임워크의 전체 아키텍처로, 중앙집중식 에이전트 통신, 지식 베이스, 실험 최적화 및 결함 진단 워크플로우를 보여줌

Essence

![Figure 1](figures/fig1.webp) *QCopilot 프레임워크의 전체 아키텍처로, 중앙집중식 에이전트 통신, 지식 베이스, 실험 최적화 및 결함 진단 워크플로우를 보여줌* 본 논문은 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템인 QCopilot을 제시하여 양자 센서(특히 냉원자 원자 냉각) 개발 과정의 자동화와 진단을 실현했다. 이를 통해 수동 실험 대비 약 100배의 속도 향상을 달성하며, 다중 매개변수 환경에서 자율적으로 이상 매개변수를 탐지할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 멀티에이전트 시스템을 양자 실험의 자동화에 창의적으로 적용하여 100배 속도 향상이라는 강력한 실험적 성과를 달성했다. 지식 장벽 해소와 누적 학습을 통해 양자 센서 개발의 실용화 장벽을 크게 낮춘 점에서 높은 가치가 있으나, 다른 양자 시스템으로의 일반화 가능성 검증과 안전성 분석의 강화가 필요하다.

#373 2025 4/5

SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents

저자: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Ning Shang, Zijia Liu, Pengfei Han, Yue Su, Haofei Yu, Jiaxuan You | 날짜: 2025 | DOI: arXiv:2505.23559

SafeScientist는 악의적이거나 위험한 프롬프트에 대해 거절 응답을 제시하며, 일반 AI 과학자 프레임워크와 달리 위험 인식(Risk-Awareness)을 통해 안전하게 고위험 주제를 다룬다.

Essence

![Figure 1](figures/fig1.webp) *SafeScientist는 악의적이거나 위험한 프롬프트에 대해 거절 응답을 제시하며, 일반 AI 과학자 프레임워크와 달리 위험 인식(Risk-Awareness)을 통해 안전하게 고위험 주제를 다룬다.* 본 논문은 LLM 기반 AI 과학자 에이전트의 자동화된 과학 발견 과정에서 발생하는 윤리적, 안전 문제를 체계적으로 해결하기 위해 SafeScientist 프레임워크를 제안한다. 이는 다층 방어 메커니즘(prompt monitoring, agent collaboration monitoring, tool-use monitoring, ethical reviewer)을 통합하여 과학 연구 파이프라인 전반에 걸쳐 안전성을 보장한다.

Evaluation

Overall: 4

SafeScientist는 LLM 기반 AI 과학자의 윤리적, 안전한 배포를 위한 시의적절하고 포괄적인 프레임워크를 제시하며, SciSafetyBench는 과학 맥락의 고유한 위험을 체계적으로 평가할 수 있는 귀중한 자산이다. 다만, 실제 과학 환경에서의 거짓 양성 비율 감소와 더욱 정교한 대적 공격에 대한 방어 강화는 향후 과제이다.

#374 2025 4/5

Grammars of formal uncertainty: When to trust llms in automated reasoning tasks

저자: Debargha Ganguly, Vikash Singh, Sreehari Sankar, B. X. Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary | 날짜: 2025 | DOI: 미제공

Essence

LLM의 본질적인 확률성(probabilistic nature)과 형식검증의 결정론적 요구(deterministic guarantees) 사이의 근본적 긴장을 해소하기 위해, 확률문맥자유문법(PCFG, Probabilistic Context-Free Grammar) 기반 프레임워크를 도입하여 LLM 생성 SMT-LIB 프로그램의 불확실성을 체계적으로 정량화하고, 이를 통해 선택적 검증(selective verification)으로 14-100% 오류율을 감소시킨다.

Evaluation

Overall: 4

LLM과 형식검증 간의 근본적 긴장을 PCFG 프레임워크로 우아하게 해결하고, 작업별

#375 2025 4/5

A-MEM: Agentic Memory for LLM Agents

저자: Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Juntao Tan | 날짜: 2025 | DOI: 10.48550/arXiv.2502.12110

전통적 메모리 시스템은 미리 정의된 메모리 접근 패턴을 요구하는 반면, A-MEM은 동적 메모리 연산을 가능하게 함

Essence

![Figure 1](figures/fig1.webp) *전통적 메모리 시스템은 미리 정의된 메모리 접근 패턴을 요구하는 반면, A-MEM은 동적 메모리 연산을 가능하게 함* 본 논문은 LLM 에이전트를 위한 동적 에이전트 메모리 시스템 A-MEM을 제안하며, 젯엘카스텐(Zettelkasten) 방법론의 원리를 기반으로 새로운 메모리가 추가될 때 자동으로 문맥적 연결을 생성하고 기존 메모리를 진화시키는 메커니즘을 구현했다.

Evaluation

Overall: 4

A-MEM은 LLM 에이전트의 메모리 문제에 대한 창의적이고 실용적인 해결책을 제시하며, 젯엘카스텐 원리의 현대적 적용과 메모리 진화라는 개념이 의미 있으나, 계산 효율성, 메모리 진화의 이론적 기반, 그리고 평가의 폭을 넓힐 필요가 있다.

#376 2026.03 4/5

Towards a Medical AI Scientist

저자: Hongtao Wu, Boyun Zheng, Dingjie Song, Yu Jiang, Jianfeng Gao, Lei Xing, Lichao Sun, Yixuan Yuan | 날짜: 2026.03 | DOI: 10.48550/arXiv.2603.28589

Figure 1 | a, System workflow: fully-automated multi-agents system for end-to-end scientific discovery

Essence

![Figure 1](figures/fig1.webp) *Figure 1 | a, System workflow: fully-automated multi-agents system for end-to-end scientific discovery* 임상 의학 연구에 특화된 첫 번째 자율 AI 과학자 시스템으로, 문헌 기반 증거 추론, 실험 실행, 논문 작성을 자동화하며 MICCAI 수준의 품질을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

임상 의료 분야의 특수성을 처음으로 체계적으로 반영한 자율 AI 과학자 시스템으로, 의료 증거 기반 추론과 윤리 정책 통합을 통해 MICCAI 수준의 논문 생성을 달성하며 의료 AI 연구 자동화의 새로운 가능성을 제시한다.

#377 2026 4/5

BloClaw: An Omniscient, Multi-Modal Agentic Workspace for Next-Generation Scientific Discovery

저자: Yao Qin, Yangyang Yan, Jinhua Pang, Xiaoming Zhang | 날짜: 2026 | DOI: 10.48550/ARXIV.2604.00550

Figure 1: Global Architecture of BloClaw. Demonstrating

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Global Architecture of BloClaw. Demonstrating* BloClaw는 LLM 기반 AI 과학자를 위한 멀티모달 운영체제로, XML-Regex 라우팅, 실행 샌드박스 모니터링, 동적 UI를 통해 JSON 기반 도구 호출의 취약성을 해결한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

BloClaw는 LLM 기반 과학 자동화의 실제 배포 병목을 명확히 진단하고 XML-Regex, monkey-patching, 동적 UI 등 혁신적 기술로 대폭 해결한 중요한 시스템이다. 종합적 벤치마킹과 실용적 성과로 AI4S 분야의 실질적 진전을 제시하나, 대규모 배포와 보안 면에서의 추가 검증이 필요하다.

#378 2026.02 4/5

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

저자: Jianda Du, Youran Sun, Haizhao Yang | 날짜: 2026.02 | DOI: 미공개

그림 1: AutoNumerics 파이프라인. 단계 1-4는 문제 공식화 및 계획 선택, 단계 5는 coarse-to-fine 실행 전략, 단계 6-7은 검증 및 이론 분석을 수행한다.

Essence

![AutoNumerics 파이프라인](figures/fig1.webp) *그림 1: AutoNumerics 파이프라인. 단계 1-4는 문제 공식화 및 계획 선택, 단계 5는 coarse-to-fine 실행 전략, 단계 6-7은 검증 및 이론 분석을 수행한다.* 본 논문은 LLM 기반 다중에이전트 프레임워크를 통해 자연어 기술만으로 일반적인 편미분방정식(PDE)에 대한 투명하고 해석 가능한 수치해석 솔버를 자동으로 설계·구현·검증하는 시스템을 제시한다. 기존 신경망 기반 접근법의 블랙박스성을 극복하고 고전 수치해석의 안정성 보장을 유지하면서 자동화를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

AutoNumerics는 LLM 기반 자동 PDE 솔버 설계에서 획기적인 진전을 이루었으며, 특히 coarse-to-fine 실행 전략과 안정성 인식형 계획 생성은 실용적으로 탁월한 기여이다. 기존 신경망 기반 방법보다 정확도가 현저히 우수하고(6자리 수) 해석성을 유지한 점이 강점이나, 고차원 및 고차 PDE에 대한 성능 한계와 이론적 수렴성 보장 부재는 개선이 필요하다. 과학 컴퓨팅의 자동화 가능성을 명확히 보여주는 중요한 작업이지만, 실제 산업 응용을 위해서는 추가 검증과 확장이 요구된다.

#379 2025 4/5

Autoreproduce: Automatic AI Experiment Reproduction with Paper Lineage

저자: Xuanle Zhao, Zilin Sang, Yuxuan Li, Qi Shi, Wei Zhao, Shuo Wang, Duzhen Zhang, Han Xu, Zhiyuan Liu, Mingwei Sun | 날짜: 2025 | DOI: arXiv:2505.20662v2

Essence

본 논문은 AI 실험의 자동 재현을 위해 논문 계보(Paper Lineage) 알고리즘과 다중 에이전트 프레임워크인 AUTOREPRODUCE를 제안한다. 이는 인용 관계 분석을 통해 암묵적 도메인 지식을 추출하고 실행 가능한 코드 생성까지 포괄하는 end-to-end 자동화를 실현한다.

Evaluation

Overall: 4

AUTOREPRODUCE는 AI 연구의 재현성 문제를 실질적으로 해결하기 위한 야심찬 프로젝트로, 논문 계보라는 새로운 개념을 통해 암묵적 지식을 활용하며 end-to-end 자동화를 구현했다는 점에서 의미 있으나, 벤치마크 규모 확대와 더욱 정교한 알고리즘 설계로 일반화 가능성을 강화할 필요가 있다.

#380 2026.03 4/5

Embodied Science: Closing the Discovery Loop with Agentic Embodied AI

저자: Xiang Zhuang, Chenyi Zhou, Kehua Feng, Zhihui Zhu, Yunfan Gao, Yijie Zhong, Yichi Zhang, Junjie Huang, Keyan Ding, Lei Bai, Haofen Wang, Qiang Zhang, Huajun Chen | 날짜: 2026.03 | DOI: 미제공

Figure 1: 예측 중심 AI4S에서 embodied science으로의 전환. 좌측은 기존의 인간-오케스트레이션 워크플로우, 우측은 폐쇄 루프의 PLAD 프레임워크를 보여줌

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 예측 중심 AI4S에서 embodied science으로의 전환. 좌측은 기존의 인간-오케스트레이션 워크플로우, 우측은 폐쇄 루프의 PLAD 프레임워크를 보여줌* 본 논문은 과학 발견을 고립된 예측 작업이 아닌 물리 세계와의 지속적 상호작용을 통한 폐쇄 루프 프로세스로 재정의하는 **Embodied Science** 패러다임을 제시한다. 이를 구현하기 위해 지각(Perception)–언어(Language)–행동(Action)–발견(Discovery)을 통합하는 PLAD 프레임워크 기반의 에이전틱 구현화 AI 시스템을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 AI 기반 과학 발견의 패러다임 전환을 제시하는 중요한 관점의 논문으로, "Embodied Science"라는 명확한 개념 프레임워크와 PLAD 통합 아키텍처를 통해 기존 분산된 AI4S 접근법의 구조적 한계를 날카롭게 지적한다. 특히 폐쇄 루프 자율 발견의 운영 기준을 정의한 점은 향후 과학 AI 연구의 벤치마크로 기여할 것으로 판단된다. 다만, 제시된 부분의 범위 내에서는 구체적인 알고리즘, 실제 구현 사례, 기술적 도전과제의 해결 방안이 충분히 상세하게 다루어지지 않아, 완전한 기술적 타당성 검증을 위해서는 후속 섹션과 실험 결과에 대한 검토가 필수적이다.

#381 2023 4/5

Exploring collaboration mechanisms for llm agents: A social psychology view

저자: Jintian Zhang, Xin Xu, Ningyu Zhang, Ruibo Liu, Bryan Hooi, Shumin Deng | 날짜: 2023

Essence

![Figure 2](https://arxiv.org/html/2310.02124v3/x2.png) *다양한 특성(traits)을 가진 LLM 에이전트들로 구성된 기계 사회 시뮬레이션 개요* 본 논문은 사회심리학 이론을 기반으로 LLM 에이전트 간의 협력 메커니즘을 체계적으로 탐색하며, 에이전트 특성(성격), 사고 패턴(토론/반성), 협력 전략의 조합을 통해 인간과 유사한 사회적 행동이 나타남을 보여준다.

Evaluation

Overall: 4

본 논문은 LLM 에이전트의 협력을 사회심리학 관점에서 체계적으로 분석한 창의적 연구로, "더 많은 에이전트 = 더 좋은 성능"이라는 통념을 깨고 합리적 협력 전략의 중요성을 실증했다는 점에서 의의가 크다. 다만 다양한 LLM과 복잡한 협력 구조에 대한 검증 확대와 사회적 행동의 정교한 분석이 후속 개선 사항으로 남아있다.

#382 2024 4/5

LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery

저자: Pingchuan Ma, Tsun-Hsuan Wang, Minghao Guo, Zhiqing Sun, J. B. Tenenbaum | 날짜: 2024 | DOI: 10.48550/arXiv.2405.09783

그림 1: Scientific Generative Agent (SGA)의 전체 파이프라인. 순수 탄성 재료로부터 약한 압축성 유체로 최적화되는 구성법칙 탐색 문제를 예시로 보여줌.

Essence

![Figure 1](figures/fig1.webp) *그림 1: Scientific Generative Agent (SGA)의 전체 파이프라인. 순수 탄성 재료로부터 약한 압축성 유체로 최적화되는 구성법칙 탐색 문제를 예시로 보여줌.* 본 논문은 대규모 언어모델(LLM)의 추론 능력과 물리 시뮬레이션의 계산 정확성을 결합한 **이단계 최적화 프레임워크(bilevel optimization)**를 제안하여, 물리 과학 발견(구성법칙 발견, 분자 설계)에서 인간 기대를 초월한 새로운 해를 찾을 수 있음을 보여준다.

Evaluation

Overall: 4

본 논문은 LLM의 추론 능력과 시뮬레이션의 계산 정확성을 이단계 최적화로 우아하게 결합하여 물리 과학 발견을 자동화하는 실질적이고 범용적인 프레임워크를 제시한 견고한 연구이다. 특히 기대를 초월한 새로운 과학적 해를 발견할 수 있음을 실증적으로 보여준 점이 의미 있지만, 이론적 수렴성 분석과 더 복잡한 문제로의 확장 검증이 필요하다.

#383 2025 4/5

InternAgent: When Agent Becomes the Scientist–Building Closed-Loop System from Hypothesis to Verification

저자: Shanghai Artificial Intelligence Laboratory (InternAgent Team) | 날짜: 2025 | DOI: 10.48550/arXiv.2505.16938

InternAgent가 지원하는 12가지 과학 연구 작업: 반응 수율 예측, 분자 동역학, 전력 흐름 추정, 시계열 예측, 전사 예측, 인핸서 활성도 예측, 감정 분류, 2D/3D 이미지 분류, 의미론적 분할, 자율 주행

Essence

![Figure 1](figures/fig1.webp) *InternAgent가 지원하는 12가지 과학 연구 작업: 반응 수율 예측, 분자 동역학, 전력 흐름 추정, 시계열 예측, 전사 예측, 인핸서 활성도 예측, 감정 분류, 2D/3D 이미지 분류, 의미론적 분할, 자율 주행* InternAgent는 대규모 언어 모델(LLM) 기반의 통합 폐루프(closed-loop) 다중 에이전트 프레임워크로, 가설 생성부터 실험 검증까지 과학 연구의 전체 사이클을 자동화하는 자율 과학 연구(Autonomous Scientific Research, ASR) 시스템이다. 이 시스템은 인간 전문가의 피드백을 통합하면서도 12개의 서로 다른 과학 분야(화학, 생물학, 컴퓨터 비전, NLP 등)에서 성능 향상을 달성했다.

Evaluation

Overall: 4

InternAgent는 가설 생성부터 검증까지 자동화된 폐루프 과학 연구 시스템을 구현한 의미 있는 작업이며, 12개 분야의 실제 성능 향상으로 실용성을 입증했다. 다만 일부 기술적 세부사항의 명확화와 실제 물리적 실험으로의 확장이 향후 과제이다.

#384 2025.05 4/5

R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution

저자: Xu Yang, Xiao Yang, Shikai Fang, Bowen Xian, Yuante Li, Jian Wang, Minrui Xu, Haoran Pan, Xinpeng Hong, Weiqing Liu, Yelong Shen, Weizhu Chen, Jiang Bian | 날짜: 2025.05 | DOI: 10.48550/arXiv.2505.14738

R&D-Agent 프레임워크: 연구자(Researcher) 에이전트와 개발자(Developer) 에이전트가 협력하여 다중 탐색 경로를 병렬로 실행하고 상호 강화하는 구조

Essence

![Figure 1](figures/fig1.webp) *R&D-Agent 프레임워크: 연구자(Researcher) 에이전트와 개발자(Developer) 에이전트가 협력하여 다중 탐색 경로를 병렬로 실행하고 상호 강화하는 구조* 본 논문은 LLM 기반의 이중 에이전트 프레임워크인 R&D-Agent를 제안하여, 데이터 과학 솔루션 개발을 자동화하고 전문가 수준의 성능에 근접하도록 설계했다. 연구자 에이전트는 성능 피드백을 바탕으로 아이디어를 생성하고, 개발자 에이전트는 오류 피드백을 바탕으로 코드를 개선하는 협력적 탐색 과정을 통해 기존 자동화 솔루션의 한계를 극복한다.

Evaluation

Overall: 4

R&D-Agent는 LLM 기반 데이터 과학 자동화의 중요한 진전을 이루었으며, 이중 에이전트 설계와 다중 추적 병합이라는 창신적 개념을 통해 기존 솔루션의 한계를 극복하려는 시도가 높이 평가된다. 다만, 계산 비용 분석, 실무 적용 사례, 핵심 메커니즘의 세부 기술 설명이 보강되면 논문의 실용성과 완성도가 더욱 향상될 것으로 예상된다.

#385 2026.02 4/5

Toward a Fully Autonomous, AI-Native Particle Accelerator

저자: Chris Tennant | 날짜: 2026.02 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *가속기 운영에서의 AI 진행 단계(상단)와 자율 운영 달성을 위한 9가지 주요 연구 분야(하단)* 입자 가속기의 자동화를 넘어 AI 기반으로 처음부터 설계된 완전 자율 가속기(AI-native particle accelerator) 구현을 제시하는 비전 논문이다. 초기 단계의 AI 보조(AI-assisted)에서 최종적으로 AI 자율 운영 단계로 진행되는 3단계 통합 로드맵을 제안한다.

Evaluation

Overall: 4

입자 가속기의 자율 운영이라는 중요한 미래상을 설득력 있게 제시하고, DoE 국가 전략과 부합하는 체계적 로드맵을 제공한 의미 있는 비전 논문이다. 다만 기술적 구현 상세, 안전성 검증, 경제성 분석이 보강되면 실제 신규 시설 설계의 기준으로 활용할 수 있을 것으로 기대된다.

#386 2025 3/5

Cognitio emergens: Agency, dimensions, and dynamics in human-ai knowledge co-creation

저자: Xule Lin (Imperial College London) | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *Cognitio Emergens 프레임워크의 구성 요소* 인간-AI 과학 협력을 단순한 도구 관계에서 공진화(co-evolutionary) 파트너십으로 재개념화하며, 세 가지 상호연관된 구성 요소(Agency Configurations, Epistemic Dimensions, Partnership Dynamics)를 통해 인간과 AI가 독립적으로는 달성할 수 없는 지식이 어떻게 창발하는지 설명한다.

Evaluation

Overall: 3

Cognitio Emergens 프레임워크는 인간-AI 협력을 동적인 공진화 과정으로 이해하는 데 중요한 이론적 기여를 제공하며, 특히 epistemic alienation 개념의 도입과 조직적 맥락의 통합이 주목할 만하다. 그러나 이론적 우아함에도 불구하고 실증적 검증과 구체적 구현 지침이 강화된다면 학술적·실무적 영향력이 크게 향상될 것으로 예상된다.

#387 2025 3/5

Prim: Principle-inspired material discovery through multi-agent collaboration

저자: Z. Lai, Yunting Pu | 날짜: 2025 | DOI: 미제공

PriM 프레임워크 개요: 가설 생성(Literature Agent, Hypothesis Agent)과 실험 검증(Experiment Agent, Optimizer Agent)의 두 단계로 구성되며, Planner가 중앙에서 전체 워크플로우를 조율한다.

Essence

![Figure 1](figures/fig1.webp) *PriM 프레임워크 개요: 가설 생성(Literature Agent, Hypothesis Agent)과 실험 검증(Experiment Agent, Optimizer Agent)의 두 단계로 구성되며, Planner가 중앙에서 전체 워크플로우를 조율한다.* 물리화학적 원리에 기반한 다중에이전트 시스템(MAS)을 통해 신소재 발견 과정을 자동화하면서 해석가능성을 유지하는 새로운 접근법을 제시한다. 기존의 검은 상자(black-box) 최적화 방식과 달리 과학적 원리를 명시적으로 통합하여 탐색 효율성과 투명성을 동시에 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 3 Overall: 3

이 논문은 LLM 기반 다중 에이전트 시스템에 물리화학적 원리를 명시적으로 통합하여 신소재 자동 발견의 해석가능성과 효율성을 동시에 추구하는 흥미로운 시도이다. 폐루프 검증 체계와 원리 기반 제약 조건의 도입은 기존 블랙박스 방식의 한계를 잘 지적하며, 나노 나선 사례에서 유의미한 성능 개선을 보여준다. 다만, 단일 재료에 대한 제한적 검증, 서로게이트 모델 정확성 의존성, LLM 환각 위험에 대한 심층적 분석 부족, 그리고 인간-AI 협력 인터페이스의 미흡함이 실제 과학 현장 적용의 장애물이 될 수 있다. ICLR 2025 워크숍 논문으로서 개념적 프레임워크는 우수하나, 산업 적용을 위해서는 다양한 재료 시스템에 대한 광범위한 실증 검증과 시스템의 강건성 개선이 필수적이다.

#388 2026.03 3/5

Revisiting Gene Ontology Knowledge Discovery with Hierarchical Feature Selection and Virtual Study Group of AI Agents

저자: Cen Wan, Alex A. Freitas | 날짜: 2026.03 | DOI: 제공되지 않음

Essence

![Figure 1](figures/fig1.webp) *계층적 특징 선택 기반 유전자 온톨로지 지식 발견 파이프라인의 예시* 본 논문은 계층적 특징 선택(hierarchical feature selection)으로 선별된 유전자 온톨로지(Gene Ontology, GO) 항목으로부터 노화 관련 생물학적 지식을 추출하기 위해 다중 AI 에이전트로 구성된 '가상 스터디 그룹' 프레임워크를 제안한다. 이는 대규모 언어모델(LLM)의 환각(hallucination) 문제를 완화하고 신뢰할 수 있는 과학적 지식 발견을 실현하는 에이전트 AI(agentic AI) 기반의 새로운 접근법이다.

Evaluation

Overall: 3

본 논문은 계층적 특징 선택과 에이전트 AI를 결합하여 GO 기반 노화 관련 지식 발견을 시도한 창의적이고 참신한 연구이나, 정성적 검증에 의존하고 샘플 크기가 제한적이며 결과 섹션이 미완성인 점이 개선 필요하다.

#389 2025.05 3/5

InternAgent: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification

저자: InternAgent Team, Bo Zhang, Shiyang Feng, Xiangchao Yan, Jiakang Yuan, Runmin Ma, Yusong Hu, Zhiyin Yu, Xiaohan He, Songtao Huang, Shaowei Hou, Zheng Nie, Zhilong Wang, Jinyao Liu, Tianshuo Peng, Peng Ye, Dongzhan Zhou, Shufei Zhang, Xiaosong Wang, Yilan Zhang | 날짜: 2025.05 | DOI: 제공되지 않음

Essence

![Figure 1](https://example.com/fig1.png) *InternAgent가 지원하는 12개 유형의 과학 연구 과제: 반응 수율 예측부터 자율주행까지 화학, 생물학, CV&NLP 분야 포괄* 본 논문은 다양한 과학 연구 분야에서 가설 생성부터 검증까지 완전 폐쇄 루프를 구성하는 통합 다중 에이전트 프레임워크 InternAgent를 제시한다. 반응 수율 예측에서 27.6%에서 35.4%로 12시간 내에 성능을 향상시키는 등 인간 연구자 대비 획기적인 효율성을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 3

Multi-Agent Language Interaction 6 ▶

#390 2024 4/5

OpenHands: AI 소프트웨어 개발자를 위한 오픈 플랫폼

저자: Xingyao Wang, Boxuan Li, Yufan Song 외 다수 | 날짜: 2024 | DOI: arXiv:2407.16741

Essence

![Figure 2](figures/fig2.webp) *OpenHands의 3가지 주요 구성 요소: 에이전트 추상화, 이벤트 스트림, 런타임* OpenHands는 AI 에이전트가 소프트웨어 개발자처럼 코드 작성, 명령줄 상호작용, 웹 브라우징을 통해 환경과 상호작용할 수 있도록 설계된 커뮤니티 기반 오픈소스 플랫폼이다. 188명 이상의 기여자로부터 2,100개 이상의 커밋을 받아 실제 동작하는 포괄적인 에이전트 개발 및 평가 프레임워크를 제공한다.

Evaluation

Overall: 4

OpenHands는 AI 에이전트를 위한 실용적이고 확장 가능한 플랫폼으로서 현재 가장 포괄적인 오픈소스 구현을 제공하며, 강력한 커뮤니티 지원과 함께 소프트웨어 공학 및 웹 기반 AI 작업의 새로운 벤치마크를 설정했다. 다만 다중 에이전트 협력과 해석성 측면에서는 추가 고도화의 여지가 있다.

#391 2024 4/5

Openhands: An open platform for ai software developers as generalist agents

저자: Xingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, Hoang H. Tran, Fuqiang Li, Ren Ma, Mingzhang Zheng, Bill Qian, Yanjun Shao, Niklas Muennighoff, Yizhe Zhang, Binyuan Hui, Junyang Lin | 날짜: 2024

Essence

![Figure 2](figures/fig2.webp) *OpenHands의 3가지 주요 구성요소: 1) Agent 추상화, 2) Event Stream, 3) Runtime* OpenHands는 LLM 기반 AI 에이전트가 소프트웨어 개발자처럼 코드 작성, 명령행 인터페이스 조작, 웹 브라우징을 통해 세계와 상호작용할 수 있는 개방형 플랫폼이다. MIT 라이선스로 공개된 커뮤니티 프로젝트로, 188명 이상의 기여자로부터 2,100회 이상의 기여를 받았다.

Evaluation

Overall: 4

OpenHands는 LLM 기반 AI 에이전트의 개발과 평가를 위한 포괄적이고 실용적인 오픈소스 플랫폼으로, 이벤트 스트림 기반 추상화와 프로그래밍 언어 중심 액션 인터페이스를 통해 체계적인 설계를 제시한다. 광범위한 커뮤니티 참여와 이미 달성한 높은 임팩트에도 불구하고, 보안 보장, 멀티 에이전트 조율, 장기 실행 작업 등에서 기술적 심화가 필요하며, 더욱 다양한 실제 응용 사례와 도메인별 평가 확대가 향후 과제이다.

#392 2026.02 4/5

MAC-AMP: A Closed-Loop Multi-Agent Collaboration System for Multi-Objective Antimicrobial Peptide Design

저자: Gen Zhou, Sugitha Janarthanan, Lianghong Chen, Pingzhao Hu | 날짜: 2026.02 | DOI: 미제공

Figure 1: (a) 입력에서 출력까지 반복적으로 AMP 설계를 안내하는 폐루프 워크플로우 개요 (b) 모듈 간 상호작용을 보여주는 MAC-AMP 파이프라인 개요

Essence

항생제 내성(Antimicrobial Resistance, AMR)에 대응하기 위해 대규모언어모델(LLM) 기반 다중 에이전트 협업 시스템을 활용하여 항균펩타이드(AMP)를 설계하는 완전 자동화된 폐루프(closed-loop) 시스템을 제시한다. 기존 AMP 설계 모델들의 단순 점수화 및 블랙박스 문제를 극복하기 위해 에이전트 간 협의적 리뷰, 강화학습 기반 보상 함수 자동 생성, 설명가능성을 갖춘 구조를 도입했다.

Evaluation

Overall: 4

MAC-AMP는 다중 에이전트 협업을 AMP 설계에 성공적으로 적용한 혁신적 연구로, 폐루프 구조와 설명가능성이라는 핵심 장점을 제시한다. 계산 기반 평가에서 기존 모델을 능가했으나, 생체 외 검증과 계산

#393 2025 4/5

X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System

저자: Peng Wang, Ruihan Tao, Qiguang Chen, Mengkang Hu, Libo Qin | 날짜: 2025 | DOI: arXiv:2505.15372v1

영어 환경과 다국어 환경에서 GPT-4o의 성능 비교: 다국어 환경에서 20% 이상 성능 저하 발생

Essence

![Figure 1](figures/fig1.webp) *영어 환경과 다국어 환경에서 GPT-4o의 성능 비교: 다국어 환경에서 20% 이상 성능 저하 발생* 본 논문은 대규모 언어모델(LLM) 기반 에이전트의 다국어 성능을 평가하기 위해 14개 언어, 2,800개의 지시문, 589,946개의 상품을 포함한 X-WebAgentBench 벤치마크를 제시한다. 기존 에이전트 벤치마크들이 영어 중심이었던 반면, 이 연구는 다국어 지시문과 다국어 환경을 동시에 포함한 최초의 종합적인 다국어 에이전트 평가 벤치마크를 구축하였다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

X-WebAgentBench는 다국어 에이전트 연구의 중요한 공백을 채운 첫 번째 종합적 벤치마크로서 학술적·실무적 가치가 높으며, 체계적인 품질 관리 방식이 돋보인다. 다만 전자상거래 도메인 중심, 상대적으로 작은 지시문 규모, 자동 번역의 근본적 한계 등으로 인해 추가 확장과 개선 여지가 있다.

#394 2023 4/5

ChatDev: Communicative Agents for Software Development

저자: Qian Chen, Wei Liu, Hongzhang Liu, Nuo Chen, Yufan Dang, Jiahao Li, Cheng Yang, Weize Chen, Yu-Sheng Su, Xin Cong, Juyuan Xu, Dahai Li, Zhiyuan Liu, Maosong Sun | 날짜: 2023 | DOI: arXiv:2307.07924

Essence

![Figure 2](figures/fig2.webp) *그림 2: 소프트웨어 에이전트들이 다단계 통신을 수행하며 설계, 코딩, 테스트 단계의 세부 작업을 협력하여 수행하는 체인-구조 워크플로우* 본 논문은 대규모 언어모델(LLM) 기반의 전문화된 에이전트들이 자연언어 및 프로그래밍 언어를 통해 상호 통신하며 소프트웨어 개발의 설계, 코딩, 테스트 단계를 협력적으로 수행하는 ChatDev 프레임워크를 제시한다. 이는 기존의 개별 단계별 고립된 딥러닝 접근법을 통일된 언어기반 통신으로 연결하여 전체적인 소프트웨어 개발 프로세스의 일관성과 효율성을 향상시킨다.

Evaluation

Overall: 4

ChatDev는 LLM 기반 다중 에이전트 협력을 소프트웨어 개발 전 단계에 체계적으로 적용한 의미 있는 프레임워크로, 체인-구조 워크플로우와 통신식 환각 제거라는 실용적인 해결책을 제시한다. 다만 대규모 실제 프로젝트에 대한 검증 부족과 환각 완전 제거의 한계가 남아있어, 향후 확장성 및 견고성 개선이 필요하다.

#395 2025.06 4/5

Small Language Models are the Future of Agentic AI

저자: Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov | 날짜: 2025.06 | DOI: 10.48550/arXiv.2506.02153

에이전트 시스템의 두 가지 운영 방식: 좌측은 언어모델이 인터페이스와 도구 호출을 모두 조율하는 방식, 우측은 코드 기반 컨트롤러가 상호작용을 조율하는 방식

Essence

현재 에이전트 AI 시스템은 대규모 언어모델(LLM)에 의존하고 있으나, 본 논문은 소규모 언어모델(SLM)이 에이전트의 반복적이고 전문화된 작업에 더 적합하며 경제적이므로 에이전트 AI의 미래를 주도할 것이라는 입장을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 현재 LLM 중심의 에이전트 AI 산업에 대한 경제적·기술적·환경적 비판을 제기하고 SLM 기반 에이전트 시스템으로의 전환을 주장하는 중요한 입장 논문이다. NVIDIA 연구진의 체계적인 주장과 다양한 최신 SLM 모델들의 성능 사례를 통해 기술적 타당성을 입증하며, 수백억 달러 규모의 인프라 투자 불일치 문제를 날카롭게 지적한다. 다만 대규모 실증 데이터와 프로덕션 환경의 검증, 그리고 체계적인 도메인별 경계 조건 분석이 추가되면 더욱 강력한 주장이 될 수 있다. 에이전트 AI의 빠른 성장과 AI 비용 효율성에 대한 업계 관심을 고려할 때, 커뮤니티 논의를 촉발할 만한 가치 있는 기여다.

Scientific Code Agents 14 ▶

#396 2026.03 4/5

Towards end-to-end automation of AI research

저자: Chris Lu, Cong Lu, Robert Tjarko Lange, Yutaro Yamada, Shengran Hu, Jakob Foerster, David Ha, Jeff Clune | 날짜: 2026.03 | DOI: 10.1038/s41586-026-10265-5

Figure 1: The AI Scientist의 워크플로우. 자동화된 아이디어 생성, 트리 기반 실험, 원고 작성 및 리뷰의 서로 다른 단계들로 구성되며, 기초 모델의 개선에 따라 논문 품질이 지속적으로 향상된다.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The AI Scientist의 워크플로우. 자동화된 아이디어 생성, 트리 기반 실험, 원고 작성 및 리뷰의 서로 다른 단계들로 구성되며, 기초 모델의 개선에 따라 논문 품질이 지속적으로 향상된다.* 본 논문은 **The AI Scientist** 시스템을 제시하며, 이는 아이디어 창출부터 동료 검토까지 과학 연구의 전체 수명주기를 자동화하는 최초의 엔드-투-엔드 파이프라인이다. 이 시스템이 생성한 논문이 상위권 머신러닝 컨퍼런스 워크숍의 동료 검토 과정을 통과했으며, 이는 AI의 과학 기여 역량이 상당히 성숙했음을 입증한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 과학 연구의 완전한 자동화라는 오랫동안의 AI 연구 목표를 처음으로 실현하고, 실제 학술 평가 시스템을 통해 검증함으로써 높은 임팩트를 입증했다. 자동화된 검토자의 인간 수준 성능 달성도 주목할 만하다. 다만 평가 대상이 머신러닝 분야의 컴퓨터 기반 실험으로 제한되었으며, 과학 문헌에 미칠 잠재적 부작용(노이즈, 피어 리뷰 시스템 과부하)에 대한 대비책 부재는 한계점이다. 기초 모델의 지속적 개선에 따른 시스템의 향상 가능성은 매우 높다.

#397 2024 4/5

The Virtual Lab: AI Agents Design New SARS-CoV-2 Nanobodies with Experimental Validation

저자: Kyle Swanson, Wesley Wu, Nash L. Bulaong, J. Pak, James Y. Zou | 날짜: 2024 | DOI: 10.1101/2024.11.11.623004

그림 1: Virtual Lab 아키텍처. (a) PI 에이전트를 중심으로 다양한 과학자 에이전트들이 팀을 이루는 구조, (b) 팀 미팅의 다중 라운드 토론 흐름, (c) 개별 미팅의 반복적 피드백 과정

Essence

![Figure 1](figures/fig1.webp) *그림 1: Virtual Lab 아키텍처. (a) PI 에이전트를 중심으로 다양한 과학자 에이전트들이 팀을 이루는 구조, (b) 팀 미팅의 다중 라운드 토론 흐름, (c) 개별 미팅의 반복적 피드백 과정* 본 연구는 대규모 언어모델(LLM) 기반의 다중 전문가 AI 에이전트 팀이 인간 연구자와 협력하여 학제간 과학 연구를 수행하는 "Virtual Lab" 프레임워크를 제시한다. 이를 SARS-CoV-2 나노바디 설계에 적용하여 92개의 신규 나노바디를 설계하고 실험적 검증을 통해 유망한 결합 특성을 가진 후보를 발굴했다.

Evaluation

Overall: 4

본 논문은 LLM 기반 다중 전문가 에이전트가 인간 연구자와 협력하여 실제 학제간 과학 문제(나노바디 설계)를 해결하고 실험적으로 검증한 선도적 사례로, 향후 AI 지원 과학 연구의 패러다임 전환을 시사한다. 다만 대규모 적용 시 비용과 확장성, 그리고 에이전트 팀 최적화 방법론의 추가 개발이 요구된다.

#398 2025.12 4/5

SCP: Accelerating Discovery with a Global Web of Autonomous Scientific Agents

저자: Yankai Jiang, Wenjie Lou, Lilong Wang, Zhenyu Tang, Shiyang Feng, Jiaxuan Lu, Haoran Sun, Yaning Pan, Shuang Gu, Haoyang Su, Feng Liu, Wangxu Wei, Pan Tan, Dongzhan Zhou, Fenghua Ling, Cheng Tan, Bo Zhang, Xiaosong Wang, Lei Bai, Bowen Zhou | 날짜: 2025.12 | DOI: 10.48550/arXiv.2512.24189

SCP는 실험실 기기, 데이터베이스, LLM, 계산 모델, API 등을 통합하여 드라이(computational)/웻(wet) 하이브리드 협업 연구 패러다임을 지원

Essence

본 논문은 자율 과학 에이전트의 글로벌 네트워크를 가능하게 하는 개방형 표준인 **Science Context Protocol (SCP)**를 제안한다. SCP는 소프트웨어 도구, 데이터셋, 물리 기기를 통합하는 통일된 자원 인터페이스와 실험의 전체 생명주기를 관리하는 오케스트레이션 아키텍처를 제공하여 기관 간 이질적 AI 시스템의 안전한 협업을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

SCP는 분산 과학 에이전트의 상호운용성과 협업을 가능하게 하는 중요한 프로토콜 표준을 제시하며, 실무적 가치와 장기적 영향력이 높다. 다만 대규모 연합 환경에서의 성능 검증, 의미론적 표준화, 물리 기기 통합의 실현 가능성 등에 대한 더 깊은 기술적 논의가 필요하다.

저자: Kyle Swanson, Wesley Wu, Nash L. Bulaong, John E. Pak, James Zou | 날짜: 2025.07 | DOI: 10.1038/s41586-025-09442-9

Essence

LLM 기반의 다중 AI 에이전트 시스템(Virtual Lab)이 학제 간 협업을 통해 SARS-CoV-2 신규 나노바디(nanobody) 92개를 설계하고 실험적으로 검증하여, 최근 변이주(JN.1, KP.3)에 대한 개선된 결합 특성을 가진 유망 후보들을 발견했다.

Evaluation

Overall: 4

이 연구는 LLM이 단순한 조언자에서 과학 연구의 설계 및 실행을 주도하는 지능형 협력자로 진화했음을 보여주는 이정표적 논문이다. Virtual Lab이라는 새로운 패러다임과 SARS-CoV-2 나노바디라는 구체적 성과를 통해 AI-인간 협업의 가능성을 실증했으나, 설계 효율성 개선과 다양한 과학 분야으로의 일반화가 앞으로의 과제이다.

#403 2024 4/5

Autokaggle: A multi-agent framework for autonomous data science competitions

저자: Ziming Li, Qianbo Zang, David W.L., Jiawei Guo, Tuney Zheng, Minghao Liu, Xinyao Niu, Yue Wang, Jian Yang, Jiaheng Liu, Wanjun Zhong, Wangchunshu Zhou, Wenhao Huang, Ge ZHANG | 날짜: 2024 | DOI: 미제공

Essence

![Figure 1](https://arxiv.org/html/2410.20424v3/x1.png) *Figure 1: AutoKaggle의 개요 - 위상 기반 워크플로우, 5개의 전문 에이전트, 반복적 디버깅/테스트, ML 도구 라이브러리, 상세 리포팅 통합* AutoKaggle은 LLM 기반의 다중 에이전트 시스템으로 Kaggle 데이터 과학 경진대회에서 전체 데이터 파이프라인을 자동으로 수행하는 프레임워크입니다. 8개의 Kaggle 경진대회에서 0.85의 검증 제출 성공률과 0.82의 종합 점수를 달성하여 실무 수준의 성능을 입증합니다.

Evaluation

Overall: 4

AutoKaggle은 LLM 기반 데이터 과학 자동화의 실제 적용 사례로, 위상 기반 워크플로우와 다중 에이전트 협력을 통해 완전한 데이터 파이프라인 자동화를 시도한 의미 있는 작업입니다. 특히 반복적 테스트와 인간-루프 통합, 투명성 강화는 실무 신뢰성을 높이는 강점입니다. 다만 기술적 혁신성은 중간 수준이며, 평가 범위(Kaggle 8개), 벤치마크 정의의 명확성, 실제 계산 비용 분석 부재 등이 논문의 한계입니다. 추후 더 광범위한 데이터 타입, 도메인, 플랫폼으로의 검증과 상세한 기술 문서화가 필요합니다.

#404 2025.06 4/5

Agent Laboratory: Using LLM Agents as Research Assistants

저자: Samuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Michael Moor, Zicheng Liu, Emad Barsoum | 날짜: 2025.06 | DOI: 10.48550/arXiv.2501.04227

Agent Laboratory는 인간의 연구 아이디어를 입력받아 특화된 LLM 에이전트 파이프라인을 통해 연구 보고서와 코드 저장소를 생성한다.

Essence

![Figure 1](figures/fig1.webp) *Agent Laboratory는 인간의 연구 아이디어를 입력받아 특화된 LLM 에이전트 파이프라인을 통해 연구 보고서와 코드 저장소를 생성한다.* Agent Laboratory는 인간의 연구 아이디어 실행을 지원하는 자율적 LLM 기반 프레임워크로, 문헌 검토, 실험 수행, 보고서 작성의 세 단계를 거쳐 완전한 연구 성과물을 생성한다. 기존 자동화 연구 방법 대비 84% 비용 감축을 달성하면서도 높은 품질의 기계학습 연구를 수행할 수 있음을 보여준다.

Evaluation

Overall: 4

Agent Laboratory는 인간의 창의성을 존중하면서 LLM 에이전트의 자동화 능력을 활용하는 실용적이고 경제적인 연구 지원 시스템을 제시한다. 특히 co-pilot 모드와 비용 효율성은 실질적 기여도가 높으나, 생성된 연구의 과학적 영향력, 평가 방법론의 신뢰성, 다양한 과학 분야로의 일반화 가능성 측면에서 추가 검증과 개선이 요구된다.

#405 2024 4/5

An autonomous GIS agent framework for geospatial data retrieval

저자: H. Ning, Zhenlong Li, Temitope Akinboyewa, M. Lessani | 날짜: 2024 | DOI: 10.1080/17538947.2025.2458688

Essence

![Figure 1](figures/fig1.webp) *자율 지리공간 데이터 검색 프레임워크의 구조* 본 논문은 대규모 언어모델(LLM)을 기반으로 지리정보시스템(GIS) 에이전트가 자동으로 지리공간 데이터를 발견하고 다운로드할 수 있는 프레임워크를 제안한다. 데이터 소스 색인과 핸드북 인벤토리로 구성된 플러그-앤-플레이 구조를 통해 OpenStreetMap, 미국 인구조사국 데이터, 위성 이미지 등 다양한 출처에서 80-90%의 높은 성공률로 데이터를 자동 검색한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 자율 GIS의 핵심 과제인 지리공간 데이터 자동 검색을 위한 최초의 포괄적이고 실용적인 프레임워크를 제시하며, 다양한 데이터 소스에서 높은 성공률을 입증함으로써 자율 GIS 기술의 완성도를 한 단계 높인 의미 있는 기여이다. 플러그-앤-플레이 설계로 향후 확장성도 우수하나, 온라인 데이터 소스 자동 발견과 초기 핸드북 구성의 수작업 문제는 후속 연구 과제로 남아있다.

#406 2026.02 4/5

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Reanalysis

저자: Yiqing Xu, Leo Yang Yang | 날짜: 2026.02 | DOI: arXiv:2602.16733

Essence

본 논문은 대규모 실증 연구의 재현성(reproducibility) 문제를 해결하기 위해 에이전트형 AI 워크플로우를 개발하고, 도구변수(instrumental variable, IV) 설계 92개 연구에서 87%의 종단 성공률을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 AI를 활용한 대규모 재현성 달성이 기술적으로 현실 가능함을 체계적으로 입증하였으며, 인간-AI 역할 분담의 명확한 설계와 버전 제어된 지식 축적으로 실무적 가치가 높으나, IV 설계 특화로 일반화 범위가 현재 제한적이고 근본적 재복제성 문제는 미해결이라는 한계가 있다.

#407 2025.04 4/5

The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

저자: Yutaro Yamada, Robert Tjarko Lange, Cong Lu, Shengran Hu, Chris Lu, Jakob Foerster, Jeff Clune, David Ha | 날짜: 2025.04

Essence

AI Scientist-v2는 에이전트 기반 트리 서치(agentic tree search)를 활용하여 가설 수립, 실험 설계·실행, 데이터 분석 및 시각화, 논문 자동 작성까지 완전히 자율적으로 수행하는 과학 발견 시스템으로, 최초로 동료 심사(peer review)를 통과한 AI 생성 학술 논문을 배출했다.

Evaluation

Overall: 4

본 논문은 AI 기반 과학 발견의 실질적 진전을 보여주는 중요한 작업으로, 템플릿 독립성 달성과 피어 리뷰 통과라는 역사적 성과를 기록했으나, 여전히 방법론적 엄격성과 컨퍼런스 수준의 논문 품질 달성까지는 거리가 있으며, AI 안전 및 윤리적 함의에 대한 더 깊은 논의가 필요하다.

저자: Sandeep Pandey, Ran Xu, Wenkang Wang, Xu Chu | 날짜: 2025 | DOI: 10.1063/5.0257555

다층 구조의 에이전트 설계: 시스템 프롬프트 + 사용자 쿼리 → Builder (RAG 상담) → Executor (워크플로우 조율) → OpenFOAM Agent (실행)

Essence

본 논문은 OpenFOAM 기반 전산유체역학(CFD) 시뮬레이션을 위해 검색 증강 생성(RAG) 기술로 강화된 대규모 언어모델(LLM) 기반 에이전트 OpenFOAMGPT를 제시한다. GPT-4o와 o1 preview 모델을 활용하여 영점 샷(zero-shot) 시뮬레이션 설정부터 경계조건 수정, 난류 모델 조정, 코드 번역까지 다양한 작업을 자동화한다.

Evaluation

Overall: 3

본 논문은 LLM 기반 CFD 자동화의 실용적 시도로서 가치 있으나, 평가의 완전성과 정량적 성능 검증이 개선되어야 하며, 인간 감시의 필수 요구와 높은 운영 비용은 산업 적용의 주요 과제로 남아 있다.

Scientific Discovery Benchmarks 5 ▶

#414 2026.02 4/5

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

저자: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang | 날짜: 2026.02 | DOI: 10.48550/arXiv.2602.12984

Essence

![Figure 1](https://arxiv.org/abs/2602.12984) *Figure 1: 다중 단계 과학적 도구 사용의 벤치마킹. LLM 에이전트가 환경과 상호작용하여 복잡한 화학 작업을 해결하는 대표적인 궤적* 과학적 추론의 복잡성을 다단계 도구 활용으로 평가하기 위해, 본 논문은 4개 과학 분야에 걸쳐 1,780개의 도메인 특화 도구를 통합한 인터랙티브 환경 **SciAgentGym**과 이를 평가하는 **SciAgentBench**를 제시합니다. 나아가 도구 간 논리적 의존성을 학습하기 위해 **SciForge** 데이터 합성 방법을 제안하여, 8B 모델이 235B 이상 규모 모델을 능가하는 성과를 달성합니다.

Evaluation

Overall: 4

본 논문은 과학 AI 에이전트의 다단계 도구 사용 능력을 평가하는 최초의 포괄적 벤치마크를 제시하며, 도구 의존성 기반 학습을 통해 모델 효율성과 성능의 새로운 패러다임을 제시합니다. 규모와 실용성에서 탁월하지만, 기술적 세부사항의 완전성과 명확한 기여의 경계 구분에서는 개선의 여지가 있습니다.

#415 2025.03 4/5

ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

저자: Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun | 날짜: 2025.03 | DOI: 10.48550/arXiv.2410.05080

Figure 1: ScienceAgentBench의 세부 작업 분포(상) 및 생물정보학, 계산화학, 지리정보과학, 심리신경과학의 이질적 데이터 유형(하)

Essence

본 논문은 대규모언어모델(LLM) 기반 언어에이전트(Language Agents)의 데이터 기반 과학 발견 수행능력을 엄밀하게 평가하기 위한 벤치마크 ScienceAgentBench를 제시한다. 최근 LLM이 과학 연구 자동화를 완전히 자동화할 수 있다는 주장들에 대해, 개별 과학적 작업 단위에서의 체계적 평가의 중요성을 강조하고 현재 에이전트의 실제 역량의 한계를 명확히 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 과학 에이전트의 성능을 엄밀하게 평가할 수 있는 고품질 벤치마크를 제시함으로써, 과장된 주장들에 대한 객관적 근거를 제공한다. 특히 피어리뷰 논문 기반 작업 추출과 분야별 전문가 검증을 통해 과학적 진정성을 확보한 점이 핵심 기여이며, 실제 과학자들의 생산성 향상을 목표로 한 현실적 문제 설정이 돋보인다. 다만 현재 에이전트의 32-42% 성능으로는 실무 활용에 아직 제약이 있으며, 이를 개선하기 위한 장기 연구 방향을 제시하는 데 논문의 가치가 있다.

#416 2024 4/5

DSBench: How far are data science agents to becoming data science experts? arXiv preprint arXiv:2409.07703, 2024.

저자: Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu | 날짜: 2024 | DOI: arXiv:2409.07703

Essence

![Figure 1](figure1.png) *DSBench 벤치마크의 완전한 워크플로우: 작업 설명 및 데이터 파일 처리부터 모델/에이전트 실행 및 최종 평가까지의 전체 과정* 대규모 언어 모델(LLM)과 대규모 시각-언어 모델(LVLM) 기반 데이터 과학 에이전트의 실제 성능을 평가하기 위해, ModelOff와 Kaggle 대회에서 수집한 466개의 데이터 분석 작업과 74개의 데이터 모델링 작업으로 구성된 포괄적 벤치마크 **DSBench**를 제시한다. 현존하는 최고 성능의 에이전트도 데이터 분석 작업의 34.12%만 해결하며 데이터 모델링에서 34.74% 상대 성능 격차(RPG)를 보임으로써, 현실 수준의 데이터 과학 에이전트 개발에 상당한 개선이 필요함을 입증한다.

Evaluation

Overall: 4

DSBench는 실제 데이터 과학 경쟁에서 수집한 포괄적 작업으로 기존 벤치마크의 단순화 문제를 효과적으로 극복했으며, 새로운 RPG 지표를 통해 다양한 모델링 메트릭을 통일된 방식으로 평가할 수 있다는 점에서 높은 기여도를 가진다. 다만 LLM 기반 평가 방식의 객관성 확보와 데이터 모델링 작업 수 확충이 추가 보완 과제이다.

#417 2025 4/5

LLM Agents Making Agent Tools

저자: G. Wölflein, Dyke Ferber, D. Truhn, Ognjen Arandjelovi'c, J. Kather | 날짜: 2025 | DOI: 10.48550/arXiv.2502.11705

Essence

![Figure 1](figures/fig1.webp) *에이전트가 런타임에 동적으로 확장 가능한 도구 집합을 보유하는 미래 비전* TOOLMAKER는 과학 논문의 공개 코드 저장소로부터 LLM 호환 도구를 자동으로 생성하는 에이전트 프레임워크로, 기존에 사람이 수동으로 구현해야 했던 복잡한 과학 도구들을 자동화한다.

Evaluation

Overall: 4

TOOLMAKER는 공개 과학 코드 재활용이라는 현실적인 문제를 타깃하여 LLM 에이전트의 실용성을 크게 향상시킨 논문으로, 특히 의료/과학 분야에서의 도구 접근성 민주화라는 중요한 사회적 임팩트를 제시한다. 다만 이론적 기여는 제한적이며, 벤치마크 규모 확대와 실제 배포 환경에서의 신뢰성 검증이 향후 과제이다.

#418 2024 4/5

Discoverybench: Towards data-driven discovery with large language models

저자: Bodhisattwa Prasad Majumder, Harshit Surana, D. P. Agarwal, Bhavana Dalvi Mishra, Abhijeetsingh Meena, Aryan Prakhar, Tirth Vora, Tushar Khot, Ashish Sabharwal, Peter E. Clark | 날짜: 2024

각 DiscoveryBench 과제는 목표와 데이터셋으로 구성되며, 통계 분석과 과학적 의미 추론이 필요하고, 다면적 평가를 통해 엄밀하게 평가됨

Essence

![Figure 1](figures/fig1.webp) *각 DiscoveryBench 과제는 목표와 데이터셋으로 구성되며, 통계 분석과 과학적 의미 추론이 필요하고, 다면적 평가를 통해 엄밀하게 평가됨* 본 논문은 대규모 언어모델(LLM)이 데이터셋만으로 가설을 자동으로 탐색하고 검증할 수 있는지 평가하기 위한 최초의 포괄적 벤치마크 **DiscoveryBench**를 제시한다. 264개의 실제 과제와 903개의 합성 과제로 구성되어 있으며, 현재 최고 성능 LLM도 25%의 정확도만 달성하여 자동화된 데이터 기반 발견의 난제를 드러낸다.

Evaluation

Overall: 4

DiscoveryBench는 LLM 기반 자동화된 과학적 발견의 능력을 체계적으로 평가하는 중요한 첫 번째 벤치마크로서, 새로운 형식화 프레임워크와 다면적 평가 메커니즘을 제시한다. 264개의 실제 과제와 903개의 합성 과제로 구성된 포괄적인 자원을 제공하며, 현재 LLM의 25% 저조한 성능은 이 분야의 미해결 과제를 명확히 드러낸다. 다만 평가 일관성 검증이 보완되고, 실패 모드에 대한 더 깊은 분석이 이루어진다면 이 벤치마크는 향후 과학적 발견 자동화 연구의 중요한 추진력이 될 것으로 기대된다.

LLM-Driven Drug Discovery 5 ▶

#419 2024 4/5

Agentreview: Exploring peer review dynamics with llm agents

저자: Yiqiao Jin, Qinlin Zhao, Yiyang Wang, Hao Chen, Kaijie Zhu, Yijia Xiao, Jindong Wang | 날짜: 2024 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *AgentReview 프레임워크는 피어 리뷰 프로세스를 현실적으로 시뮬레이션하며, 다중 변수의 영향을 분리하여 분석한다.* 본 논문은 대규모언어모델(LLM) 기반 에이전트를 활용하여 학술지 피어 리뷰 과정을 시뮬레이션하고, 검토자 편향(reviewer bias), 사회적 영향(social influence), 권위 편향(authority bias) 등 다양한 사회학적 요인이 리뷰 결정에 미치는 영향을 정량화하는 첫 번째 프레임워크를 제시한다.

Evaluation

Overall: 4

본 논문은 LLM 에이전트를 활용한 피어 리뷰 시뮬레이션이라는 혁신적 접근으로 기존 분석의 한계를 극복하고, 검토자 편향, 사회적 영향, 권위 편향 등의 정량적 영향을 처음 규명하여 피어 리뷰 시스템 개선에 실질적 기초를 제공한다. 다만 합성 데이터 기반 분석의 타당성 검증과 다양한 학문 영역으로의 일반화가 향후 과제이다.

#420 2025 4/5

PharmAgents: Building a Virtual Pharma with Large Language Model Agents

저자: Bowen Gao, Yanwen Huang, Yiqiao Liu, Wenxuan Xie, Wei-Ying Ma, Ya-Qin Zhang, Yanyan Lan | 날짜: 2025 | DOI: arXiv:2503.22164v2

Essence

![Figure 1](figures/fig1.webp) *Virtual Pharma (PharmAgents)는 약물 발견 타겟 발굴부터 전임상 평가까지의 전체 과정을 시뮬레이션한다.* PharmAgents는 대규모 언어 모델(LLM) 기반의 다중 에이전트 협력 시스템으로, 신약 개발의 전체 워크플로우—타겟 발굴, 리드 화합물 식별, 최적화, 전임상 평가—를 자동화하고 투명하게 수행한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

PharmAgents는 LLM 기반 다중 에이전트 시스템을 신약 개발 전체 파이프라인에 체계적으로 적용한 획기적 사례로, 자동화와 해석가능성의 결합을 통해 규제 친화적 AI 약물 발견의 새로운 패러다임을 제시한다. 다만 실제 실험 검증과 광범위한 질병별 평가를 통해 실용성을 더욱 강화할 필요가 있다.

#421 2024 4/5

A Multi-agent Framework for Physical Laws Discovery

저자: Bo Hu, Siyu Liu, Beilin Ye, Yun Hao, Yanhui Liu | 날짜: 2024

Essence

대규모 언어모델(LLM)을 기반으로 하는 다중 에이전트 프레임워크를 개발하여 물리 법칙의 자동 발견을 수행하고, 재료과학의 세 가지 문제에서 해석 가능하고 예측력 높은 수식을 발견했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 다중 에이전트 시스템과 기호 회귀를 창의적으로 결합하여 해석 가능하고 일반화 가능한 물리 법칙 발견의 새로운 경로를 제시했으며, 재료과학에서 실질적인 성과를 입증했다. 다만 제한된 응용 분야와 기술적 선택사항의 정당성 부족이 보완되어야 한다.

#422 2024 4/5

From intention to implementation: automating biomedical research via LLMs

저자: Yi Luo, Linghang Shi, Yihao Li, Aobo Zhuang, Yeyun Gong, Ling Liu, Chen Lin | 날짜: 2024 | DOI: 10.1007/s11432-024-4485-0

Essence

본 논문은 대규모 언어모델(LLM)을 활용하여 바이오메디컬 연구의 전체 파이프라인을 자동화하는 첫 번째 end-to-end 시스템인 **BioResearcher**를 제시한다. 모듈형 멀티-에이전트 아키텍처를 통해 문헌 검색, 데이터 처리, 실험 설계, 프로그래밍을 통합하여 자동화된 드라이랩(dry lab) 바이오메디컬 연구를 구현한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

BioResearcher는 바이오메디컬 연구 자동화에 새로운 패러다임을 제시하는 혁신적 시스템으로, 멀티-에이전트 아키텍처와 새로운 평가 지표가 특히 주목할 만하다. 다만 평가 규모 확대, 습랩 확장, 그리고 실무 적용성에 대한 추가 검증이 필요하다.

#423 2025 3/5

PharmAgents: Building a Virtual Pharma with Large Language Model Agents

저자: Bowen Gao, Yanwen Huang, Yiqiao Liu, Wenxuan Xie, Weiying Ma | 날짜: 2025 | DOI: 10.48550/arXiv.2503.22164

Figure 1: Virtual Pharma (PharmAgents)가 신약 발견 과정(타겟 발견부터 전임상 평가까지)을 시뮬레이션

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Virtual Pharma (PharmAgents)가 신약 발견 과정(타겟 발견부터 전임상 평가까지)을 시뮬레이션* 대규모 언어모델(LLM) 기반 멀티-에이전트 시스템을 활용하여 신약 발견의 전체 워크플로우(타겟 발견 → 리드 식별 → 리드 최적화 → 전임상 평가)를 자동화하고 설명 가능하게 수행하는 가상 제약회사 시스템을 제안한다. 기존 단일 모델의 한계를 극복하고 학습 경험을 통해 자가 진화하는 능력을 갖춘 혁신적 패러다임을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 3 Clarity: 3 Overall: 3

CRISPR Drug Tools 9 ▶

#424 2024 4/5

Crispr-gpt: An llm agent for automated design of geneediting experiments

저자: Yuanhao Qu, Kaixuan Huang, Ming Yin, Kanghong Zhan, Dyllan Liu, Di Yin, Henry C. Cousins, William A. Johnson, Xiaotong Wang, Mihir Shah, Russ B. Altman, Denny Zhou, Mengdi Wang, Le Cong | 날짜: 2024 | DOI: s41551-025-01463-z

CRISPR-GPT 에이전트 개요: LLM 기반 설계 및 계획 엔진(좌측), 4가지 핵심 메타-태스크(우측 상단), 보조 기능 및 통합 도구킷(우측 하단)

Essence

![Figure 1](figures/fig1.webp) *CRISPR-GPT 에이전트 개요: LLM 기반 설계 및 계획 엔진(좌측), 4가지 핵심 메타-태스크(우측 상단), 보조 기능 및 통합 도구킷(우측 하단)* 본 논문은 대규모 언어 모델(LLM)을 도메인 특화 지식과 외부 도구로 증강한 CRISPR-GPT 에이전트를 제시하여, 유전자 편집 실험의 설계 과정을 자동화한다. 일반 LLM의 할루시네이션(hallucination) 문제를 극복하고 생물학 초보자도 체계적으로 CRISPR 기반 유전자 편집 실험을 설계할 수 있도록 지원한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 일반 LLM의 생물학 설계 실패 사례를 체계적으로 분석하고, 도메인 특화 지식 및 외부 도구 통합을 통해 CRISPR 유전자 편집 실험 설계를 자동화하는 실질적이고 혁신적인 접근을 제시했다. 상태 머신 기반 구조로 강건성을 확보하고 윤리 가드레일을 포함한 책임감 있는 개발이 돋보이나, 평가 규모 확대 및 다양한 생물학적 맥락에서의 성능 검증이 추가로 필요하다.

#425 2025 4/5

Curie: Toward rigorous and automated scientific experimentation with ai agents

저자: Patrick Tser Jern Kon, Jiachen Liu, Qi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen | 날짜: 2025

Figure 1. Curie overview.

Essence

![Figure 1](figures/fig1.webp) *Figure 1. Curie overview.* 본 논문은 대규모 언어 모델(LLM) 기반 AI 에이전트를 활용하여 엄밀하고 자동화된 과학 실험 수행을 가능하게 하는 프레임워크 Curie를 제안한다. 신뢰성(reliability), 방법론적 통제(methodical control), 해석가능성(interpretability)을 갖춘 세 가지 핵심 모듈을 통해 실험 과정에 엄밀함을 내재화하고, 기존 베이스라인 대비 3.4배 향상된 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Curie는 LLM 기반 과학 실험 자동화에서 **체계적 엄밀성 강제**라는 중요한 공백을 최초로 해결하며, 세 가지 모듈의 통합 설계와 현실 기반 벤치마크 구성으로 상당한 기술적 기여를 제시한다. 다만 도메인 확장성과 인간-AI 협업 메커니즘 고도화가 실제 과학 연구 적용의 열쇠가 될 것으로 보인다.

#426 2026 4/5

Cocoa: Co-planning and co-execution with AI Agents

저자: K. J. Kevin Feng, Kevin Pu, Matt Latzke, Tal August, Pao Siangliulue, Jonathan Bragg, Daniel S. Weld, Amy X. Zhang, Joseph Chee Chang | 날짜: 2026 | DOI: 10.1145/3772318.3791673

Cocoa는 과학 연구자를 위해 문서 환경에서 AI 에이전트와의 인터리빙된 공동 계획 및 실행을 촉진하는 상호작용 시스템이다.

Essence

![Figure 1](figures/fig1.webp) *Cocoa는 과학 연구자를 위해 문서 환경에서 AI 에이전트와의 인터리빙된 공동 계획 및 실행을 촉진하는 상호작용 시스템이다.* 본 논문은 AI 에이전트와의 협업에서 계획(planning)과 실행(execution)을 엄격하게 분리하지 않고 유연하게 인터리빙(interleaving)하며, 인간과 에이전트 간 업무 위임 권한을 동적으로 조정할 수 있는 상호작용 설계를 제시한다. 계산 노트북(computational notebook) 패러다임의 영감을 받아 과학 연구 작업을 위한 문서 기반 협업 시스템 Cocoa를 개발했다.

Evaluation

Overall: 4

본 논문은 AI 에이전트와의 장기 협업에서 계획과 실행의 인터리빙, 동적 권한 위임이라는 실질적이고 중요한 설계 문제를 다루며, 체계적인 연구 방법론(형성 연구-설계-이중 평가)과 현장 검증을 통해 신뢰할 수 있는 결과를 제시한다. 특히 과학 연구 도메인의 복잡한 협업 요구를 충족하는 구체적인 설계안을 제안한 점이 실무적 가치가 높다.

#427 2024 4/5

DrugAgent: Automating AI-aided Drug Discovery Programming through LLM Multi-Agent Collaboration

저자: Sizhe Liu, Yizhou Lu, Siyu Chen, Xiyang Hu, Jieyu Zhao | 날짜: 2024 | DOI: 10.48550/arXiv.2411.15692

DrugAgent 프레임워크 개요: LLM Planner와 LLM Instructor의 협력을 통해 자연언어로 표현된 신약 발견 과제를 자동으로 ML 프로그래밍으로 변환

Essence

![Figure 1](figures/fig1.webp) *DrugAgent 프레임워크 개요: LLM Planner와 LLM Instructor의 협력을 통해 자연언어로 표현된 신약 발견 과제를 자동으로 ML 프로그래밍으로 변환* LLM 기반 다중 에이전트 프레임워크 DrugAgent는 신약 발견 분야의 전문적 지식을 통합하여 일반 목적 AI 에이전트의 한계를 극복하고, DTI(약물-표적 상호작용) 예측에서 ReAct 대비 4.92% 향상된 성능을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

DrugAgent는 신약 발견 분야의 도메인 지식을 LLM 에이전트에 체계적으로 통합하는 실질적 접근을 제시하며, 일반 목적 에이전트 대비 유의미한 성능 개선과 신뢰성(유효 제출률, 오류율)을 입증했다. 다만 평가 범위 확대, 계산 비용 분석, 실제 신약 개발 환경과의 검증이 추가되면 임상 적용성이 강화될 것으로 기대된다.

#428 2025 4/5

FROGENT: An End-to-End Full-process Drug Design Multi-Agent System

저자: Qihua Pan, Dong Xu, Qianwei Yang, Jenna Xinyi Yao, Sisi Yuan | 날짜: 2025

Figure 1: FROGENT 멀티에이전트 시스템의 아키텍처 개요. 네 가지 핵심 에이전트(Orchestrate, Retrieve, Forge, Gauge)로 구성되며, 동적 생화학 데이터베이스와 확장 가능한 도구 라이브러리를 통합

Essence

![Figure 1](figures/fig1.webp) *Figure 1: FROGENT 멀티에이전트 시스템의 아키텍처 개요. 네 가지 핵심 에이전트(Orchestrate, Retrieve, Forge, Gauge)로 구성되며, 동적 생화학 데이터베이스와 확장 가능한 도구 라이브러리를 통합* FROGENT는 대규모 언어 모델(LLM)의 계획, 추론, 도구 활용 능력을 활용하여 신약 개발 전 과정을 하나의 통합된 자동화 프레임워크로 통합하는 멀티에이전트 시스템이다. 표적 식별부터 소분자 생성, 펩타이드 최적화, 역합성 계획까지 약물 발견 파이프라인의 모든 단계를 자동으로 실행할 수 있다.

Evaluation

Overall: 4

FROGENT는 신약 개발의 완전한 파이프라인을 최초로 통합하는 멀티에이전트 시스템으로, LLM의 계획과 추론 능력을 활용한 자동화된 폐루프 최적화를 구현했다는 점에서 매우 의미 있다. 8개 벤치마크와 실제 임상 사례를 통한 검증도 확실하지만, 인실리코 평가에만 의존하고 실제 약물 효능 검증이 부재하며, LLM 기반 시스템의 근본적 한계(환각, 오류 전파)에 대한 대책이 불충분한 점이 아쉽다. 향후 실험 검증, 오류 복구 메커니즘, 해석성 향상 등의 연구가 이루어진다면 신약 개발 자동화의 실용화 가능성을 더욱 높일 수 있을 것으로 기대된다.

#429 2024 4/5

CRISPR-GPT for agentic automation of gene-editing experiments

저자: Yuanhao Qu, Kaixuan Huang, Ming Yin, Kanghong Zhan, Dyllan Liu | 날짜: 2024 | DOI: 10.1038/s41551-025-01463-z

Overview of CRISPR-GPT Agent. LLM 기반 설계 및 계획 엔진(좌측)이 4가지 핵심 메타-작업(우상단)과 보조 기능들을 수행하며, 여러 유용한 도구 및 툴킷(우하단)을 통합

Essence

![Figure 1](figures/fig1.webp) *Overview of CRISPR-GPT Agent. LLM 기반 설계 및 계획 엔진(좌측)이 4가지 핵심 메타-작업(우상단)과 보조 기능들을 수행하며, 여러 유용한 도구 및 툴킷(우하단)을 통합* CRISPR-GPT는 대규모 언어 모델(LLM)에 유전체 공학 도메인 지식과 외부 도구를 통합하여, 비전문가 연구자도 CRISPR 유전자 편집 실험을 자동으로 설계할 수 있는 에이전트 시스템이다. 이 시스템은 CRISPR 시스템 선택부터 가이드 RNA 설계, 세포 전달 방법 추천, 프로토콜 작성, 검증 실험 설계까지 전체 파이프라인을 자동화한다.

Evaluation

Overall: 4

CRISPR-GPT는 LLM의 추론 능력을 도메인 지식과 체계적으로 결합하여 유전자 편집 실험 설계를 자동화한 혁신적 시스템으로, 생명공학 연구의 민주화와 가속화에 상당한 기여 가능성을 보여준다. 다만 실험 검증 단계의 완전한 자동화, 다양한 세포·조직 타입에 대한 데이터 확충, 정량적 성능 평가 지표 제시로 기술적 견고성과 임상 적용 가능성을 더욱 강화할 필요가 있다.

#430 2024 4/5

HoneyComb: A Flexible LLM-Based Agent System for Materials Science

저자: Huan Zhang, Yu Song, Ziyu Hou, Santiago Miret, Bang Liu | 날짜: 2024 | DOI: 10.48550/arXiv.2409.00135

HoneyComb의 전체 아키텍처. 쿼리 입력에서 시작하여 MatSciKB와 Tool-Hub로부터 정보를 검색하고, Executor가 도구를 반복적으로 호출하며, 최종적으로 Retriever를 통해 LLM이 답변을 생성

Essence

![Figure 1](figures/fig1.webp) *HoneyComb의 전체 아키텍처. 쿼리 입력에서 시작하여 MatSciKB와 Tool-Hub로부터 정보를 검색하고, Executor가 도구를 반복적으로 호출하며, 최종적으로 Retriever를 통해 LLM이 답변을 생성* HoneyComb은 재료과학(Materials Science) 분야에 특화된 최초의 LLM 기반 에이전트 시스템으로, 신뢰할 수 있는 지식베이스(MatSciKB)와 도구 허브(Tool-Hub)를 통합하여 LLM의 환각(hallucination)과 계산 오류를 근본적으로 해결한다.

Evaluation

Overall: 4

HoneyComb은 재료과학 도메인의 LLM 응용에서 의미 있는 선도적 시스템으로, 다양한 지식원을 통합한 포괄적 지식베이스와 자동화된 도구 생성 방법론을 통해 실질적 성능 향상을 달성하였다. 다만 기술 구현의 세부사항, 정량적 평가 결과의 명시, 실제 연구 환경에서의 검증이 보완될 필요가 있으며, MatSciKB의 지식 신선도 유지와 도구 신뢰성 보증 메커니즘이 향후 과제로 남아있다.

#431 2024 4/5

Interpreting Multi-band Galaxy Observations with Large Language Model-Based Agents

저자: Zechang Sun, Yuan-Sen Ting, Yaobo Liang, Nan Duan, Song Huang | 날짜: 2024 | DOI: arXiv:2409.14807

mephisto의 멀티밴드 은하 관측 해석 과정: 입력 상태 분석 → 가설 생성 → CIGALE을 통한 SED 모델 피팅 → 평가 및 선택 → 지식 학습의 반복적 사이클

Essence

![Figure 1](figures/fig1.webp) *mephisto의 멀티밴드 은하 관측 해석 과정: 입력 상태 분석 → 가설 생성 → CIGALE을 통한 SED 모델 피팅 → 평가 및 선택 → 지식 학습의 반복적 사이클* 본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템 mephisto를 제안하여, 천문학적 관측 데이터 해석의 복잡한 추론 과정을 자동화하는 것을 시연한다. James Webb Space Telescope(JWST) 데이터의 분광에너지분포(SED) 피팅을 통해 인간 수준의 전문가 추론을 구현한다.

Evaluation

Overall: 4

본 논문은 LLM 에이전트를 활용한 천문학 연구의 자동화라는 혁신적 방향을 제시하며, JWST 데이터를 통한 실제 적용으로 개념의 타당성을 입증하였다. 특히 미지의 천체(Little Red Dots)에 대한 추론 능력은 인공지능 과학 에이전트의 잠재력을 잘 보여준다. 다만 제한된 규모의 실험, 인간 전문가와의 정량적 비교 부재, 그리고 지식 기반 구축의 불명확한 메커니즘이 평가를 낮추는 요인이다. 후속 연구에서 더 체계적인 검증과 확장 가능성 제시를 기대한다.

#432 2025 4/5

STELLA: Towards a Biomedical World Model with Self-Evolving Multimodal Agents

저자: Ruofan Jin, Zaixi Zhang, Mengdi Wang, Le Cong | 날짜: 2025 | DOI: 10.1101/2025.07.01.662467

Essence

![Figure 1](figures/fig1.webp) *STELLA의 전체 프레임워크: 매니저 에이전트, 개발 에이전트, 비평 에이전트, 도구 생성 에이전트가 협력하며, 템플릿 라이브러리와 도구 오션이 자동으로 진화한다.* STELLA는 바이오의학 연구 질문에 자동으로 적응하고 경험으로부터 학습하는 자기진화형(self-evolving) AI 에이전트로, 동적 템플릿 라이브러리와 확장 가능한 도구 풀을 통해 기존의 정적 도구 집합이라는 한계를 극복한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

STELLA는 바이오의학 AI 에이전트의 자기진화 메커니즘이라는 혁신적 개념을 제시하고 이를 실증적으로 증명한 의미 있는 연구이나, 절대 성능의 낮음과 기술 상세의 부족으로 인해 실제 바이오의학 연구 현장에서의 즉각적 적용 가능성은 제한적이며, 추가적인 검증과 개선이 필요하다.

Clinical Multi-Agent Systems 9 ▶

#433 2023.11 4/5

MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

저자: Xiangru Tang, Anni Zou, Zhuosheng Zhang, Ziming Li, Yilun Zhao, Xingyao Zhang, Arman Cohan, Mark Gerstein | 날짜: 2023.11

Essence

![Figure 1](figures/fig1.webp) *MedAgents 프레임워크의 5단계 파이프라인: 전문가 수집, 분석 제안, 보고서 요약, 협력 협의, 의사결정* 대규모 언어 모델(LLM)의 의료 추론 능력을 향상시키기 위해 다학제 협력 프레임워크를 제안하며, 역할 놀이와 반복적 토론을 통해 훈련 없이도 의료 지식을 효과적으로 활용한다.

Evaluation

Overall: 4

MedAgents는 의료 분야에서 LLM의 잠재된 지식을 효과적으로 활용하는 창의적인 다학제 협력 프레임워크로, 훈련 없는 zero-shot 설정에서 실질적인 성능 개선을 달성하였다. 다만 도메인 지식 부족 및 환각 문제의 근본적 해결과 계산 효율성 개선이 추가 과제이다.

#434 2025 4/5

Psyche: A multi-faceted patient simulation framework for evaluation of psychiatric assessment conversational agents

저자: Jingoo Lee, Kyungho Lim, Young-Chul Jung, Byung-Hoon Kim | 날짜: 2025

Figure 1. PSYCHE 프레임워크의 개요: (a) 실제 환자와의 상호작용 평가, (b) 단순 시뮬레이션 환자 기반 평가, (c) 제안된 구조-기반 다면적 환자 시뮬레이션 평가

Essence

![Figure 1](figures/fig1.webp) *Figure 1. PSYCHE 프레임워크의 개요: (a) 실제 환자와의 상호작용 평가, (b) 단순 시뮬레이션 환자 기반 평가, (c) 제안된 구조-기반 다면적 환자 시뮬레이션 평가* 정신과 진료 대화형 에이전트(PACA)의 임상 적절성을 체계적으로 평가하기 위해 다면적 정신의학적 구성(Multi-Faceted Construct, MFC)을 기반으로 한 시뮬레이션 환자 프레임워크를 제시한다. 이는 윤리적 안전성을 보장하면서도 비용 효율적이고 정량적인 평가를 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

PSYCHE 프레임워크는 정신과 평가 에이전트의 임상 적절성을 평가하기 위한 혁신적이고 체계적인 접근 방식을 제시하며, 다면적 정신의학적 구성 기반의 구조화된 시뮬레이션과 정량적 평가 메커니즘은 의료 AI 평가 분야에 실질적 기여를 한다. 다만 일부 정신질환 요소의 낮은 일관성 문제와 평가 범위의 한계는 후속 개선이 필요한 부분이다.

#435 2024 4/5

Agent hospital: A simulacrum of hospital with evolvable medical agents

저자: Junkai Li, Yunghwei Lai, Weitao Li, Jingyi Ren, Meng Zhang, Xinhui Kang, Siyu Wang, Peng Li, Ya-Qin Zhang, Weizhi Ma, Yang Liu | 날짜: 2024 | DOI: 미제공

Agent Hospital 개요: 환자, 간호사, 의사 모두가 LLM 기반 자율 에이전트인 병원 시뮬레이션

Essence

![Figure 1](figures/fig1.webp) *Agent Hospital 개요: 환자, 간호사, 의사 모두가 LLM 기반 자율 에이전트인 병원 시뮬레이션* 본 논문은 대규모 언어모델(LLM)을 기반으로 한 자율 에이전트들이 병원 환경을 시뮬레이션하는 "Agent Hospital"을 제안하며, 의사 에이전트가 수만 건의 환자 치료를 통해 진화하여 실제 의료 시험 벤치마크에서 성능을 달성한다.

Evaluation

Overall: 4

이 논문은 LLM 기반 다중 에이전트 시뮬레이션을 의료 분야에 성공적으로 적용한 역작으로, 자동 데이터 생성과 폐쇄 루프 진화 학습이라는 혁신적 접근을 통해 도메인 특화 모델 개발의 비용을 획기적으로 절감할 수 있는 가능성을 보여준다. 다만 의료의 복잡성과 현실 적용의 안전성에 대한 추가 검증이 선행되어야 실제 임상 환경에서의 광범위한 활용이 가능할 것으로 예상된다.

#436 2025 4/5

A survey of llm-based agents in medicine: How far are we from baymax? arXiv preprint arXiv:2502.11211, 2025.

저자: Wenxuan Wang, Zizhan Ma, Zheng Wang, Chenghan Wu, Jiaming Ji, Wenting Chen, Xiang Li, Yixuan Yuan | 날짜: 2025

Figure 1: Conceptual framework of LLM-based medical agents. This figure depicts the architecture of the proposed

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Conceptual framework of LLM-based medical agents. This figure depicts the architecture of the proposed* 의료 분야에서 LLM 기반 에이전트(LLM-based agents)의 아키텍처, 응용, 도전과제를 종합적으로 조사한 서베이로, 60개 논문(2022-2024)을 분석하여 의료 AI의 현황과 미래 방향을 제시합니다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

의료 분야에서 LLM 기반 에이전트의 현황을 종합적으로 분석한 중요한 서베이로, 체계적인 아키텍처 프레임워크와 임상 응용 분류를 제시하며, 안전성과 윤리를 고려한 향후 연구 방향을 명확히 합니다. 실제 임상 배포 사례와 장기 효과 평가 데이터를 보강하면 더욱 실용적인 가이드가 될 수 있습니다.

#437 2024 4/5

AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator

저자: Zhihao Fan, Jialong Tang, Wei Chen, Siyuan Wang, Zhongyu Wei, Jun Xie, Fei Huang, Jingren Zhou (Alibaba Inc., Huazhong University of Science and Technology, Fudan University) | 날짜: 2024 | DOI: arXiv:2402.09742

AI Hospital 프레임워크의 다중 에이전트 상호작용 시뮬레이션: 의사(플레이어)가 환자, 검사관, 과장과 다중 턴 대화를 통해 진단하는 동적 의료 상호작용 환경

Essence

![Figure 1](figures/fig1.webp) *AI Hospital 프레임워크의 다중 에이전트 상호작용 시뮬레이션: 의사(플레이어)가 환자, 검사관, 과장과 다중 턴 대화를 통해 진단하는 동적 의료 상호작용 환경* 대규모 언어 모델(LLM)이 의료 질문 답변 벤치마크에서 우수한 성능을 보이지만, 실제 의료 현장의 복잡한 의사-환자 상호작용을 반영하지 못한다. 이 논문은 다중 에이전트 의료 상호작용 시뮬레이터인 AI Hospital을 제안하고, 현실적인 임상 진단 시나리오에서 LLM의 성능 격차를 평가한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

AI Hospital은 의료 AI의 현실적 성능 평가를 위해 다중 에이전트 시뮬레이션과 고품질 의료 기록을 결합한 의미 있는 프레임워크이며, 현존 LLM이 벤치마크와 실제 임상 상황 사이의 상당한 격차(50% 이하)를 갖고 있음을 정량적으로 입증하였으나, 중국 특화성과 한계 분석의 깊이 부족이 일반화 가능성을 제한한다.

#438 2024 4/5

Interactive agents: Simulating counselor-client psychological counseling via role-playing llm-to-llm interactions

저자: Huachuan Qiu, Zhenzhong Lan | 날짜: 2024 | DOI: 논문 링크 미제공

그림 1: 시뮬레이션 프레임워크의 전체 아키텍처. 좌측: 클라이언트 풀 구성, 중앙: 대화형 시뮬레이션을 통한 데이터 수집, 우측: 모델 훈련

Essence

![Figure 1](figures/fig1.webp) *그림 1: 시뮬레이션 프레임워크의 전체 아키텍처. 좌측: 클라이언트 풀 구성, 중앙: 대화형 시뮬레이션을 통한 데이터 수집, 우측: 모델 훈련* 본 논문은 두 개의 대규모 언어모델(LLM)을 상담사와 내담자 역할로 활용하여 심리 상담 대화를 자동으로 생성하는 프레임워크를 제안한다. 인간 주석의 비용과 개인정보 문제를 해결하면서도 고품질의 합성 상담 데이터를 대규모로 생성할 수 있다는 점이 핵심이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 역할 극화를 통한 심리 상담 대화 자동 생성이라는 창의적이고 실용적인 접근법을 제시하며, 포괄적인 평가 방법론으로 신뢰성을 입증한다. 특히 합성 데이터로 훈련한 모델이 실제 상담 데이터 모델을 초과하는 성능을 달성한 점은 주목할 만하다. 다만 단일 LLM(GPT-4) 사용, 중국어 데이터 기반, 개인정보 보호 및 윤리적 고려에 대한 깊이 있는 논의 부재가 아쉬우며, 향후 다양한 LLM과 문화권에서의 검증이 필요하다.

#439 2025 4/5

Patientsim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions

저자: Daeun Kyung, Hyunseung Chung, Seongsu Bae, Jiho Kim, Jae Ho Sohn, Taerim Kim, Soo Kyung Kim, Edward Choi | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *PATIENTSIM의 전체 프레임워크: 실제 의료 데이터(MIMIC-IV, MIMIC-ED)에서 추출한 170개의 임상 프로필과 4가지 축(성격, 언어 능력, 의료 이력 회상 수준, 인지 혼동 수준)으로 정의된 37개의 고유한 페르소나를 결합하여 현실적인 의사-환자 대화를 생성함* PATIENTSIM은 다양한 환자 페르소나를 반영하여 현실적인 의사-환자 상호작용을 시뮬레이션하는 LLM 기반 환자 시뮬레이터로, 임상 전문가의 검증을 통해 강건성을 입증했다.

Evaluation

Overall: 4

PATIENTSIM은 실제 의료 데이터와 체계적인 페르소나 프레임워크를 결합하여 현실적인 의사-환자 상호작용 시뮬레이션에서 의미 있는 진전을 이루었으며, 임상 전문가 검증과 오픈소스 제공으로 의료 AI 교육 및 평가를 위한 실용적 기여를 제시한다. 다만 단일 세션 제약과 객관적 데이터 부재는 향후 개선이 필요한 주요 한계점이다.

#440 2025 3/5

Medsyn: Enhancing diagnostics with human-ai collaboration

저자: Burcu Sayin, Ipek Baris Schlicht, Ngoc Vo Hong, Sara Allievi, Jacopo Staiano, Pasquale Minervini, Andrea Passerini | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *MedSyn 프레임워크 개요: 의사와 LLM 어시스턴트 간의 다중 턴 대화 구조* 본 논문은 의사와 대규모언어모델(Large Language Models, LLM)이 다중 턴 대화를 통해 협력하는 하이브리드 의료진단 프레임워크 MedSyn을 제안한다. 의사의 인지적 편향과 정보 불완전성을 보완하기 위해 동적 대화 기반의 의료 의사결정 지원 시스템을 개발하였다.

Evaluation

Overall: 3

MedSyn은 의료 의사결정에서 인간-AI 협력의 새로운 패러다임을 제시하는 흥미로운 프레임워크이나, 현재는 LLM 시뮬레이션 기반의 예비 결과 단계로 실제 의료진 참여와 임상적 검증이 시급하다.

#441 2025 3/5

Reinforcing clinical decision support through multi-agent systems and ethical ai governance

저자: Alejandro Barredo Arrieta, Natalia Díaz-Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-López, Daniel Molina, Richard Benjamins, Raja Chatila, Francisco Herrera | 날짜: 2025

MAS 설계의 구성: 전문화된 에이전트들이 각각의 처리 과정을 담당하는 구조

Essence

본 논문은 윤리적 AI 거버넌스(Ethical AI Governance)를 기반으로 한 다중 에이전트 시스템(Multi-Agent System, MAS)을 임상 의사결정 지원 시스템(CDSS)에 통합하여, ICU 환경에서 환자 사망률 예측 및 입원 기간 예측의 정확도와 투명성을 동시에 향상시키는 방법을 제시한다.

Evaluation

Overall: 3

본 논문은 윤리 AI 원칙을 기반으로 ICU 임상의사결정에 다중 에이전트 시스템을 창의적으로 적용했으나, 실험적 검증의 규모가 제한적이고 기술적 세부 사항의 설명이 미흡하여 실제 임상 도입 전 추가 연구가 필요하다.

Physics-Informed Neural Agents 5 ▶

#442 2025 4/5

P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark

저자: Tao Sun, Enhao Pan, Zhengkai Yang, Kaixin Sui, Jiajun Shi, Xianfu Cheng, Tongliang Li, Wenhao Huang, Ge Zhang, Jian Yang, Zhoujun Li | 날짜: 2025 | DOI: arXiv:2505.17104v1

Figure 1: P2P의 다중 에이전트 아키텍처: Figure Agent는 시각 요소 처리, Section Agent는 콘텐츠 생성, Orchestrate Agent는 포스터 조립 및 HTML 렌더링을 담당

Essence

![Figure 1](figures/fig1.webp) *Figure 1: P2P의 다중 에이전트 아키텍처: Figure Agent는 시각 요소 처리, Section Agent는 콘텐츠 생성, Orchestrate Agent는 포스터 조립 및 HTML 렌더링을 담당* 학술 논문을 자동으로 고품질 학술 포스터(HTML 형식)로 변환하는 LLM 기반 다중 에이전트 프레임워크를 제안하며, 30,000개 이상의 대규모 지시 데이터셋과 세부 평가 벤치마크를 함께 제공한다.

Evaluation

Overall: 4

P2P는 학술 포스터 자동 생성이라는 미개척 분야에 다중 에이전트, 대규모 데이터셋, 표준화된 평가 벤치마크를 종합적으로 제시함으로써 높은 실무적 가치와 학술적 의의를 갖추었으나, 기술적 심화와 사용자 검증이 추가되면 더욱 완성도 있는 연구가 될 것으로 기대된다.

#443 2025.06 4/5

OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation

저자: Mengkang Hu, Yuhang Zhou, Wendong Fan, Yuzhou Nie, Bowei Xia, Tao Sun, Ziyu Ye, Zhaoxuan Jin, Yingru Li, Qiguang Chen, Zeyu Zhang, Yifeng Wang, Qianshuo Ye, Bernard Ghanem, Ping Luo, Guohao Li | 날짜: 2025.06 | DOI: 10.48550/arXiv.2505.23885

Figure 1: GAIA 벤치마크에서 WORKFORCE와 OWL의 성능 비교. 상용 시스템 OpenAI Deep Research 능가

Essence

![Figure 2](figures/fig2.webp) *Figure 2: WORKFORCE와 OWL의 개요. 기존 접근과 달리 새 도메인 적응 시 전체 재학습 없이 모듈식 확장 가능* LLM 기반 다중 에이전트 시스템에서 도메인별 특화된 설계로 인한 이식성 부족 문제를 해결하기 위해, 전략 계획(Planner)과 도메인 특화 실행(Worker)을 분리한 모듈식 WORKFORCE 프레임워크와 이를 최적화하는 OWL 학습 패러다임을 제안한다.

Evaluation

Overall: 4

WORKFORCE와 OWL은 다중 에이전트 시스템의 도메인 간 이식성 문제에 우아한 모듈식 해결책을 제시하며, GAIA 벤치마크에서 상용 시스템을 초과하는 성능을 달성했다는 점에서 실질적 기여가 있다. 다만 Worker 설계 일반화, 학습 메커니즘 상세화, 보다 다양한 도메인 검증 등이 추가되면 영향력이 더 높아질 것으로 예상된다.

#444 2025 4/5

Towards an AI co-scientist

저자: Juraj Gottweis, Wei-Hung Weng, Alexander Daryin, Tao Tu, Anil Palepu, Petar Sirkovic, Artiom Myaskovsky, Felix Weissenberger, Keran Rong, Ryutaro Tanno, Khaled Saab, Dan Popovici, Jacob Blum, Fan Zhang, Katherine Chou, Avinatan Hassidim, Burak Gokturk, Amin Vahdat, Pushmeet Kohli, Yossi Matias, Andrew Carroll, Kavita Kulkarni, Nenad Tomasev, Vikram Dhillon, Eeshit Dhaval Vaishnav, Byron Lee, Tiago R D Costa, José R Penadés, Gary Peltz, Yunhan Xu, Annalisa Pawlosky, Alan Karthikesalingam, Vivek Natarajan | 날짜: 2025 | DOI: https://doi.org/10.48550/arXiv.2502.18864

AI 공동 과학자의 시스템 설계 및 실험 검증 요약: (a) 다중 에이전트 아키텍처와 과학자 상호작용 패러다임, (b) 약물 재사용, 신규 표적 발굴, 항생제 내성 메커니즘 해석 3가지 생의학 응용 분야에서의 검증

Essence

![Figure 1](figures/fig1.webp) *AI 공동 과학자의 시스템 설계 및 실험 검증 요약: (a) 다중 에이전트 아키텍처와 과학자 상호작용 패러다임, (b) 약물 재사용, 신규 표적 발굴, 항생제 내성 메커니즘 해석 3가지 생의학 응용 분야에서의 검증* Gemini 2.0 기반 다중 에이전트 시스템으로 구성된 AI 공동 과학자(AI co-scientist)를 제시하며, 생성-토론-진화(generate-debate-evolve) 방식으로 기존 증거를 기반으로 참신한 연구 가설을 자동 생성하고 개선하는 시스템을 개발했다. 약물 재사용, 간섬유화 신규 표적, 박테리아 유전자 전달 메커니즘 분야에서 in vitro 검증을 통해 시스템의 과학 발견 가속화 능력을 실증했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 대규모 언어모델의 다중 에이전트 협력을 활용해 과학 발견 과정을 혁신하려는 야심 찬 시도로, 약물 재사용·신규 표적 발굴·항생제 내성 메커니즘 분야에서 in vitro 검증을 통해 실질적 가능성을 입증했다. 다만 기술 세부사항의 명확화, 다양한 과학 분야로의 확대 검증, 그리고 AI 기여도의 정량적 평가 개선이 후속 과제이다.

#445 2024 4/5

Agent S: An Open Agentic Framework that Uses Computers Like a Human

저자: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li | 날짜: 2024 | DOI: 10.48550/arXiv.2410.08164

Essence

![Figure 1: Agent S uses a computer like a human to solve diverse desktop tasks on different systems.](figures/fig1.webp) Agent S는 계층적 계획 수립, 경험 기억 시스템, 그리고 Agent-Computer Interface(ACI)를 통합한 GUI 자동화 프레임워크로, 복잡한 멀티스텝 데스크톱 작업을 인간처럼 자동으로 수행한다. OSWorld 벤치마크에서 기존 방법 대비 83.6% 상대 개선율을 달성한 최신 최고 성능(SOTA) 모델이다.

Evaluation

Overall: 4

Agent S는 웹 지식 검색과 이원 메모리 시스템을 통해 GUI 자동화의 장기 계획 문제를 효과적으로 해결하고, 83.6%의 상대 성능 개선으로 실질적 기여를 입증한 우수한 연구이다. 다만 자체 평가 메커니즘의 신뢰성 검증과 메모리 관리의 확장성에 대한 더 깊은 분석이 보완되면 완성도가 높아질 것이다.

#446 2025.10 3/5

Lang-PINN: From Language to Physics-Informed Neural Networks via a Multi-Agent Framework

저자: Xin He, Liangliang You, Hongduan Tian, Bo Han, Ivor Tsang, Yew-Soon Ong | 날짜: 2025.10 | DOI: 10.48550/arXiv.2510.05158

Essence

자연언어 기반의 작업 설명으로부터 실행 가능한 Physics-Informed Neural Networks (PINN) 코드를 자동으로 생성하는 LLM 기반 다중 에이전트 시스템을 제안한다. PDE 공식화, 아키텍처 선택, 코드 생성, 피드백 기반 개선의 전체 파이프라인을 통합하여 과학자들의 수동 작업을 대폭 줄인다.

Evaluation

Overall: 3

Lang-PINN은 자연언어에서 PINN까지의 완전 자동화라는 문제 설정의 명확성과 4개 에이전트의 협조 설계에서 체계성을 보여주나, 기술적 혁신성이 제한적이고 평가 범위(8개 PDE, 특정 LLM 모음)가 협소하여 일반화 가능성에 의문의 여지가 있다. 실무 적용성은 우수하나 학술 발전에 대한 기여는 점진적 수준이다.

Embodied AI Research 6 ▶

#447 2025 4/5

AI Idea Bench 2025: AI 연구 아이디어 생성 벤치마크

저자: Yansheng Qiu, Haoquan Zhang, Zhaopan Xu, Ming Li, Diping Song, Zheng Wang, Kaipeng Zhang | 날짜: 2025 | DOI: arXiv:2504.14191

Essence

![Figure 1](https://example.com/fig1.png) *그림 1: 기존 아이디어 생성 파이프라인(a)과 제안된 AI Idea Bench 2025(b)의 비교. 본 연구는 목표 논문의 내용을 먼저 파악한 후 이를 ground truth로 활용하여 아이디어 평가에 참고자료를 제공한다.* 대규모 언어 모델(LLM)의 AI 연구 아이디어 생성 능력을 정량적으로 평가하기 위해 3,495개의 AI 논문과 이를 영감준 논문들로 구성된 포괄적인 벤치마크 데이터셋 및 평가 프레임워크를 제시한다. 기존 평가 방식의 데이터 누수, 불완전한 ground truth, 제한된 실행 가능성 분석 문제를 해결한다.

Evaluation

Overall: 4

AI Idea Bench 2025는 LLM 기반 아이디어 생성 평가의 핵심 문제점들(data leakage, 불완전한 ground truth)을 명확히 진단하고 대규모 고품질 벤치마크와 다차원 평가 프레임워크로 해결하는 의미 있는 연구이다. 다만 자동 추출 정확도 검증, 평가 지표 가중치 최적화, 인간 평가와의 일치도 검증 등 실증적 검증이 보강되면 그 가치가 더욱 높아질 것으로 예상된다.

#448 2024.10 4/5

Building machines that learn and think with people

저자: Katherine M. Collins, Ilia Sucholutsky, Umang Bhatt, Kartik Chandra, Lionel Wong, Mina Lee, Cedegao E. Zhang, Tan Zhi-Xuan, Mark Ho, Vikash Mansinghka, Adrian Weller, Joshua B. Tenenbaum, Thomas L. Griffiths | 날짜: 2024.10 | DOI: 10.1038/s41562-024-01991-9

Essence

인공지능이 단순한 생각의 도구를 넘어 인간과 함께 사고하는 파트너(사고 파트너, thought partner)로 발전해야 한다는 관점에서, 협력적 인지(collaborative cognition)의 원리를 기반으로 설계된 AI 시스템의 필요성과 구현 방안을 제시한다.

Evaluation

Overall: 4

이 논문은 스케일링 중심의 현대 AI 개발 패러다임에 대한 중요한 성찰을 제시하며, 인간과 기계가 진정한 협력자로서 함께 사고할 수 있는 시스템의 설계 원칙을 제안한다는 점에서 학술적·실무적 가치가 높다. 다만 제시된 베이지안 구조적 접근의 구체적 구현과 실제 도메인에서의 성능 검증이 후속 연구를 통해 보충되어야 할 것으로 보인다.

#449 2026.02 4/5

From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences

저자: Yi-Chih Huang | 날짜: 2026.02 | DOI: 미제공

Essence

본 논문은 인문사회과학 연구에 특화된 AI 에이전트 기반의 협업 연구 워크플로우(Agentic Workflow)를 제안하고, 대만의 Claude.ai 사용 데이터(N=7,729)를 통해 그 실행 가능성을 검증하는 방법론적 실험이다. 인문사회과학 연구의 특수성(해석성, 이론 구축 지향성, 맥락 민감성)을 고려한 인간-AI 역할 분담 프레임워크를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 생성형 AI의 인문사회과학 연구 적용이라는 시의적절한 주제에서 기존 문헌의 공백을 명확히 인식하고, 설계 과학 기반의 반복적 개발과 대규모 실증 데이터를 통합한 방법론적 실험을 제시함으로써 학술적·실천적 기여를 이룬다. 다만 현재 제시된 본문에서는 일곱 단계 워크플로우의 구체적 내용과 세 가지 협업 모드의 상세한 분류 기준이 명확하게 드러나지 않아, 부록의 실제 분석 사례와 함께 검토되어야 할 것으로 보인다.

#450 2025 4/5

Dolphin: Closed-loop open-ended auto-research through thinking, practice, and feedback

저자: Jiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou | 날짜: 2025

Essence

![Figure 1](https://arxiv.org/html/2501.03916v3/x1.png) *과학 연구의 진화 단계: (a) 인간 주도 연구, (b) AI 보조 연구, (c) 반자동 연구, (d) 완전 자동 연구* DOLPHIN은 폐쇄 루프(closed-loop) 구조를 갖춘 LLM 기반의 자동 과학 연구 프레임워크로, 아이디어 생성, 실험 검증, 결과 피드백의 세 단계를 반복하며 연구 자동화 수준을 획기적으로 높인다.

Evaluation

Overall: 4

DOLPHIN은 폐쇄 루프 구조와 작업 속성 기반 필터링으로 자동 과학 연구에 의미 있는 기여를 하며 공개 벤치마크에서 경쟁력 있는 결과를 보여주었으나, 평가 범위의 제한성과 디버깅 및 피드백 메커니즘의 정교화 여지가 있어 4점으로 평가된다.

#451 2024 4/5

Toward a Team of AI-made Scientists for Scientific Discovery from Gene Expression Data

저자: Haoyang Liu, Yijiang Li, Jinglin Jian, Yuxuan Cheng, Jianrong Lu | 날짜: 2024 | DOI: 10.48550/arXiv.2402.12391

Essence

![Figure 1](figures/fig1.webp) *TAIS의 개요: 프로젝트 매니저, 데이터 엔지니어, 통계학자, 도메인 전문가, 코드 리뷰어의 5개 역할이 협업하여 유전자 발현 데이터에서 질병 예측 유전자를 식별* 대규모 언어모델(LLM)을 기반으로 한 AI 과학자 팀(TAIS)이 데이터 선택, 전처리, 혼재 인자 보정, 조건 예측을 자동화하여 질병 관련 유전자 발견 파이프라인을 효율화하는 시스템을 제안한다.

Evaluation

Overall: 4

본 논문은 LLM 기반 멀티에이전트 시스템을 유전자 발현 데이터 분석에 창의적으로 적용하고, 혼재 인자 보정과 현실 연구팀 모의를 통해 자동화된 과학적 발견의 새로운 가능성을 보여주는 의미 있는 연구이다. 다만 임상 검증, 확장성, 대규모 벤치마크를 통한 강화가 후속 단계에서 필수적이다.

#452 2024 3/5

Augmenting the author: Exploring the potential of ai collaboration in academic writing

저자: Joseph Tu, Hilda Hadan, Derrick M. Wang, Sabrina A. Sgandurra, Reza Hadi Mogavi, Lennart E. Nacke | 날짜: 2024 | DOI: arXiv:2404.16071

Essence

본 논문은 학술 논문 작성 과정에서 생성형 AI(Generative AI)를 협력 도구로 활용할 때의 가능성과 한계를 탐구하는 워크숍 논문으로, ChatGPT와 Gemini 두 모델의 프롬프트 설계, 출력 분석, 그리고 책임 있는 AI 통합에 초점을 맞추고 있다.

Evaluation

Overall: 3

본 논문은 학술 작성에서의 AI 협력 가능성에 대한 개방적이고 투명한 탐구를 제시하지만, 워크숍 논문으로서 진행 중인 연구의 초기 단계 결과물이므로 향후 더욱 체계적이고 대규모의 후속 연구가 필요하다.

AI-Powered Protein Research 5 ▶

#453 2024 4/5

AutoProteinEngine: A Large Language Model Driven Agent Framework for Multimodal AutoML in Protein Engineering

저자: Yungeng Liu, Zan Chen, Yu Guang Wang, Yiqing Shen | 날짜: 2024 | DOI: 미제공

Figure 1: 자연언어 작업 명세부터 AutoML 실행, 자동 데이터 검색까지의 엔드-투-엔드 워크플로우

Essence

단백질 공학 분야에 특화된 대규모 언어 모델(LLM) 기반 자동화 머신러닝(AutoML) 프레임워크를 제시하여, 딥러닝 전문 지식이 없는 생물학자들도 자연언어로 단백질 엔지니어링 작업을 수행할 수 있도록 한 혁신적 시스템이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

AutoProteinEngine은 LLM 기반 자동화를 통해 단백질 공학에서 계산 전문성의 진입장벽을 획기적으로 낮춘 혁신적 시스템이다. 멀티모달 데이터 처리와 자동화된 HPO는 강점이나, 한정된 실험 검증과 LLM 신뢰성 이슈가 현장 도입의 과제로 남아 있다. 더 광범위한 단백질 엔지니어링 작업에 대한 검증과 실험실 협업 사례가 추가되면 학문적·산업적 영향력이 대폭 상승할 것으로 기대된다.

#454 2024 4/5

An Autonomous Large Language Model Agent for Chemical Literature Data Mining

저자: Kexin Chen, Hanqun Cao, Junyou Li, Yuyang Du, Menghao Guo | 날짜: 2024 | DOI: 10.48550/arXiv.2402.12993

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Our MLR-COPILOT Framework. LLM IdeaAgent (leftmost grey component) performs research idea* 대규모언어모델(LLM) 에이전트 기반의 자동화된 기계학습 연구 프레임워크(MLR-COPILOT)로, 연구 아이디어 생성부터 실험 구현 및 실행까지 전 과정을 자동화한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

MLR-COPILOT은 LLM 에이전트를 활용한 완전 자동화된 기계학습 연구 프레임워크로서, 아이디어 생성부터 실행까지 통합하고 RL 튜닝 및 강건한 피드백 메커니즘을 제공함으로써 높은 창의성과 과학적 신뢰성을 동시에 달성한다. 다만 평가 범위와 정량적 효율성 분석 확대가 필요하다.

#455 2024 4/5

MLR-COPILOT: Autonomous Machine Learning Research Based on Large Language Models Agents

저자: Ruochen Li, Teerth Patel, Qingyun Wang, Xinya Du | 날짜: 2024 | DOI: 미제공

그림 1: 연구 논문을 입력으로 받아 검증된 연구 아이디어와 실행 결과를 출력하는 자동화된 머신러닝 연구 과정

Essence

![Figure 2: MLR-COPILOT Framework](figures/fig2.webp) *그림 2: 아이디어 생성(Stage 1), 실험 구현(Stage 2), 실행(Stage 3)의 세 단계로 구성된 MLR-COPILOT 프레임워크* 본 논문은 대규모 언어모델(LLM) 에이전트 기반의 자동화된 머신러닝 연구 프레임워크인 MLR-COPILOT을 제시한다. 이 시스템은 연구 논문을 입력받아 자동으로 연구 아이디어를 생성하고, 이를 실제 코드로 구현·실행하여 검증된 연구 결과를 도출한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

MLR-COPILOT은 머신러닝 연구의 전체 자동화 파이프라인을 구현한 선도적 작업으로, RL 기반 IdeaAgent와 반복적 피드백 메커니즘을 통해 기존 연구의 한계를 실질적으로 극복하였다. 다만 평가 규모의 제한성과 실제 연구 임팩트에 대한 심화된 검증이 필요하다.

#456 2025 3/5

Hallucination mitigation using agentic ai natural language-based frameworks

저자: Diego Gosmar, Deborah A. Dahl | 날짜: 2025

Essence

대규모 언어 모델(LLM)의 환각(hallucination) 문제를 완화하기 위해 OVON(Open Voice Network) 프레임워크 기반의 자연어 처리(NLP) 인터페이스를 활용한 다중 에이전트(multi-agent) 오케스트레이션 방식을 제안하고, 구조화된 JSON 메시지를 통한 에이전트 간 통신이 AI 생성 응답의 신뢰성과 설명 가능성을 향상시킬 수 있음을 실증적으로 입증한다.

Evaluation

Overall: 3

본 논문은 LLM 환각 완화를 위한 실용적인 다중 에이전트 접근 방식을 OVON 표준화 프레임워크와 결합하여 제시한 점에서 산업 적용 가치가 있으나, 통계적 엄밀성 강화, 실제 운영 환경에서의 성능 검증, 그리고 보다 상세한 비교 분석이 필요한 준(準)-완성 단계의 연구로 평가됨.

#457 2025.06 N/A

Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the U.S. Workforce

저자: Yijia Shao, Humishka Zope, Yucheng Jiang, Jiaxin Pei, David Nguyen, Erik Brynjolfsson, Diyi Yang | 날짜: 2025.06 | DOI: 10.48550/arXiv.2506.06576

Figure 1: 감시 프레임워크의 개요 및 핵심 통찰. 프레임워크는 워커 선호도와 기술적 타당성에 대한 이중 관점을 포착하며, 구조화된 프롬프트와 음성 강화 인터페이스를 통해 참여자의 추론을 안내한다.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 감시 프레임워크의 개요 및 핵심 통찰. 프레임워크는 워커 선호도와 기술적 타당성에 대한 이중 관점을 포착하며, 구조화된 프롬프트와 음성 강화 인터페이스를 통해 참여자의 추론을 안내한다.* 본 논문은 미국 전역 104개 직종, 844개 과제에 걸쳐 1,500명의 현장 워커와 52명의 AI 전문가 데이터를 통합한 WORKBank 데이터베이스를 구축하여, AI 에이전트의 자동화 및 증강 가능성에 대한 체계적인 감시 평가를 제시한다. 특히 단순 자동화-비자동화 이분법을 벗어나 Human Agency Scale (HAS) 이라는 인간 중심의 스케일을 도입함으로써, 워커 선호도와 기술 역량 간의 불일치를 드러내고 향후 인적 역량의 변화를 예측한다.

Physics-Informed Generative Scientific Models 134편 ▶

Physics-Informed Generative Scientific Models Timeline

Category Overview

# Physics-Informed Generative Scientific Models 카테고리 개요 물리 기반 생성 과학 모델(Physics-Informed Generative Scientific Models)은 물리 법칙과 기계학습을 결합하여 과학적 발견과 물질 설계를 자동화하는 분야입니다. 이 카테고리는 신경 미분 방정식(Neural Differential Equations) [572], 물리 기반 딥러닝(Physics Informed Deep Learning) [619]과 같은 핵심 기술을 통해 데이터 기반의 과학적 모델링을 구현합니다. 재료 발견(Materials Hypothesis Discovery), 단백질 약물 설계(Protein Drug Design) [686], AI 신약 개발(AI Drug Discovery) [171] 등의 응용 분야에서 자동화된 가설 생성과 인과 모델링(Biomedical Causal Modeling)을 활용하여 실험-이론 피드백 루프(closed-loop interaction) [658]를 구축합니다. 베이지안 재료 추론(Bayesian Materials Inference) [372], 보상 기반 확산 모델(Reward-guided Diffusion Models) [446], 3D 분자 생성(3D Molecular Generation) 기술은 분자 공간의 효율적인 탐색을 가능하게 하며, 기초 모델(Foundation Models) [343]과 연쇄적 증류(Iterative Distillation) [446]는 다중 양식 물리 추론(Multimodal Physics Reasoning)을 지원합니다. 자동화 실험실(autonomous laboratory) [099], 로봇 기반 화학 반응 매핑(Robot-assisted mapping) [684], 연합 학습(Federated Learning) [694] 등을 통해 대규모 과학 데이터 수집과 분석이 이루어지며, 기계 해석 가능성(Mechanistic Interpretability)과 AI 안전성(AI Safety & Bias)을 고려한 신뢰할 수 있는 과학 발견 엔진(scientific discovery engine) [575]의 구축을 목표로 합니다.

Materials Hypothesis Discovery: Materials Hypothesis Discovery는 물질 과학 분야에서 생성형 AI와 머신러닝을 활용하여 새로운 물질의 특성을 예측하고 혁신적인 물질 후보를 자동으로 발견하는 기술을 다룹니다. 딥러닝 모델을 통해 방대한 물질 데이터베이스를 학습함으로써 전통적인 실험 방법보다 훨씬 빠르게 유망한 물질을 탐색할 수 있습니다[695]. 생체분자 상호작용(Biomolecular Interaction) 모델링부터 화학 구조 예측에 이르기까지 다양한 분야에서 대규모 언어 모델(Large Language Models)과 파운데이션 모델(Foundation Models)을 활용한 가설 생성이 이루어지고 있습니다[171][557]. 연합학습(Federated Learning)과 같은 분산 학습 기법을 통해 여러 기관의 데이터를 안전하게 통합하여 모델의 성능을 향상시키고 있습니다[694]. 단일 세포 수준의 유전자 발현 데이터 분석(Single-cell Gene Expression Data Analysis)과 같은 고급 바이오인포매틱스 기법들도 물질 발견 과정에 통합되어 있습니다[699]. 이러한 물질 가설 발견 기술은 신소재 개발, 약물 발견, 에너지 저장 물질 등 다양한 산업 응용 분야에 혁신적인 가치를 제공합니다.
Neural Differential Equations: # Neural Differential Equations Neural Differential Equations (신경 미분 방정식)는 물리 법칙을 학습하고 동역학 시스템을 모델링하기 위해 신경망을 미분 방정식과 결합한 기계학습 기법입니다. [572]에서 소개된 Neural Ordinary Differential Equations (신경 상미분 방정식)는 연속적인 숨겨진 층을 가진 깊은 신경망 구조로, 복잡한 시계열 데이터와 동적 시스템을 효과적으로 표현할 수 있습니다. 물리 정보 신경망(Physics-Informed Neural Networks, PINNs)을 활용한 [619]의 접근 방식은 편미분 방정식의 해를 데이터로부터 학습하며, [427]에서는 물리적 연속성(continuous dependence)을 신경망 아키텍처에 직접 포함시켜 물리 정합성을 강화합니다. [454]의 Lagrangian neural networks는 라그랑주 역학의 원리를 신경망에 통합하여 에너지 보존 법칙을 자동으로 만족하도록 설계되었습니다. 이러한 신경 미분 방정식 기법들은 분자동역학 시뮬레이션, 물질 특성 예측, 복잡한 물리 시스템 모델링 등 다양한 과학 응용 분야에서 높은 정확도와 효율성을 제공합니다.
Multimodal Physics Reasoning: # 다중모달 물리 추론 (Multimodal Physics Reasoning) 다중모달 물리 추론은 텍스트, 이미지, 수식 등 여러 형태의 정보를 통합하여 복잡한 과학적 문제를 해결하는 AI 기술 분야입니다. [706]에서 제시된 SciBench와 [697]의 물리 데이터셋은 대학 수준의 과학 문제 해결 능력을 평가하기 위한 포괄적 벤치마크를 제공합니다. [055]와 [181]에서 보여주듯이, 멀티모달 언어 모델(multimodal language model)은 의료 이미지 분석과 같은 실제 응용 분야에서 텍스트와 시각 정보를 동시에 처리하여 높은 정확도를 달성할 수 있습니다. [808]의 TheoremQA와 [169]의 BioProBench는 수학적 정리와 생물학적 추론을 요구하는 질의응답(question-answering) 태스크를 통해 과학적 이해도를 평가합니다. 이러한 연구들은 과학적 문제 해결에 있어 시각적 이해와 물리적 추론을 결합한 인공지능 시스템의 발전을 가능하게 합니다.
Biomedical Causal Modeling: Biomedical Causal Modeling(생의학 인과관계 모델링)은 물리정보기반 생성 과학 모델의 중요한 세부 분야로, 생명과학 및 의료 데이터에서 변수 간의 인과관계를 체계적으로 파악하고 모델링하는 기술을 다룬다. 대규모언어모델(Large Language Models)과 기계학습 기법을 활용하여 유전자 조절 네트워크(Gene Regulatory Networks), 약물-질병 상호작용(Drug-Disease Interaction), 그리고 임상적 의사결정을 지원하는 인과구조 추론(Causal Structure Inference)을 수행한다 [474][505]. ScispaCy와 BioMedLM 같은 생의학 특화 모델들은 전문 도메인 지식을 통합하여 정확한 정보 추출과 해석을 제공하며, DrugCLIP과 같은 멀티모달 학습 방식은 약물 발견 및 재창출(Drug Repurposing) 과정을 가속화한다 [167][291]. 이러한 기술들은 의료 분야의 복잡한 생물학적 시스템을 이해하고 신약 개발 및 맞춤 의료(Personalized Medicine) 실현에 필수적인 역할을 수행한다.
Research Idea Generation: Physics-Informed 생성 과학 모델의 Research Idea Generation 서브카테고리는 대규모 언어 모델(Large Language Models, LLM)을 활용하여 과학 연구의 아이디어 생성을 체계적으로 지원하는 분야를 다룬다. [784]와 [392]는 LLM 기반의 프레임워크와 그래프 기반 평가 방식을 통해 연구 아이디어 도출의 자동화와 최적화를 제시하고 있다. [019]와 [045]는 LLM 보조 아이디어 생성(LLM-assisted ideation)의 현황을 검토하고, 연구 아이디어 생성을 가속화하는 실용적 도구들을 제안한다. [425]는 데이터 기반 접근 방식으로 연구 아이디어 생성의 품질을 향상시키는 실증적 방법을 제공하며, [725]의 SCI-IDEA는 맥락 인식(context-aware) 기술을 통해 과학적 아이디어 생성을 더욱 정교하게 한다. 이러한 연구들은 설명 가능성(explainability)과 멀티모달 학습(multimodal learning) 등의 고급 기술을 융합하여 과학 연구의 창의성과 효율성을 동시에 개선하고 있다.
AI Hypothesis Generation: AI 가설 생성(AI Hypothesis Generation)은 인공지능 기술을 활용하여 과학적 발견 과정에서 새로운 가설을 자동으로 제안하는 분야입니다. 이는 추론(reasoning)에서 학습(learning)으로의 전환을 통해 과학적 탐구의 효율성을 획기적으로 향상시키며, 연구개발(R&D) 분야에서 혁신적인 역할을 수행합니다[363][575]. 특히 구조화된 패턴(structured patterns)을 기반으로 한 가설 생성은 과학의 스파크(sparks of science)를 점화하여 새로운 발견의 가능성을 확대합니다[763]. 이러한 접근법은 재현 가능한 구조 발견(reproducible structure discovery)의 기준을 먼저 설정하고 의미론(semantics)을 나중에 적용하는 방식으로 더욱 정교화되고 있습니다[241]. Physics-Informed 생성 모델과의 결합을 통해 AI 가설 생성은 과학 연구의 새로운 의제(agenda)를 형성하며, 인간-AI 협력 시스템(human-driven systems)의 아키텍처 설계와 함께 발전하고 있습니다[076][102].
AI Safety & Bias: Physics-Informed Generative Scientific Models 범주의 AI Safety & Bias 부분은 과학 연구에서 생성형 AI(generative AI)의 활용과 관련된 안전성 및 편향 문제를 다룬다. [878] 논문에서는 ChatGPT와 생성형 AI가 과학 분야에 미치는 영향을 분석하며, [182] 논문은 언어모델(language model)의 알고리즘적 추론 능력과 신뢰성 평가를 검토한다. [082] 논문과 [188] 논문은 AI가 실험 설계(experimental design)와 인지과학(cognitive science) 분야에서 과학적 발견을 자동화할 수 있는 가능성을 탐구하면서도 이러한 기술의 한계와 윤리적 문제점을 고려한다. [922] 논문에서 언급되는 "AI grad student" 개념은 인공지능이 과학자의 역할을 보조하는 수준을 넘어 독립적인 연구 역량을 갖출 수 있는지에 대한 질문을 제기한다. 이러한 연구들은 AI 기반 과학 연구의 신뢰성(reliability), 투명성(transparency), 그리고 잠재적 편향(bias)을 평가하는 중요한 과제를 제시한다.
AI Drug Discovery: AI 신약 개발(AI Drug Discovery)은 물리 정보 기반 생성 과학 모델을 활용하여 신약 발견 과정을 가속화하는 분야입니다. 이 분야는 로봇 자동화, 언어 모델 기반 에이전트(LLM agents), 그리고 폐루프 실험-이론 상호작용(closed-loop experiment-theory interaction)을 통해 약물 발견 파이프라인을 자동화합니다[684][177]. 약동학 예측(pharmacokinetics prediction)을 위한 물리 공식 강화 다중작업 학습(physical formula enhanced multi-task learning)과 검색 증강 생성(RAG) 기술을 활용하여 약물 후보 물질의 효능과 안전성을 평가합니다[618][651]. 언어 기반 지능형 신약 발견 에이전트(LIDDIA)와 같은 협력형 시스템은 과학 연구 자동화(automating the practice of science)의 새로운 기회를 제시하면서도 데이터 부족과 모델 신뢰성 문제 등의 과제를 극복해야 합니다[490][134]. 이러한 통합적 접근 방식은 전통적인 신약 개발 기간을 단축하고 발견 효율을 높일 수 있는 혁신적인 패러다임을 제공합니다.
Protein Drug Design: 단백질 신약 설계(Protein Drug Design)는 물리 정보 기반 생성 과학 모델을 활용하여 치료 효과가 우수한 단백질 후보물질을 자동으로 발굴하고 최적화하는 분야입니다. 이 분야의 연구들은 딥러닝(Deep Learning)과 대규모 언어 모델(Large Language Models)을 결합하여 단백질 서열 설계, 화학 합성, 약물 발견 프로세스 전체를 자동화하고 있습니다 [686][638]. 로봇 공학 및 다중 에이전트 시스템(Multi-Agent System)을 활용한 자율 실험실(Autonomous Laboratory) 플랫폼들은 화학 합성 개발부터 최종 검증까지의 전체 파이프라인을 통합 관리합니다 [043][634]. 이러한 AI 기반의 통합 솔루션들은 전통적인 신약 개발 방식의 시간과 비용을 대폭 단축하면서도 더욱 혁신적인 치료제 발굴을 가능하게 하고 있습니다 [096][138].
AI Scientific Discovery: AI Scientific Discovery는 생성형 인공지능(Generative AI)을 활용하여 자동화된 과학 연구를 수행하는 분야입니다. [834]에서는 생성형 AI를 통한 과학 발견의 진행 상황과 기회를 탐색하고 있으며, [795]의 AI Scientist 연구는 완전히 자동화된 개방형 과학 연구의 가능성을 제시합니다. 이 분야의 핵심은 대규모 언어모델(Large Language Models, LLM)을 기반으로 한 에이전트(Agent)의 구현 능력으로, [081]에서 강조하듯이 강력한 구현 역량이 없으면 AI 과학자들도 효과적인 발견을 이루기 어렵습니다. [321]과 [522]에서는 각각 자율 연구 평가와 재료 과학 분야의 실제 응용 사례를 보여주며, [831]은 지구 관측(Earth Observation) 분야로의 확장 가능성을 제시합니다. 이러한 연구들은 AI가 단순한 데이터 처리 도구를 넘어 실질적인 과학적 발견을 주도하는 새로운 패러다임을 구축하고 있습니다.
3D Molecular Generation: 3D 분자 생성(3D Molecular Generation)은 물리 정보 기반 생성 과학 모델의 핵심 분야로, 원자의 3차원 공간 배치를 고려하여 새로운 분자 구조를 생성하는 기술입니다. [555]의 MolGAN은 암묵적 생성 모델(implicit generative model)을 통해 소분자 그래프를 생성하며, [345]의 기초 분자 문법(Foundation Molecular Grammar)은 다중 모달 기초 모델(multi-modal foundation models)을 활용하여 분자의 다양한 표현을 통합합니다. 또한 [1099]와 [282]는 분광 데이터의 역변환과 유동 매칭(flow matching)을 통해 무정형 재료(amorphous materials)의 구조를 생성하는 방법을 제시합니다. [383]의 기하학적 정보 기반 토큰화(geometry informed tokenization)와 [459]의 언어 모델을 이용한 DNA 서열 설계는 분자 구조의 표현 학습을 개선하여 더욱 정확한 생성을 가능하게 합니다. 이러한 접근법들은 신약 개발, 재료 과학, 생명공학 등 다양한 응용 분야에서 혁신적인 발전을 촉진하고 있습니다.
Scientific Memory Parallelism: Scientific Memory Parallelism은 대규모 과학 데이터 처리와 복잡한 과학적 추론을 병렬화하여 효율적으로 수행하는 기법입니다. [292]와 [068]에서 보여지듯이, Language Agent 기반의 시스템들은 약물 개발과 의료 위험 예측 같은 다양한 과학 도메인에서 매개변수화된 추론(parameterized reasoning)을 통해 대규모 메모리를 효과적으로 활용합니다. [160]에서 제시된 BioAgents 플랫폼은 다중 에이전트 병렬 처리를 통해 생물정보학 분석의 접근성을 민주화하고 있으며, 이는 메모리 효율성과 계산 속도의 향상을 동시에 달성합니다. Multimodal Large Language Model(MLLM)의 도입으로 다양한 형식의 과학 데이터를 통합 처리할 수 있게 되었고, 이는 과학적 발견의 가속화를 가능하게 합니다. GPU 엔지니어링 기술과 과학 계산의 융합[354]은 병렬 처리의 이론적 기초를 제공하여 대규모 과학 모델의 실질적 운영을 지원합니다. 궁극적으로 Scientific Memory Parallelism은 물리 정보 기반의 생성 모델들이 복잡한 과학적 문제를 더욱 신속하고 정확하게 해결할 수 있도록 하는 핵심 기술입니다.
OFET Device Synthesis: OFET Device Synthesis (유기 박막 트랜지스터 소자 합성)은 물리 정보 기반 생성 과학 모델을 활용하여 새로운 유기 반도체 소자를 자동으로 설계하고 제조하는 분야입니다. [099]와 [140]에서 보여주듯이 자율 실험실(autonomous laboratory)과 강화학습(reinforcement learning) 기반 에이전트를 통해 화학기상증착(chemical vapor deposition) 등의 합성 과정을 최적화할 수 있습니다. [480]에서는 대규모 언어모델(large language models)이 유기 반도체 개발에 활용되어 설계 공간 탐색(design space exploration)을 가속화하고 있습니다. [472]에서 제시된 시퀀스 정의 거대분자(sequence-defined macromolecules) 설계는 OFET의 성능을 향상시키는 새로운 물질 개발을 가능하게 합니다. [754]의 오픈 엔디드 프로그래밍(open-ended programming) 방식은 샘플 효율(sample efficiency)을 높이면서 혁신적인 OFET 구조 발견을 촉진합니다.
Reward-guided Diffusion Models: Reward-Guided Diffusion Models는 물리 정보 기반 생성 과학 모델에서 보상(reward) 신호를 활용하여 확산 모델(diffusion models)의 생성 과정을 제어하는 분야입니다. 이러한 접근 방식은 원하는 특성을 가진 샘플을 효율적으로 생성하기 위해 반복적 정제(iterative refinement)와 가이던스 메커니즘을 적용합니다. [446]에서는 보상 신호를 통한 반복 증류(iterative distillation) 방법으로 확산 모델의 미세 조정을 제안하고 있으며, [269]에서는 연속 및 이산 영역에서 미분 없는 가이던스(derivative-free guidance)를 개발하여 계산 효율성을 높입니다. 또한 [682]는 테스트 타임(test-time)에서의 보상 기반 반복 정제 전략을 제시하고, [296]과 [281]은 추론 시간 정렬(inference-time alignment)을 위한 동적 탐색과 강화 학습 기반의 프롬프트 최적화 방법을 개발하여 모델의 견고성과 일반화 성능을 개선하고 있습니다.
Bayesian Materials Inference: # Bayesian Materials Inference 베이지안 머티리얼 인퍼런스(Bayesian Materials Inference)는 물질 발견 과정에서 불확실성을 정량화하고 확률론적 추론을 활용하는 방법론입니다. 이는 파운데이션 모델(Foundation Models)과 같은 대규모 머신러닝 모델을 물질 과학에 적용할 때 신뢰성 있는 예측을 제공하기 위해 필수적입니다[343]. 시뮬레이션 기반 추론(Simulation-Based Inference) 기술은 복잡한 물질 시스템의 역문제(inverse problems)를 해결하는 데 활용되며, 베이지안 프레임워크를 통해 모델 파라미터의 사후 분포(posterior distribution)를 추정합니다[799]. 대규모 언어모델(Large Language Models)이 물질 발견에 실제로 유용한지에 대한 비판적 검토[024]와 엑사스케일 컴퓨팅(Exascale Computing) 시대의 고성능 시뮬레이션[758]이 결합되면 보다 정밀한 베이지안 추론이 가능해집니다. 이러한 접근법은 물질의 특성 예측, 신물질 탐색, 그리고 실험 설계 최적화 과정에서 의사결정의 질을 향상시킵니다.
Disruptive Framework Identification: Physics-Informed Generative Scientific Models의 Disruptive Framework Identification 분야는 기존의 과학적 방법론을 혁신적으로 재구성하는 프레임워크들을 식별하고 개발하는 연구 영역입니다. [1083]은 대규모 언어 모델(Large Language Models)을 활용하여 과학 방정식(Scientific Equations)을 자동으로 발견하는 프레임워크를 제시하고 있으며, [777]은 과학적 혁신(Scientific Innovation)을 체계적으로 모델링하기 위한 구조화된 접근법을 제안합니다. [350]의 피드백 기반 에이전트 방법론(Feedback-refined Agent Methodology)과 [155]의 고품질 과학 아이디어 도출에 관한 연구는 생의학 분야에서 창의적 문제 해결 방식을 혁신하는 데 기여합니다. 이러한 프레임워크들은 물리 기반 생성 모델(Physics-Informed Generative Models)과 인공지능 기법을 결합하여 기존의 브레인스토밍(Brainstorming) 방식을 초월한 체계적이고 검증 가능한 과학적 발견 프로세스를 구현합니다. 결과적으로 이 분야의 연구들은 과학적 탐구의 효율성과 창의성을 동시에 향상시키는 파괴적 혁신(Disruptive Innovation)을 추동합니다.
Mechanistic Interpretability: 기계적 해석성(Mechanistic Interpretability)은 물리 정보 기반 생성 과학 모델의 의사결정 과정을 투명하게 이해하는 분야로, 인공지능 안전성(AI Safety) 확보에 필수적이다 [527]. 대규모 언어 모델(Large Language Model, LLM)의 내부 작동 메커니즘을 분석하여 모델이 어떻게 결과를 생성하는지 규명하는 연구가 진행되고 있다 [836]. 과학적 발견 자동화(Automating Scientific Discovery)와 표형 데이터 시뮬레이션(Tabular Dataset Simulation) 등의 응용 분야에서 모델의 신뢰성을 검증하고 개선하는 데 중요한 역할을 한다 [705], [757]. 이러한 해석성 연구는 과학적 모델의 일반화 능력을 향상시키고, 모델이 학습한 물리적 원리(Physical Principles)를 검증할 수 있게 함으로써 과학 분야에서의 신뢰도 높은 인공지능 활용을 가능하게 한다.

AI Drug Discovery 7 ▶

#458 2025.09 5/5

Robot-assisted mapping of chemical reaction hyperspaces and networks

저자: Yankai Jia, Rafał Frydrych, Yaroslav I. Sobolev, Wai-Shing Wong, Bibek Prajapati, Daniel Matuszczyk, Yasemin Bilgi, Louis Gadina, Juan Carlos Ahumada, Galymzhan Moldagulov, Namhun Kim, Eric S. Larsen, Maxence Deschamps, Yanqiu Jiang, Bartosz A. Grzybowski | 날짜: 2025.09 | DOI: 10.1038/s41586-025-09490-1

그림 1: (a) 약 $25K의 저비용 로봇 시스템 주요 구성. (b) N차원 초공간에서 조건을 설정하고 UV-Vis 스펙트럼 획득. 모든 초공간 지점의 조정된 혼합물을 결합. (c) HPLC로 정제한 순수 생성물의 농도-흡수 보정곡선. (d) 각 초공간 지점의 UV-Vis 스펙트럼을 기준 스펙트럼의 선형 조합으로 분해. (e-i) 화학량론 제약 조건, 다중공선성 진단, 적합성 검증을 위한 잔차 분석.

Essence

저비용 로봇 플랫폼과 광학 검출을 통해 수천 개의 반응 조건에서 화학반응의 초공간(hyperspace) 전체를 매핑하여, 예측 불가능했던 반응 수율 분포, 숨겨진 중간체, 주생성물 전환점을 체계적으로 발견하는 새로운 방법론을 제시한다.

Evaluation

Novelty: 5 Technical Soundness: 5 Significance: 5 Clarity: 4 Overall: 5

본 논문은 자동화 로봇과 광학 분광법, 스펙트럼 분해 알고리즘을 창의적으로 결합하여 화학 초공간의 '완전한 지도 제작(complete mapping)'이라는 오랫동안 달성 불가능했던 목표를 현실화했다. 저비용·고처리량 특성으로 학계 접근성을 극대화하면서 숨겨진 반응성과 중간체를 체계적으로 노출시킴으로써 합성 화학의 패러다임을 획기적으로 전환할 수 있는 기초 연구 성과이다.

#459 2025 4/5

Automating the practice of science: Opportunities, challenges, and implications

저자: Sebastian Musslick, Laura K. Bartlett, Suyog H. Chandramouli, Marina Dubova, Fernand Gobet, Thomas L. Griffiths, Jessica Hullman, Ross D. King, J. Nathan Kutz, Christopher G. Lucas, Suhas Mahesh, Franco Pestilli, Sabina J. Sloman, William R. Holmes | 날짜: 2025 | DOI: 10.1073/pnas.2401238121

Figure 1. 과학적 자동화의 기술적 도달 범위를 결정하는 4가지 요인: 입력 데이터의 가용성과 품질, 계산 복잡도, 하드웨어 엔지니어링 복잡도, 작업 목표의 주관성

Essence

과학적 실천(scientific practice)의 자동화(automation)가 발전함에 따라, 본 논문은 과학 자동화의 기회, 도전과제, 그리고 사회적 함의를 종합적으로 평가하고, 과학 자동화가 과학자의 업무 방식과 과학 패러다임을 어떻게 변화시킬지 탐색한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 과학 자동화라는 시의적 주제를 목표적 경계(규범적·인식론적)와 기술적 경계의 구분을 통해 처음으로 체계적으로 분석한 포괄적 관점 논문으로, PNAS의 Perspective로서 과학 커뮤니티와 정책 입안자에게 중요한 개념적 틀을 제공한다. 다만 제공된 초반부만으로는 구체적 기회 분석과 윤리적 함의, 정책 제안의 깊이를 완전히 평가하기 어려우며, 자동화의 부정적 외부효과에 대한 실질적 대응 방안의 구체성이 향후 검토 대상이다.

#460 2024 4/5

Real-time experiment-theory closed-loop interaction for autonomous materials science

저자: Haotong Liang et al. | 날짜: 2024 | DOI: 미제공

AMASE 시스템이 Sn-Bi 박막 상태도 매핑에 적용되는 개요. (a) 실시간 실험-계산 상호작용, (b) 실험 장치, (c) 조사 대상 상 영역

Essence

![Figure 1](figures/fig1.webp) *AMASE 시스템이 Sn-Bi 박막 상태도 매핑에 적용되는 개요. (a) 실시간 실험-계산 상호작용, (b) 실험 장치, (c) 조사 대상 상 영역* 본 논문은 **Autonomous MAterials Search Engine (AMASE)**를 통해 실시간으로 실험과 이론을 폐루프 형태로 자동 상호작용시켜 재료 탐색을 수행하는 혁신적 방법론을 제시한다. Sn-Bi 박막 이원 상태도를 단 8시간 만에 매핑하며, 필요한 실험 횟수를 6배 감소시켰다.

Evaluation

Overall: 4

AMASE는 베이지안 능동학습과 CALPHAD 열역학을 실시간으로 통합하여 상태도 자동 매핑을 성공시킨 획기적 연구이며, 6배의 실험 횟수 감소와 8시간 내 완성은 고처리량 재료 탐색의 미래를 보여준다. 다만 다원 체계 확장과 동역학적 효과 고려 등 후속 과제가 남아있다.

#461 2025 4/5

LIDDIA: Language-based Intelligent Drug Discovery Agent

저자: Reza Averly, Frazier N. Baker, Xia Ning | 날짜: 2025 | DOI: 10.48550/arXiv.2502.13959

Essence

![Figure 1](figures/fig1.webp) *LIDDIA 프레임워크의 개요: 사용자 프롬프트(AR/NR3C4 타겟팅 분자)에서 시작하여 REASONER, EXECUTOR, EVALUATOR, MEMORY 네 가지 연결된 컴포넌트를 통해 약물 후보군을 생성하는 과정* 본 논문은 대규모 언어 모델(LLM)의 추론 능력을 활용하여 전임상 신약개발 과정을 자동화하는 지능형 에이전트 LIDDIA를 제시한다. LIDDIA는 계산 도구들을 결합하여 분자 생성, 최적화, 선별을 통해 주요 약학적 기준을 만족하는 신규 치료약물 후보를 식별할 수 있다.

Evaluation

Overall: 4

LIDDIA는 LLM의 추론 능력과 구조 기반 신약개발 도구를 통합하여 자동화된 신약개발을 향한 의미 있는 첫걸음을 제시한다. 70% 이상의 타겟에서 약학적 기준 충족 달성과 신규 후보 발굴은 고무적이나, in silico 평가에만 의존하고 실제 실험 검증이 부재한 점, 그리고 LLM의 화학적 신뢰성에 대한 심화 분석이 필요하다.

저자: N. Szymanski, Bernardus Rendy, Yuxing Fei, Rishi E. Kumar, T. He | 날짜: 2023 | DOI: 10.1038/s41586-023-06734-w

Essence

A-Lab(자율 실험실)은 계산화학, 기계학습, 능동 학습을 통합한 로봇 시스템으로, 17일간의 연속 운영을 통해 57개 목표 재료 중 36개(63% 성공률)의 무기 분말 화합물 합성에 성공하였다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 계산 화면과 실험 검증 사이의 병목을 해결하는 획기적인 자율 실험실을 제시하며, ab initio 계산, 기계학습, 능동 학습의 통합을 통해 63%의 높은 합성 성공률을 입증하였다. 고체 분말 합성의 고유한 과제를 해결하고 향후 AI 기반 재료 발굴의 새로운 패러다임을 제시한다는 점에서 재료과학 분야의 중요한 이정표이다.

#466 2021 4/5

Autonomous reinforcement learning agent for chemical vapor deposition synthesis of quantum materials

저자: P. Rajak, A. Krishnamoorthy, Ankit Mishra, R. Kalia, A. Nakano | 날짜: 2021 | DOI: 10.1038/s41524-021-00535-3

Essence

오프라인 강화학습(Offline Reinforcement Learning)을 활용하여 화학기상증착(CVD)을 통한 MoS₂ 양자소재 합성의 최적 합성 스케줄을 자동으로 예측하는 에이전트를 개발했으며, 10,000개의 반응 분자동역학 시뮬레이션 데이터로 학습하여 높은 품질의 결정성 MoS₂를 생성하는 미지의 합성 조건을 발견했다.

Evaluation

Overall: 4

강화학습과 계산 모의를 결합하여 재료 합성 최적화라는 미충족 문제에 데이터 기반 혁신적 솔루션을 제시한 의미 있는 연구이나, 단일 사례 연구(MoS₂)이고 실험 검증이 미흡하여 일반화 가능성 평가가 향후 필요하다.

#467 2024 4/5

Large-Language-Model-Based AI Agent for Organic Semiconductor Device Research

저자: Qian Zhang, Yongxu Hu, Jiaxin Yan, Hengyue Zhang, Xinyi Xie, Jie Zhu, Huchao Li, Xinxin Niu, Liqiang Li, Yajing Sun, Wenping Hu | 날짜: 2024 | DOI: 10.1002/adma.202405163

LLM 기반 AI 에이전트의 체계적 표현: a) 데이터 전처리 도구 상자, b) Human-in-the-loop 프롬프트 엔지니어링 전략, c) 표준화 데이터셋 구축 및 후속 응용

Essence

본 연구는 GPT-4 언어 모델과 머신러닝 알고리즘을 결합하여 유기 반도체 소자(OFET) 개발을 지원하는 AI 에이전트를 개발했으며, 277개 논문에서 추출한 709개 OFET의 10,000개 이상 파라미터로 구축한 데이터베이스를 통해 소자 성능을 3배 향상시켰다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLM을 유기 반도체 연구에 처음 체계적으로 적용한 선도적 사례로, 고정확도 데이터 추출, 대규모 데이터베이스 구축, 실제 성능 개선이라는 전 과정을 완수했다. 다만 단일 소자 검증과 데이터 편향성 분석 보완이 필요하며, 타 분야로의 확대 적용 가능성이 추후 중요한 검증 과제이다.

#468 2025 4/5

ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution

저자: R. Lange, Yuki Imajuku, Edoardo Cetin | 날짜: 2025 | DOI: 10.48550/arXiv.2509.19349

ShinkaEvolve 프레임워크 개요: 평가된 프로그램의 아카이브 구축, 거절 샘플링을 통한 새로운 프로그램 생성, 적응형 선택

Essence

![Figure 1](figures/fig1.webp) *ShinkaEvolve 프레임워크 개요: 평가된 프로그램의 아카이브 구축, 거절 샘플링을 통한 새로운 프로그램 생성, 적응형 선택* 대규모 언어모델(LLM)을 진화 알고리즘의 변이 연산자로 활용하여 샘플 효율성을 획기적으로 개선한 프로그램 진화 프레임워크이다. 세 가지 핵심 알고리즘 혁신(부모 선택 전략, 코드 신규성 거절 샘플링, 적응형 LLM 앙상블)을 통해 기존 방법 대비 수십 배 적은 평가로 최첨단 솔루션을 발견한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

ShinkaEvolve는 LLM 기반 프로그램 진화에서 부모 선택, 신규성 검증, 적응형 앙상블의 세 가지 혁신을 통해 샘플 효율성을 획기적으로 개선한 실용적 프레임워크이다. 오픈소스 공개로 재현성과 확장성을 보장하며, 다양한 도메인 검증도 인상적이나, 초매개변수 분석과 대규모 문제 확장성 검증을 통해 더욱 강화될 수 있다.

#469 2024 4/5

Large language models design sequence-defined macromolecules via evolutionary optimization

저자: Wesley F. Reinhart, Antonia Statt | 날짜: 2024 | DOI: 10.1038/s41524-024-01449-6

Fig. 1: LLM 기반 진화 최적화의 개념도. (a) 단량체 서열→MD 시뮬레이션→2D 순서 매개변수 Z 추출 파이프라인, (d) LLM 에이전트가 서열을 제안하면 RNN 모델로 평가하는 반복 루프

Essence

사전학습된 대규모언어모델(LLM)인 Claude 3.5 Sonnet을 진화 최적화(evolutionary optimization) 알고리즘으로 활용하여 거대 분자의 자기조립 구조를 설계할 수 있음을 입증한 연구로, 전통적인 능동학습(active learning)과 진화 알고리즘보다 우수한 성능을 보였다.

Evaluation

Overall: 4

본 논문은 대규모언어모델의 emergent behavior를 재료 과학의 실제 문제에 창의적으로 적용하여 기존 최적화 방법을 능가하는 성과를 보였다. 다만 RNN 근사값 기반 평가와 실제 MD 검증 부재, 그리고 LLM의 작동 원리에 대한 이론적 이해 부족이 한계로 지적되며, 향후 이러한 점들이 보완되면 더욱 강력한 기여가 될 수 있을 것으로 판단된다.

Neural Differential Equations 16 ▶

#470 2017.11 4/5

Physics Informed Deep Learning (Part I): Data-driven Solutions of Nonlinear Partial Differential Equations

저자: Maziar Raissi, Paris Perdikaris, George Em Karniadakis | 날짜: 2017.11 | DOI: 미제공

Burgers 방정식의 데이터 주도 해 복원: (상단) 예측된 시공간 해 및 학습 데이터 위치 (하단) 정확해와의 시간별 비교

Essence

물리 법칙을 신경망에 내재화하여 적은 데이터로도 비선형 편미분방정식(PDE)의 해를 정확히 구하는 Physics-Informed Neural Networks (PINNs)을 제시하는 획기적 논문이다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 5 Overall: 4

물리 제약을 머신러닝에 정교하게 결합함으로써 소량 고가 데이터 환경에서 편미분방정식 풀이의 새로운 패러다임을 개척한 탁월한 논문으로, 이후 PINN 관련 연구의 폭발적 성장을 견인한 선구적 저작이다.

#471 2026.03 4/5

General-Purpose Machine-Learned Potential for CrCoNi Alloys Enabling Large-Scale Atomistic Simulations with First-Principles Accuracy

저자: Yong-Chao Wu, Tero Mäkinen, Mikko Alava, Amin Esfandiarpour | 날짜: 2026.03

Essence

CrCoNi 중엔트로피 합금의 성분 의존적 거동을 정확하게 모사할 수 있는 신경진화 포텐셜(NEP, Neuroevolution Potential) 기반의 머신러닝 상호작용 포텐셜을 개발하였으며, 제1원리 정확도를 유지하면서 대규모 원자시뮬레이션을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 NEP 프레임워크를 통해 CrCoNi 합금의 전체 조성 공간에서 제1원리 수준의 정확도를 유지하면서 고효율의 머신러닝 포텐셜을 개발한 우수한 연구로, 기존의 조성 제한적인 포텐셜의 한계를 명확히 극복하고 비등원자 합금 설계의 새로운 가능성을 열었다는 점에서 매우 의미 있다. 다만 극한 조건에서의 검증 및 계산 효율성의 정량적 분석, 동적 성질의 평가 등이 보완되면 더욱 완성도 높은 연구가 될 것으로 판단된다.

#472 2018.06 4/5

Neural Ordinary Differential Equations

저자: Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, David Duvenaud | 날짜: 2018.06 | DOI: 10.48550/arXiv.1806.07366

Essence

![Figure 1](figures/fig1.webp) *좌측: 잔차 네트워크는 이산적 유한 변환 시퀀스 정의 / 우측: ODE 네트워크는 연속적으로 상태를 변환하는 벡터장 정의* 기존의 이산 깊이(discrete depth) 신경망 대신 숨겨진 상태의 도함수를 신경망으로 매개변수화하고, 이를 상미분방정식(ODE) 초기값 문제로 정의하여 블랙박스 ODE 솔버로 계산하는 혁신적 연속깊이(continuous-depth) 신경망 모델을 제안한다.

Evaluation

Overall: 4

이 논문은 신경망을 연속 동역학 시스템으로 재개념화하여 메모리 효율성, 적응형 계산, 선형 복잡도 정규화 흐름이라는 혁신적 이점을 제시한 획기적 작업이다. 수반민감도 방법의 우아한 적용과 인스턴트 변수변환 정리의 수학적 발견은 진정한 원창성을 보여준다. 다만 실제 벽시계 시간 성능, 극단 케이스에서의 수치 안정성, 더 복잡한 데이터셋에서의 검증 등이 미흡하여, 개념적으로는 5점에 가깝지만 현실적 구현과 검증에서 4점 수준의 한계가 있다. 이론의 우아함과 잠재력만큼은 매우 높으며, 이후 학계의 광범위한 응용과 확장으로 이어진 점에서 그 영향력은 측정 불가능할 정도로 크다.

#473 2023 4/5

Efficient and Equivariant Graph Networks for Predicting Quantum Hamiltonian

저자: Haiyang Yu, Zhao Xu, Xiaofeng Qian, Xiaoning Qian, Shuiwang Ji | 날짜: 2023 | DOI: 10.48550/arXiv.2306.04922

Essence

양자 해밀토니안(Hamiltonian) 행렬 예측을 위한 SE(3)-등변(equivariant) 그래프 신경망 QHNet을 제안하며, 텐서곱(tensor product) 연산을 92% 감소시켜 기존 방법 대비 3배 이상의 속도 향상과 50% 메모리 절감을 달성한다.

Evaluation

Overall: 4

본 논문은 SE(3)-등변 신경망의 고질적인 비효율성을 우아한 아키텍처 설계로 해결하며, 양자 해밀토니안 예측에서 실질적 가치를 입증했다. 다만 더 광범위한 분자 시스템에 대한 일반화 가능성 검증이 향후 과제이다.

#474 2024.05 4/5

State-Free Inference of State-Space Models: The Transfer Function Approach

저자: Rom N. Parnichkun, Stefano Massaroli, Alessandro Moro, Jimmy T. H. Smith, Ramin Hasani, Mathias Lechner, Qi An, Christopher Ré, Hajime Asama, Stefano Ermon, Taiji Suzuki, Atsushi Yamashita, Michael Poli | 날짜: 2024.05

메모리 소비 측면에서 S5(스캔 기반)는 상태 크기에 따라 메모리가 급증하지만, RTF는 선형적으로 증가

Essence

상태공간모델(State-Space Model, SSM)을 전달함수(Transfer Function) 표현으로 재설계하여, 상태 크기의 증가에도 불구하고 메모리와 계산 비용이 증가하지 않는 상태-자유(state-free) 병렬 추론 알고리즘을 제안한다. FFT(Fast Fourier Transform)를 기반으로 한 이 접근법은 기존 S4/S5 대비 35% 더 빠른 학습 속도를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 SSM의 전달함수 표현을 통해 상태 크기와 무관한 O(ℓ) 메모리 추론을 달성하는 우아한 이론적 기여와 35% 학습 속도 개선이라는 실질적 이득을 제공한다. 다만 수치 안정성 분석 부족, 비선형성 확장의 제한, MIMO 시스템 지원 미흡 등이 실무 적용 범위를 다소 좁힌다. 선형 시퀀스 모델링 분야에서 중요한 진전이나, 최근 하이브리드 아키텍처(예: Hyena+Mamba 계열) 대비 상대적 위치 재평가가 필요하다.

#475 2026.03 4/5

Incorporating Continuous Dependence Qualifies Physics-Informed Neural Networks for Operator Learning

저자: Guojie Li, Wuyue Yang, Liu Hong | 날짜: 2026.03

그림 1: cd-PINN의 아이디어, 문제 설정 및 아키텍처 설명. (C) 연속성 가정에 기반한 목적함수, (D) 라벨된 학습 데이터, (F) cd-PINN의 아키텍처

Essence

![Figure 1](figures/fig1.webp) *그림 1: cd-PINN의 아이디어, 문제 설정 및 아키텍처 설명. (C) 연속성 가정에 기반한 목적함수, (D) 라벨된 학습 데이터, (F) cd-PINN의 아키텍처* 편미분방정식(PDE)의 해가 초기/경계값 및 매개변수에 대해 연속적으로 의존한다는 수학적 성질을 활용하여 물리정보신경망(PINN)을 확장한 cd-PINN을 제안한다. 이는 제한된 라벨 데이터로도 DeepONet과 FNO 대비 1-3 자릿수 낮은 오차를 달성하면서 재훈련 없이 연산자 학습을 가능하게 한다.

Evaluation

Overall: 4

cd-PINN은 PDE의 기본 수학적 성질인 연속 의존성을 신경망 학습에 효과적으로 반영하여 매개변수화된 PDE에 대한 연산자 학습에서 획기적인 데이터 효율성 및 일반화 성능을 달성한 가치 있는 연구이다. 특히 재훈련 없이 새 설정에 즉시 적용 가능한 점과 1-3 자릿수 오차 감소는 실무 응용 측면에서 매우 의미 있다. 다만 이론적 수렴성 증명 부재, 높은 차원에서의 성능 악화, L_cd 설계의 엄밀한 정당화 미흡 등은 순수 과학으로서의 완성도를 다소 낮춘다. 전체적으로는 실용성 높은 좋은 논문이나, 기초 수학 관점에서는 한 단계 더 성숙해질 필요가 있다.

#476 2020 4/5

Lagrangian neural networks

저자: Miles Cranmer, Sam Greydanus, Stephan Hoyer, Peter Battaglia, David N. Spergel, Shirley Ho | 날짜: 2020 | DOI: 10.48550/arXiv.2003.04630

Essence

신경망으로 라그랑주 함수(Lagrangian)를 직접 학습하여 정규 좌표계(canonical coordinates) 없이도 물리계의 에너지 보존 법칙을 자동으로 만족하는 동역학 모델을 구축한다.

Evaluation

Overall: 4

라그랑주 형식의 수학적 우아함을 신경망에 결합하여 정준 좌표 없이도 에너지 보존을 자동으로 만족하는 모델을 제시한 기여작. 다만 계산 복잡도와 고차원 시스템 확장성은 향후 과제이다.

#477 2026.03 4/5

Machine-Learned Interatomic Potentials for Predicting Physicochemical Properties of Molten Metal-Salt Systems for Calcium Electrolysis

저자: M. Polovinkin, N. Rybin, D. Maksimov, F. Valiev, A. Khudorozhkova, M. Laptev, A. Rudenko, A. Shapeev | 날짜: 2026.03

Essence

본 논문은 기계학습 기반 원자간 포텐셜(Machine-Learned Interatomic Potentials, MLIPs)인 Moment Tensor Potentials (MTP)를 활용하여 칼슘 전해 공정에 필요한 용융 Ca-Cu 합금과 CaCl₂-KCl 전해질의 물리화학적 성질을 고정확도로 예측한다. DFT 훈련 데이터 기반의 MTP-분자동역학(MD) 시뮬레이션으로 실험값 대비 20% 이내의 편차로 밀도, 열용량, 열전도도, 이온 전도도, 점도, 확산 계수 등을 계산하여 고온 실험의 비용과 시간을 대폭 절감할 수 있음을 입증했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 기계학습 포텐셜을 활용하여 칼슘 전해 공정의 핵심 물질들에 대한 완전한 물성 데이터베이스를 구축한 견고한 산업 응용 연구로, 실험 검증과 체계적인 MTP 훈련 절차를 통해 높은 신뢰성을 확보했으며, 향후 다양한 용융염 및 액체 합금 시스템 연구의 모범 사례가 될 수 있다.

#478 2026.02 4/5

Neural-POD: A Plug-and-Play Neural Operator Framework for Infinite-Dimensional Functional Nonlinear Proper Orthogonal Decomposition

저자: Changhong Mou, Binghang Lu, Guang Lin | 날짜: 2026.02

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Neural-POD는 고전 POD의 이산적 선형 표현을 신경망 기반의 연속적 비선형 함수로 대체하며, 해상도 독립성과 매개변수 일반화를 가능하게 한다.* 본 논문은 신경망을 활용하여 고전 특이값 분해(SVD) 기반 POD(Proper Orthogonal Decomposition)의 한계를 극복하는 Neural-POD를 제안한다. 무한차원 함수공간에서 비선형 직교 기저함수를 학습함으로써 해상도 독립성, 매개변수 일반화, 그리고 다양한 규범(norm) 최적화를 동시에 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Neural-POD는 신경망 기반 비선형 기저 함수를 통해 고전 POD의 해상도 의존성과 매개변수 취약성을 혁신적으로 해결하며, Galerkin ROM과 DeepONet 모두에 적용 가능한 통합 프레임워크로서 AI4Science에 중요한 기여를 한다. 다만 계산 비용 분석과 고차원 문제 검증을 통해 실용성을 강화할 필요가 있다.

#479 2026.02 4/5

AMDAT: An Open-Source Molecular Dynamics Analysis Toolkit for Supercooled Liquids, Glass-Forming Materials, and Complex Fluids

저자: Pierre Kawak, William F. Drayer, David S. Simmons | 날짜: 2026.02 | DOI: 10.48550/arXiv.2602.05865

Essence

비정질 재료, 유리 형성 물질, 초냉각 액체의 분자동역학(MD) 시뮬레이션 궤적 분석을 위한 고성능 오픈소스 C++ 도구키트로, 메모리 내 궤적 처리와 지수 시간 샘플링을 통해 장시간 동역학 분석을 효율적으로 수행할 수 있다.

Evaluation

Overall: 4

AMDAT는 비정질 물질 및 유리 형성 시스템의 MD 분석에 특화된 정교한 오픈소스 도구키트로, 장기 검증된 분석 루틴과 효율적인 아키텍처 설계로 해당 분야 연구자의 생산성 및 재현성을 크게 향상시킬 잠재력이 크다.

#480 2025 4/5

Efficient Prediction of SO(3)-Equivariant Hamiltonian Matrices via SO(2) Local Frames

저자: Haiyang Yu, Yu-Ching Lin, Xuan Zhang, Xiaofeng Qian, Shuiwang Ji | 날짜: 2025 | DOI: 10.48550/arXiv.2506.09398

Essence

본 논문은 전자 구조 계산 가속화를 위해 해밀턴 행렬(Hamiltonian matrix)을 효율적으로 예측하는 QHNetV2 모델을 제안한다. SO(2) 국소 좌표계(local frames) 내에서 SO(2)-등변(equivariant) 연산을 수행함으로써, 계산량이 많은 SO(3) Clebsch-Gordan 텐서 곱(tensor product) 없이도 전역 SO(3) 등변성을 달성한다.

Evaluation

Overall: 4

본 논문은 SO(2) 국소 좌표계를 이용하여 해밀턴 행렬 예측에서 계산 효율과 정확도를 동시에 달성한 실질적 기여를 제시하였으며, 특히 높은 각운동량 양자수가 필요한 상황에서 유용하다. 다만 이론적 심화, 더 광범위한 기저 함수 및 시스템 규모에 대한 검증, 그리고 명확성 개선이 필요하다.

#481 2025.03 4/5

From Theory to Application: A Practical Introduction to Neural Operators in Scientific Computing

저자: Prashant K. Jha | 날짜: 2025.03 | DOI: 미제공

Essence

![Figure 4](figures/fig4.webp) *Figure 4: DeepONet, PCANet, FNO의 신경망 연산자 구조 개요* 본 논문은 매개변수 편미분방정식(PDEs)의 해를 근사하기 위한 신경 연산자(Neural Operators) 아키텍처들의 실용적 입문서이다. DeepONet, PCANet, FNO 세 가지 핵심 모델을 비교 분석하고, 이들을 Poisson 방정식과 선형 탄성 변형 문제에 적용하며, 베이지안 역문제에서의 대용 모델(Surrogate Model)로의 활용을 제시한다.

Evaluation

Novelty: 3 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 신경 연산자의 핵심 아키텍처를 실무 중심으로 체계적으로 소개하고 구체적 구현 방법을 제시하는 우수한 실용 가이드이나, 선형 모델 문제에만 국한되고 오차 제어 방법론이 미발달된 점이 제한사항이다. 학계 신입생이나 실무자에게는 매우 높은 가치를 가지지만, 연구의 기술적 독창성은 제한적이다.

#482 2025 4/5

MLLM-based discovery of intrinsic coordinates and governing equations from high-dimensional data

저자: Ruikun Li, Yan Lu*, Shixiang Tang, Biqing Qi, Wanli Ouyang | 날짜: 2025 | DOI: 미기재

그림 1: 제안된 비디오 방정식 추론 프레임워크의 전체 파이프라인. 고차원 관측 데이터로부터 물리 좌표계 발견과 지배 방정식 추론을 수행한다.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 제안된 비디오 방정식 추론 프레임워크의 전체 파이프라인. 고차원 관측 데이터로부터 물리 좌표계 발견과 지배 방정식 추론을 수행한다.* 본 논문은 멀티모달 대규모 언어 모델(MLLM)을 활용하여 고차원 동영상 데이터로부터 저차원 물리 좌표계와 지배 방정식을 자동으로 발견하는 Video Equation Reasoning (VER) 프레임워크를 제안한다. 향상된 시각적 프롬프트와 가설-평가-반복 추론 체인을 통해 종래 방법 대비 외삽 정확도를 약 26.96% 향상시킨다.

Evaluation

Overall: 4

#483 2025.11 4/5

Nonlinear stochastic and quantum motion from Coulomb forces

저자: Luca Ornigotti, Darren W. Moore, Radim Filip | 날짜: 2025.11 | DOI: 미기재

그림 1: 조화 포텐셜로 제한된 두 입자가 쿨롱 상호작용을 통해 보상력을 받을 때, 고전 및 양자 영역에서 소음/불확실성 유도 운동량 변위

Essence

![Figure 1](figures/fig1.webp) *그림 1: 조화 포텐셜로 제한된 두 입자가 쿨롱 상호작용을 통해 보상력을 받을 때, 고전 및 양자 영역에서 소음/불확실성 유도 운동량 변위* 본 논문은 쿨롱 상호작용의 3차 비선형 항을 이용하여 한 입자의 위치 소음(양자 영역에서는 불확실성)으로부터 다른 입자의 운동량 변위를 유도하는 현상을 보인다. 조화 부분을 보상 선형력으로 제거한 후 남은 상호 비선형 항이 신호-잡음비(SNR) 향상이라는 직접 관찰 가능한 비상호적 비선형 효과를 야기함을 입증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

쿨롱 상호작용의 비선형 효과를 고전과 양자 영역에서 통일적으로 분석한 독창적 이론 연구로, 부양 입자 및 포획 이온 시스템에서의 비선형 양자 기술 개발을 위한 자연스럽고 경제적인 경로를 제시한다. 다만 실험적 타당성 검증과 보상력 불완벽성 극복 방안이 추가되면 임팩트가 대폭 향상될 것으로 예상된다.

#484 2026.06 4/5

Physics-informed neural network for multi-objective design optimization of wickless thermal ground planes

저자: Gwangwoo Han, Jikyum Kim, Joo Hyun Moon, Young Jik Youn | 날짜: 2026.06 | DOI: 10.1016/j.icheatmasstransfer.2026.111105

Essence

본 논문은 물리정보신경망(Physics-Informed Neural Networks, PINNs)을 위킹리스 열지면(wickless thermal ground plane)의 다목적 설계 최적화에 적용한 연구이다. 전통적 수치해석 방법의 메시 생성 시간과 계산 복잡도를 해결하면서도 데이터 기반 학습을 통해 효율적인 열관리 장치 설계를 가능하게 한다.

Evaluation

Overall: 4

본 논문은 PINNs를 위킹리스 열지면의 다목적 최적화에 효과적으로 적용하여 계산 속도와 정확도 양립을 실현했다. 메시 프리 방식과 물리제약 통합으로 산업적 가치가 높으나, 신경망 일반화 능력과 고차원 확장성에 대한 심화 분석이 요구된다.

#485 2026.03 4/5

Physics-Informed Neural Operator for Electromagnetic Inverse Scattering Problems

저자: Q. C. Dong, Zi-Xuan Su, Qing Huo Liu, Wen Chen, Zhizhang Chen | 날짜: 2026.03 | DOI: 미공개

그림 1: 2차원 TMz 산란 시나리오 모델링 설정

Essence

![Figure 2](figures/fig2.webp) *그림 2: 전자기 역산란 문제 해결을 위한 PINO 프레임워크. 정규화된 좌표 X, Y를 입력으로 하고, 신경 연산자의 출력은 예측된 유도 전류 Ĵ* 본 논문은 신경 연산자(Neural Operator)와 물리 정보를 결합한 PINO 프레임워크를 제안하여 전자기 역산란 문제를 신속하고 정확하게 해결한다. 학습 가능한 텐서로 유전율을 표현하고 하이브리드 손실 함수(state loss, data loss, TV 정규화)로 신경 연산자와 물질 특성을 동시에 최적화한다.

Evaluation

Overall: 4

본 논문은 신경 연산자와 물리 정보를 통합하여 전자기 역산란 문제에 새로운 접근법을 제시하며, 다양한 측정 조건에서 기존 방법 대비 우수한 성능을 입증한다. 다만 2D 제한, 훈련 데이터 세부 사항 미흡, 이론적 심화가 필요하고, 3D 확장과 실험 검증을 통한 실제 응용성 강화가 필요하다.

Materials Hypothesis Discovery 14 ▶

#486 2023 4/5

Scaling Deep Learning for Materials Discovery

저자: Amil Merchant, Simon Batzner, Samuel S. Schoenholz, Muratahan Aykol, Gowoon Cheon, Ekin Dogus Cubuk | 날짜: 2023 | DOI: 10.1038/s41586-023-06735-9

GNoME 기반 효율적 발견. (a) 모델 기반 필터링과 DFT의 데이터 피드백 루프, (b) 381,000개의 신규 안정 물질 발견으로 기존 대비 거의 10배 증가, (c) 736개 구조의 독립적 실험 검증, (d) 6개 원소 포함 물질까지 확장된 예측 능력

Essence

![Figure 1](figures/fig1.webp) *GNoME 기반 효율적 발견. (a) 모델 기반 필터링과 DFT의 데이터 피드백 루프, (b) 381,000개의 신규 안정 물질 발견으로 기존 대비 거의 10배 증가, (c) 736개 구조의 독립적 실험 검증, (d) 6개 원소 포함 물질까지 확장된 예측 능력* 그래프 신경망(GNN)을 대규모로 학습시킨 GNoME(Graph Networks for Materials Exploration) 모델을 통해 물질 안정성 예측에서 전례 없는 일반화 성능을 달성하였으며, 220만 개의 신규 안정 결정질 구조를 발견하여 인류가 알고 있는 안정 물질을 약 10배 확장했다.

Evaluation

Overall: 4

본 연구는 그래프 신경망의 대규모 학습과 능동 학습을 결합하여 무기 결정질 발견에 혁명을 일으킨 획기적 성과로, 220만 개 신규 물질 발견과 신흥 일반화 능력 달성으로 계산 물질 과학의 새로운 패러다임을 제시하며, Nature 최고 수준의 학제 간 기여를 입증한다.

#487 2024.11 4/5

Boltz-1 Democratizing Biomolecular Interaction Modeling

저자: Jeremy Wohlwend, Gabriele Corso, Saro Passaro, Noah Getz, Mateo Reveiz, Ken Leidal, Wojtek Swiderski, Liam Atkinson, Tally Portnoi, Itamar Chinn, Jacob Silterra, Tommi Jaakkola, Regina Barzilay | 날짜: 2024.11 | DOI: 10.1101/2024.11.19.624167

Essence

본 논문은 생체분자 복합체(biomolecular complexes)의 3D 구조 예측에서 AlphaFold3 수준의 성능을 달성하면서도 완전히 공개된 오픈소스 모델인 Boltz-1을 소개한다. MIT 라이선스 하에 모든 코드, 가중치, 데이터셋을 공개함으로써 구조생물학 연구의 민주화를 추구한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

Boltz-1은 AlphaFold3 수준의 성능을 갖춘 첫 번째 완전 공개 모델로서, Boltz-steering을 통한 물리적 제약 조건 통합과 대폭 감소된 계산량은 높이 평가할 만하다. 단순한 모델 공개를 넘어 구조생물학 연구의 민주화를 실현하는 중요한 이정표이며, MIT 라이선스 하의 완전 공개는 전 세계 과학 커뮤니티의 협력과 혁신을 촉진할 것으로 예상된다.

#488 2026.03 4/5

Scalable Cross-Facility Federated Learning for Scientific Foundation Models on Multiple Supercomputers

저자: Yijiang Li, Zilinghan Li, Kyle Chard, Ian Foster, Todd Munson, Ravi Madduri, Kibaek Kim | 날짜: 2026.03 | DOI: 미제공

Figure 1: 고정 마이크로배치 크기당 처리량 스케일링. 왼쪽 패널은 처리량(초당 샘플)을 보여주며, Aurora는 64개 노드에서 2,100 샘플/초을, Perlmutter 80GB와 Frontier는 각각 1,200과 1,000 샘플/초을 달성한다.

Essence

본 논문은 프라이버시 제약, 데이터 주권, 대규모 데이터 생성으로 인해 중앙화할 수 없는 과학 데이터를 다중 슈퍼컴퓨터 환경에서 연합학습(Federated Learning, FL)으로 훈련하는 확장 가능한 프레임워크를 제시하며, DOE 리더십급 슈퍼컴퓨터 4대에서의 실증을 통해 크로스-시설 FL의 실용성을 입증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 과학 응용을 위한 크로스-시설 연합학습의 실용성을 리더십급 HPC 환경에서 처음으로 포괄적으로 입증하였으며, GPU 메모리-통신 트레이드오프와 스케줄러 이질성이라는 구체적 병목을 드러내어 향후 HPC-aware FL 알고리즘 설계에 중요한 기초를 제공한다. 다만 대규모 현실적 조건 평가와 프라이버시 보장 검증 강화가 필요하다.

#489 2018 4/5

SCANPY: large-scale single-cell gene expression data analysis

저자: F. A. Wolf, Philipp Angerer, Fabian J Theis | 날짜: 2018 | DOI: 10.1186/s13059-017-1382-0

Figure 1a: 68,579개의 말초혈액 단핵세포(PBMC)를 이용한 SCANPY의 분석 파이프라인: 전처리, 정규화, 고변이성 유전자 식별, t-SNE 및 그래프 드로잉 시각화, Louvain 알고리즘을 통한 클러스터링, 차등 발현 유전자 검증, 의사시간 순서화를 통한 분기 궤적 재구성

Essence

SCANPY는 백만 개 이상의 세포를 포함한 대규모 단일세포 유전자 발현 데이터를 효율적으로 분석할 수 있는 Python 기반 확장 가능한 툴킷으로, 기존 R 기반 프레임워크들(Seurat, Monocle 등)보다 5-90배 빠른 성능을 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

SCANPY는 빠르게 성장하는 단일세포 유전체 분석 분야에서 Python 생태계에 처음으로 대규모 데이터 처리가 가능한 포괄적 도구킷을 제공함으로써, 학계와 산업계에 즉각적이고 지속적인 영향을 미쳤으며, 특히 AnnData 클래스는 후속 도구들의 표준으로 채택될 정도로 기여도가 매우 높다.

#490 2025 4/5

Hypothesis Generation for Materials Discovery and Design Using Goal-Driven and Constraint-Guided LLM Agents

저자: Shrinidhi Kumbhar, Venkatesh Mishra, Kevin Coutinho, Divij Handa, Ashif Iquebal | 날짜: 2025 | DOI: 10.48550/arXiv.2501.13299

Essence

본 연구는 대규모 언어모델(LLM)을 활용한 다중 에이전트 시스템 ACCELMAT을 제안하여 재료 발견 및 설계를 위한 신규 가설을 자동 생성하고 평가한다. 2024년 발행 논문 기반의 새로운 벤치마크 데이터셋 MATDESIGN과 과학적 타당성을 평가하는 혁신적 메트릭스를 제공함으로써 LLM 기반 재료 과학 연구의 가속화를 목표로 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 연구는 재료 발견 가속화라는 중요한 도메인에 LLM 에이전트를 체계적으로 적용한 의미 있는 시도이며, 특히 데이터 유출 방지 설계와 과학자 중심 평가 메트릭이 인상적이다. 다만 최종 평가의 신뢰성 강화와 실제 생성 가설의 과학적 유효성 검증을 통해 실용성을 입증할 수 있다면 더욱 임팩트 있는 기여가 될 것으로 판단된다.

#491 2024 4/5

Efficient fine-tuning of single-cell foundation models enables zero-shot molecular perturbation prediction

저자: Sepideh Maleki, Jan-Christian Huetter, Kangway V. Chuang, David Richmond, Gabriele Scalia, Tommaso Biancalani (Genentech) | 날짜: 2024

scDCA 아키텍처: scGPT의 각 transformer 블록에 drug-conditional adapter를 통합하여 분자 임베딩으로 동적으로 down-projection과 up-projection 계층의 편향을 조정

Essence

![Figure 1](figures/fig1.webp) *scDCA 아키텍처: scGPT의 각 transformer 블록에 drug-conditional adapter를 통합하여 분자 임베딩으로 동적으로 down-projection과 up-projection 계층의 편향을 조정* 단일세포 기초 모델(foundation model)을 약물 조건부 어댑터(drug-conditional adapter)로 효율적으로 미세조정하여, 미래 약물에 대한 세포 반응 예측 및 미보유 세포주(unseen cell line)에 대한 제로샷 일반화를 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 단일세포 기초 모델을 약물 발견에 적용하기 위한 실질적이고 우아한 해결책을 제시하며, 특히 미보유 세포주에 대한 zero-shot 예측 능력과 파라미터 효율성 측면에서 현저한 기여를 한다. 다만 분자 임베딩 전략, 예측 메커니즘 해석, 그리고 임상 타당성 검증 강화가 향후 연구의 중요한 과제이다.

#492 2024 4/5

MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses

저자: Zonglin Yang, Wanhao Liu, Ben Gao, Tong Xie, Yuqiang Li | 날짜: 2024 | DOI: 10.48550/arXiv.2410.07076

Essence

대규모 언어모델(LLM)이 화학 분야의 연구 배경만으로 미발견 과학 가설을 자동으로 재발견할 수 있음을 최초로 증명한 연구이다. 이를 통해 LLM이 Nature/Science 수준의 화학 논문 가설들의 핵심 혁신을 포착하는 능력을 보였다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

MOOSE-Chem은 LLM의 화학 과학 발견 능력을 최초로 체계적으로 입증한 중요한 연구로, 수학적 분해 및 진화 알고리즘 기반 다중 영감 처리라는 독창적 접근이 돋보인다. 다만 상대적으로 작은 벤치마크 규모와 평가 기준의 엄밀성, 그리고 LLM이 실제로 새로운 과학 지식을 생성하는지 또는 기존 지식을 재조합하는지에 대한 심층 분석이 필요하다.

#493 2026.01 4/5

S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding

저자: He Wang, Longteng Guo, Pengkang Huo, Xuanxu Lin, Yichen Yuan, Jie Jiang, Jing Liu | 날짜: 2026.01 | DOI: 10.48550/arXiv.2601.00264

Essence

![Figure 2](./fig2_caption_distribution.png) *그림 2: 원본 캡션과 의미 강화 캡션의 문자 길이 분포. 원본 캡션(주황색)은 평균 267±261자에서 강화된 캡션(파란색)은 759±251자로 2.8배 확장됨* 과학 논문의 2.5백만 편에서 수집한 1,550만 개의 이미지-텍스트 쌍으로 구성된 대규모 멀티모달 데이터셋을 제시한다. Qwen-VL 기반 의미 강화 파이프라인을 통해 희소한 원본 캡션을 논문의 추상, 인용 맥락과 결합하여 자급식의 과학적으로 근거 있는 설명으로 변환하며, CLIP 점수 기준 18.21% 정렬 개선을 달성한다.

Evaluation

Overall: 4

과학 멀티모달 학습의 의미 간극을 처음 대규모로 정의하고 지식 보강 맥락 주입으로 우아하게 해결한 데이터셋으로, 공개 배포를 통해 AI for Science 커뮤니티의 거대한 기초 자원이 될 것으로 기대된다. 다만 강화 파이프라인의 오류율, 도메인별 정확성, 하위 과제에서의 실질적 성능 이득에 대한 정밀한 검증이 보완되면 더욱 견고할 것이다.

#494 2023 4/5

Towards Foundation Models for Scientific Machine Learning: Characterizing Scaling and Transfer Behavior

저자: Shashank Subramanian, P. Harrington, K. Keutzer, W. Bhimji, D. Morozov, M. W. Mahoney, Amir Gholami | 날짜: 2023 | DOI: 10.48550/arXiv.2306.00258

Essence

![Figure 1](figures/fig1.webp) *다양한 PDE 시스템에 대한 사전학습과 미세조정 프레임워크* 본 논문은 자연언어처리(NLP)와 컴퓨터비전(CV) 분야에서 성공적으로 활용된 파운데이션 모델 패러다임(사전학습-미세조정)을 과학 머신러닝(Scientific Machine Learning, SciML) 분야에 적용 가능한지 체계적으로 검증한다. 편미분방정식(PDE) 학습 작업에서 신경 연산자(Neural Operator)를 다양한 물리 시스템으로 사전학습한 후 미세조정하면, 처음부터 학습한 모델보다 수 자릿수 적은 데이터로 목표 정확도에 도달할 수 있음을 보인다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 SciML 분야에서 파운데이션 모델 패러다임의 가능성을 처음으로 체계적으로 검증한 중요한 연구로, 모델 크기, 데이터 스케일, 물리 파라미터 범위, 다중 연산자 등 여러 차원의 종합 분석을 통해 전이학습의 강력한 이점을 명확히 보인다. 다만 단일 아키텍처와 상대적으로 단순한 PDE 시스템에 국한되었으며, 실제 과학 응용으로의 확장과 물리 기반 제약의 통합이 향후 과제이다. SciML 커뮤니티에 중요한 벤치마크와 로드맵을 제시하는 점에서 의의가 크다.

#495 2024 4/5

MMSCI: A dataset for graduate-level multi-discipline multimodal scientific understanding

저자: Zekun Li, Xianjun Yang, Kyuri Choi, Wanrong Zhu, Ryan Hsieh, HyeonJung Kim, Jin Hyuk Lim, Sungyoung Ji, Byungju Lee, Xifeng Yan, Linda Ruth Petzold, Stephen D. Wilson, Woosang Lim, William Yang Wang | 날짜: 2024

그림 1: MMSCI 데이터셋의 상위 20개 과학 분야별 논문 수와 이미지 수

Essence

![Figure 1](figures/fig1.webp) *그림 1: MMSCI 데이터셋의 상위 20개 과학 분야별 논문 수와 이미지 수* 본 논문은 Nature Communications의 동료평가 논문 131,393개로부터 742,273개의 이미지를 수집하여, 72개 학문 분야의 대학원 수준 복잡한 과학 시각화를 이해하기 위한 대규모 멀티모달 데이터셋(MMSCI)을 제시한다. 이를 통해 19개 언어비전모델(Large Vision Language Models, LVLMs)을 평가하며, 미세 조정 및 사전 학습을 통해 모델 성능을 향상시킬 수 있음을 보여준다.

Evaluation

Overall: 4

MMSCI는 과학 분야의 복잡한 멀티모달 이해를 다루는 대규모 고품질 데이터셋으로, 기존 차트 중심 벤치마크의 한계를 극복하고 다양한 도메인의 graduate-level 시각화 해석을 가능하게 한다. 실제 미세 조정과 사전 학습을 통한 성능 향상을 입증함으로써 과학 AI 어시스턴트 개발의 중요한 기반을 제공하며, 특히 도메인 전문가 수준의 모델 성능 달성은 실무적 가치를 입증한다.

#496 2025 4/5

Hypothesis Generation for Materials Discovery and Design Using Goal-Driven and Constraint-Guided LLM Agents

저자: Shrinidhi Kumbhar, Venkatesh Mishra, Kevin Coutinho, Divij Handa, Ashif Iquebal, Chitta Baral (Arizona State University) | 날짜: 2025 | DOI: 10.48550/arXiv.2501.13299

Essence

본 연구는 대규모 언어모델(LLM)을 활용하여 소재 발견 및 설계를 위한 실행 가능한 가설을 자동 생성하는 ACCELMAT 프레임워크를 제안한다. 특히 반복적 피드백 기반 다중 에이전트 구조와 과학적 평가 메트릭을 통해 소재 과학자의 의사결정 과정을 모방하는 접근법을 제시한다.

Evaluation

Overall: 4

본 연구는 LLM 기반 소재 발견 가설 생성 분야에서 도구-자유 접근, 다중 에이전트 비평 시스템, 데이터 유출 차단 벤치마크를 통해 의미 있는 기여를 제시한다. 특히 MATDESIGN 벤치마크는 실세계 소재 설계 문제를 반영한 평가 자산으로서 가치가 높다. 다만 생성된 가설의 실험실 검증 데이터 부재, 제한된 데이터셋 규모, 평가 메트릭의 객관화 부족 등이 완전한 실용화에 장애물로 작용한다. 향후 실험적 검증 루프 통합과 더 큰 규모의 다중 분야 벤치마크 확장이 이루어진다면, 소재과학의 AI 기반 가속화에 상당한 영향을 미칠 수 있을 것으로 기대된다.

#497 2026.02 4/5

Verifier-Constrained Flow Expansion for Discovery Beyond the Data

저자: Riccardo De Santi, Kimon Protopapas, Ya-Ping Hsieh, Andreas Krause | 날짜: 2026.02 | DOI: 미제공

Essence

사전학습된 Flow 모델이 제한된 데이터 분포에만 집중하는 문제를 해결하기 위해, 검증기(verifier)를 활용하여 유효성을 보장하면서 생성 모델의 밀도를 데이터 고가용 영역 너머로 확장하는 새로운 최적화 프레임워크를 제시한다.

Evaluation

Overall: 4

검증기 기반 flow 확장이라는 새로운 문제 정의와 이론적 분석이 돋보이나, 현실의 약검증기 환경에서의 확장 효과 보장 부족으로 인해 발견(discovery) 응용에의 즉시적 임팩트는 제한적일 수 있다. ICLR 게재 논문으로서 충분한 기술적/이론적 기여를 하였으나, 약검증기 성능 특성화와 검증기 오류 강건성 분석이 보강되면 실무 가치가 크게 향상될 것으로 예상된다.

#498 2025.06 4/5

A Survey of AI for Materials Science: Foundation Models, LLM Agents, Datasets, and Tools

저자: Minh-Hao Van, Prateek Verma, Chen Zhao, Xintao Wu | 날짜: 2025.06 | DOI: 10.48550/arXiv.2506.20743

Figure 1: Overview of our survey of AI for materials science (AI4MS), highlighting common tasks, categories of

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of our survey of AI for materials science (AI4MS), highlighting common tasks, categories of* 재료 과학(Materials Science)에서 기초 모델(Foundation Models), LLM 에이전트, 데이터셋, 도구를 종합적으로 조사한 서베이로, 과학 발견을 위한 확장 가능하고 범용적인 멀티모달 AI 시스템의 구현을 다룬다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 서베이는 재료 과학에서 기초 모델, LLM 에이전트, 데이터, 도구의 현황을 종합적이고 체계적으로 정리한 중요한 참고 자료로, 해당 분야 연구자들이 기술 현황을 빠르게 파악하고 미해결 문제를 식별하는 데 매우 유용하다.

#499 2025 4/5

PerTurboAgent: A Self-Planning Agent for Boosting Sequential Perturb-seq Experiments

저자: Minsheng Hao, Yongju Lee, Hanchen Wang, Gabriele Scalia, Aviv Regev | 날짜: 2025 | DOI: 10.1101/2025.05.25.656020

PerTurboAgent 개요: 자기 계획 능력을 갖춘 LLM 기반 에이전트가 순차적 실험 라운드를 통해 표적 페놀타입에 영향을 미치는 유전자 섭동을 식별

Essence

![Figure 1](figures/fig1.webp) *PerTurboAgent 개요: 자기 계획 능력을 갖춘 LLM 기반 에이전트가 순차적 실험 라운드를 통해 표적 페놀타입에 영향을 미치는 유전자 섭동을 식별* 대규모 유전자 섭동 실험(Perturb-seq)에서 제한된 실험 자원 내에서 최대의 정보 수집을 위해, 자기 계획 능력을 갖춘 LLM 기반 에이전트(PerTurboAgent)를 개발하여 순차적 유전자 선택 문제를 자동화하고 기존 능동학습(active learning) 방법들을 능가하는 성능을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

PerTurboAgent는 자기-계획 LLM 에이전트를 통해 고비용 유전자 섭동 실험의 효율화라는 현실적 문제를 창의적으로 해결하는 연구로, 기존 활성학습 방법들을 일관되게 능가하는 경험적 성과를 보입니다. 다만 ADG 정의의 자동화, 실제 실험실 환경 검증, 이론적 기초의 강화가 이루어진다면 훨씬 더 강력한 기여가 될 수 있을 것으로 판단됩니다.

Biomedical Causal Modeling 11 ▶

#500 2020 4/5

Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

저자: Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy | 날짜: 2020 | DOI: 10.18653/v1/2020.acl-main.740

작업 데이터는 도메인 분포의 부분집합이며, 원본 사전학습 도메인과 반드시 겹치지 않음을 시각화

Essence

광범위한 데이터로 사전학습(pretraining)된 대규모 언어 모델(RoBERTa)을 도메인별·작업별로 추가 적응(adaptation)하면, 다양한 자원 환경에서 지속적인 성능 향상을 달성할 수 있음을 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 5 Overall: 4

본 논문은 현대 NLP의 통념(대규모 광범위 모델로 충분함)에 대한 실증적 반박을 제공하는 중요한 연구로, 4개 도메인의 8개 작업에 걸친 체계적 비교를 통해 도메인/작업 적응 사전학습의 일관된 효과를 입증했다. 어휘 겹침 분석으로 적응 이득을 사전에 예측 가능하게 하고, 자동 데이터 선택 전략으로 실무적 적용성을 높였다는 점에서 ACL 2020의 주요 기여 논문으로 평가받을 만하다.

#501 2023 4/5

Bio-SIEVE: Exploring Instruction Tuning Large Language Models for Systematic Review Automation

저자: Ambrose Robinson, William Thorne, Ben Wu, Abdullah Pandor, Munira Essat, Mark Stevenson, Xingyi Song (The University of Sheffield) | 날짜: 2023 | DOI: arXiv:2308.06610

의료 체계적 문헌고찰(Systematic Review) 프로세스에서 Bio-SIEVE가 지원하는 제목 및 초록 스크리닝 단계

Essence

![Figure 1](figures/fig1.webp) *의료 체계적 문헌고찰(Systematic Review) 프로세스에서 Bio-SIEVE가 지원하는 제목 및 초록 스크리닝 단계* 본 논문은 의료 체계적 문헌고찰의 가장 비용 집약적인 단계인 초록 스크리닝을 자동화하기 위해 지시어 미세조정(instruction tuning)을 통해 대규모언어모델(LLM)을 특화시킨 Bio-SIEVE를 제시한다. 이 모델은 ChatGPT를 능가하는 성능을 보이면서도 의료 영역 간 우수한 일반화 능력을 갖춘다.

Evaluation

Overall: 4

Bio-SIEVE는 체계적 문헌고찰 자동화에 특화된 LLM을 제시함으로써 고가의 의료 리뷰 프로세스 개선에 유의미한 기여를 한다. 재현 가능한 공개 모델 공급과 배제 이유 생성이라는 새로운 과제 도입은 이 연구의 강점이나, 실제 임상 환경에서의 검증과 다중작업 학습 성능 개선이 향후 필수 과제이다.

#502 2024 4/5

BioMedLM: A 2.7B Parameter Language Model Trained on Biomedical Text

저자: Elliot Bolton, Abhinav Venigalla, Michihiro Yasunaga, David Hall, Betty Xiong, Tony Lee, Roxana Daneshjou, Jonathan Frankle, Percy Liang, Michael Carbin, Christopher D. Manning | 날짜: 2024 | DOI: arXiv:2403.18421

Essence

PubMed 논문 초록과 전체 문서로 훈련된 27억 매개변수 바이오메디컬 언어모델을 제시하며, 대규모 모델과 경쟁할 수 있는 강력한 성능을 달성하면서도 온디바이스 추론, 프라이버시 보호, 투명성과 경제성을 제공한다.

Evaluation

Overall: 4

BioMedLM은 대규모 언어모델의 접근성, 프라이버시, 투명성 문제를 정면으로 해결하는 실용적이고 윤리적인 모델로서, 특히 의료기관 등 제약이 많은 도메인에서 즉시 배포 가능한 솔루션을 제공한다. 영역-특화 훈련의 가치를 재증명하며 오픈소스 생태계에 의미 있는 기여를 한다.

#503 2024 4/5

DrugCLIP: Contrastive drug-disease interaction for drug repurposing

저자: Yingzhou Lu, Yaojun Hu, Chenhao Li | 날짜: 2024

Essence

![Figure 1: Drug repurposing의 개념 - 기존 승인된 약물을 새로운 질병 치료에 재사용하는 과정](figures/fig1.webp) 기존 임상시험 데이터를 기반으로 약물-질병 상호작용(drug-disease interaction)을 학습하는 대조학습(contrastive learning) 방법 DrugCLIP을 제안하여, 음성 샘플(negative samples) 부족 문제를 해결하고 약물 재창출(drug repurposing) 효율을 16.5% 향상시켰다.

Evaluation

Overall: 4

DrugCLIP은 약물 재창출이라는 실용적 문제에 대조학습을 창의적으로 적용하고 품질 높은 임상시험 기반 데이터셋을 제공함으로써 의약학 AI 분야에 의미 있는 기여를 한 논문이다. 다만 생물학적 검증, 외부 데이터셋을 통한 일반화 검증, 그리고 예측 결과의 해석 가능성 제고 측면에서 향상이 필요하다.

#504 2025 4/5

EarthSE: A benchmark evaluating earth scientific exploration capability for large language models

저자: Wanghan Xu, Xiangyu Zhao, Yuhao Zhou, Xiaoyu Yue, Ben Fei, Fenghua Ling, Wenlong Zhang, Lei Bai | 날짜: 2025 | DOI: arXiv:2505.17139v3

Figure 1: 주류 LLM들의 EarthSE에서의 교차 도메인 평가. (a) EarthSE는 지구의 5개 권역에서 다양한 LLM의 능력을 평가 (b) 다중 과제 평가는 계산 및 용어 설명 등에서 뚜렷한 한계 노출

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 주류 LLM들의 EarthSE에서의 교차 도메인 평가. (a) EarthSE는 지구의 5개 권역에서 다양한 LLM의 능력을 평가 (b) 다중 과제 평가는 계산 및 용어 설명 등에서 뚜렷한 한계 노출* 본 논문은 **지구과학 분야에 특화된 최초의 포괄적 벤치마크 EarthSE를 제시**하며, 10만 건의 학술논문 코퍼스를 기반으로 기초 지식부터 고급 과학탐사 능력까지 평가할 수 있는 다층 평가 프레임워크를 구축했다. 특히 개방형 다중 턴 대화를 통해 LLM의 과학탐사 능력(방법론 귀납, 한계 분석, 개념 제안)을 평가하는 새로운 평가 메트릭을 도입했다.

Evaluation

Overall: 4

EarthSE는 지구과학 분야에서 **기초 지식부터 개방형 과학탐사 능력까지 다층적으로 평가하는 최초의 포괄적 벤치마크**로서 상당한 학술적·실무적 가치를 제공한다. 특히 SES 메트릭을 통한 과학적 사고의 정량화는 향후 LLM 과학 응용 평가의 새로운 방향을 제시할 수 있다. 다만 자동화 파이프라인의 기술적 세부사항, 평가 메트릭의 객관성 검증, 모델 성능 저조의 근본 원인 분석 등이 보강되면 더욱 강력한 벤치마크가 될 수 있을 것으로 예상된다.

#505 2025 4/5

Hallucinations can improve large language models in drug discovery

저자: Shuzhou Yuan, Zhan Qu, Ashish Yashwanth Kangen, Michael Färber | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *HHEM-2.1-Open 모델을 사용한 사실적 일관성 점수. 대부분의 LLM이 MolT5 기준 설명과 낮은 일관성을 보여 광범위한 환각을 나타냄* 일반적으로 문제로 간주되는 대규모 언어모델(LLM)의 환각(hallucinations)이 오히려 약물 발견의 분자 특성 예측 과제에서 모델의 성능을 향상시킬 수 있다는 역설적인 발견을 제시한다. 구조적 오기술(structural misdescription)과 같은 특정 유형의 환각이 모델의 일반화 능력을 증대시키는 암묵적 반사실(implicit counterfactual)로 작동함을 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

환각의 역설적 유익성을 실증적으로 제시하는 창의적 연구로, 약물 발견 도메인에 새로운 관점을 제공한다. 다만 메커니즘 이해와 실제 적용 가능성 검증이 보완되면 임팩트가 더욱 강화될 것이다.

#506 2025 4/5

Large language models for zero-shot inference of causal structures in biology

저자: Izzy Newsham, Luka Kovačević, Richard Moulange, Nan Rosemary Ke, Sach Mukherjee | 날짜: 2025

그림 1: 섭동된 유전자 k와 k에 대한 실험적 중재 하에서 유의하게 변하는 유전자 집합 간의 방향성 모서리

Essence

대규모 언어모델(LLM)이 생물학적 인과관계를 문헌 지식만으로 추론할 수 있는지를 실제 유전자 섭동 실험 데이터로 검증하는 혁신적 평가 프레임워크를 제시한다. 적절한 프롬프팅과 정보 증강 전략을 통해 작은 LLM도 생물학적 시스템의 의미 있는 인과구조를 포착할 수 있음을 보여준다.

Evaluation

Overall: 4

본 논문은 LLM이 과학 발견 도구로서 실제 가치를 갖는지를 검증하는 중요한 첫 걸음으로, 실험 데이터 기반 평가 프레임워크를 통해 학술적·실용적 기여를 모두 제시하나, 결과 분석의 심화와 재현성 강화가 필요하다.

#507 2024 4/5

LLM4GRN: Discovering causal gene regulatory networks with llms–evaluation through synthetic data generation

저자: Tejumade Afonja, Ivaxi Sheth, Ruta Binkyte, Waqar Hanif, Thomas Ulas, Matthias Becker, Mario Fritz | 날짜: 2024 | DOI: arXiv:2410.15828

그림 1: LLM4GRN 개요. Setting 1.A는 인간 기반 지식베이스(KB)와 LLM을 결합하고, Setting 2.A는 LLM KB와 LLM 추론을 모두 활용하는 완전 LLM 파이프라인

Essence

![Figure 1](figures/fig1.webp) *그림 1: LLM4GRN 개요. Setting 1.A는 인간 기반 지식베이스(KB)와 LLM을 결합하고, Setting 2.A는 LLM KB와 LLM 추론을 모두 활용하는 완전 LLM 파이프라인* 본 논문은 단일세포 RNA 시퀀싱(scRNA-seq) 데이터에서 유전자 조절 네트워크(Gene Regulatory Network, GRN)를 발견하기 위해 대규모 언어모델(LLM)을 활용하는 새로운 접근 방식을 제시합니다. 신뢰할 수 있는 정답 그래프가 없는 상황에서 인과관계 합성 데이터 생성을 평가 방법으로 사용하여 LLM의 효과성을 입증합니다.

Evaluation

Overall: 4

본 논문은 일반 목적 LLM을 GRN 추론에 처음 적용하고, 신규 평가 방법론을 제시하여 LLM과 통계적 방법의 하이브리드 접근이 실질적 가치를 가짐을 보여줍니다. 다만 단일 데이터셋 평가, 간접적 평가 방법론, LLM 환각 문제 등으로 인해 생물학적 발견으로의 직접적 전환에는 추가 검증이 필요합니다. scRNA-seq 분석에 AI를 활용하는 분야에서 의미 있는 기여이나, 기초 생물학 연구의 실제 문제 해결 수준까지는 도달하지 못한 상태입니다.

#508 2019.08 4/5

ScispaCy: Fast and Robust Models for Biomedical Natural Language Processing

저자: Mark Neumann, Daniel King, Iz Beltagy, Waleed Ammar | 날짜: 2019.08 | DOI: 10.18653/v1/W19-5034

Essence

생의학 분야의 급증하는 문헌을 자동으로 처리하기 위해 spaCy 라이브러리를 기반으로 한 scispaCy라는 전문화된 자연언어처리(NLP) 라이브러리를 개발하여, 도메인 전용 모델들을 제공한다. 빠른 처리 속도와 견고한 성능을 갖춘 실무용 생의학 텍스트 처리 도구를 공개했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 5 Overall: 4

생의학 NLP 분야에서 실제로 필요한 통합 도구를 제공하며, 공개 데이터셋 공헌과 함께 높은 실무적 가치를 지닌 우수한 논문이다. 다만 성능 면에서 최첨단 모델들에 약간 미치지 못하지만, 속도와 사용 편의성의 우월함으로 이를 충분히 보완한다.

#509 2019 4/5

ScispaCy: Fast and Robust Models for Biomedical Natural Language Processing

저자: Mark Neumann, Daniel King, Iz Beltagy, Waleed Ammar (Allen Institute for Artificial Intelligence) | 날짜: 2019

Essence

생의학 분야의 급증하는 학술 논문 처리를 위해 spaCy 라이브러리를 기반으로 생의학 텍스트에 특화된 NLP 파이프라인을 개발하여 실무 환경에서의 빠른 처리 속도와 견고한 성능을 동시에 달성하였다.

Evaluation

Overall: 4

ScispaCy는 학술적 혁신성보다는 실무적 타당성에 중점을 두고 생의학 NLP의 중요한 공백을 채우는 실용적인 기여. 높은 처리 속도와 공개 가능한 완전한 파이프라인은 생의학 텍스트 마이닝 연구와 응용의 진입장벽을 획기적으로 낮추었다.

#510 2023 3/5

ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data and Comprehensive Evaluation

저자: Guangyu Wang, Guoxing Yang, Zongxin Du, Longjun Fan, Xiaohu Li | 날짜: 2023 | DOI: 10.48550/arXiv.2306.09968

ClinicalGPT의 전체 구조: 다양한 의료 데이터와 감독 미세조정(SFT), 보상 모델(Reward Model), 강화학습(RL) 파이프라인을 통합

Essence

![Figure 1](figures/fig1.webp) *ClinicalGPT의 전체 구조: 다양한 의료 데이터와 감독 미세조정(SFT), 보상 모델(Reward Model), 강화학습(RL) 파이프라인을 통합* 본 논문은 의료 도메인에 특화된 대규모 언어 모델 ClinicalGPT를 제시한다. 다양한 임상 데이터와 포괄적 평가 프레임워크를 활용하여 의료 분야의 고정확도, 해석성, 안전성 요구사항을 충족하도록 설계되었다.

Evaluation

Overall: 3

ClinicalGPT는 의료 도메인에 특화된 LLM 개발의 실용적 접근을 보여주며 다양한 임상 데이터 통합과 포괄적 평가 프레임워크가 주요 기여이나, 기술적 혁신성이 제한적이고 실제 임상 성능 검증 및 실무 적용 경로에 대한 논의가 부족하다.

Bayesian Materials Inference 4 ▶

#511 2025.03 4/5

Foundation models for materials discovery – current state and future directions

저자: Edward O. Pyzer-Knapp, Matteo Manica, Peter Staar, Lucas Morin, Patrick Ruch, Teodoro Laino, John R. Smith, Alessandro Curioni | 날짜: 2025.03 | DOI: 10.1038/s41524-025-01538-0

수동 기술된 기호적 표현에서 오늘날의 파운데이션 모델까지의 진화를 보여주는 타임라인

Essence

![Figure 1: AI 머신러닝 표현의 진화 타임라인](figures/fig1.webp) *수동 기술된 기호적 표현에서 오늘날의 파운데이션 모델까지의 진화를 보여주는 타임라인* 본 논문은 대규모 언어모델(LLM)과 파운데이션 모델(Foundation Models)이 재료 발견(materials discovery) 분야에 어떻게 적용되고 있으며, 향후 어떤 방향으로 발전할 것인지를 종합적으로 리뷰한 관점 논문이다. 데이터 추출, 물성 예측, 분자 생성, 합성 계획 등 현재의 최첨단 적용 사례와 함께 새로운 데이터 수집 방법과 다중 모달리티의 영향을 검토한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 5 Overall: 4

본 논문은 파운데이션 모델이라는 최신 AI 패러다임을 재료 과학 분야에 포괄적으로 적용하는 중요한 관점 논문으로, 현재의 최첨단 사례와 함께 데이터 품질, 다중 모달리티 통합, 3D 구조 정보 결핍 등 구체적인 과제들을 명확히 제시한다. 다만 각 응용 분야별 기술적 심화 논의와 구체적인 사례 분석이 제한적이며, 향후 데이터셋 확충과 도메인 특화 모델 개발에 대한 실행 로드맵이 추가될 수 있다.

#512 2020.12 4/5

The frontier of simulation-based inference

저자: Kyle Cranmer, Johann Brehmer, Gilles Louppe | 날짜: 2020.12 | DOI: 10.1073/pnas.1912789117

다양한 길이 척도에서 시뮬레이션으로 설명되는 현상들: 입자 충돌기부터 우주 진화까지 모두 다루기 어려운 우도(likelihood)를 가짐

Essence

![Figure 1](figures/fig1.webp) *다양한 길이 척도에서 시뮬레이션으로 설명되는 현상들: 입자 충돌기부터 우주 진화까지 모두 다루기 어려운 우도(likelihood)를 가짐* 본 논문은 복잡한 시뮬레이션으로부터 직접 추론(inference)을 수행하는 **시뮬레이션 기반 추론(simulation-based inference, SBI)**의 급속한 발전을 종합적으로 검토한다. 기계학습, 능동학습, 시뮬레이터 내부 구조 활용이라는 세 가지 주요 동력이 이 분야에 새로운 모멘텀을 부여하고 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

이 논문은 과학적 시뮬레이션의 추론 문제라는 보편적이면서도 심각한 난제에 대해, 기계학습의 최신 발전을 활용한 종합적 해결책을 제시하는 중요한 리뷰로서, 여러 과학 분야에 혁신적 영향을 미칠 수 있는 높은 가치의 논문이다.

#513 2024 4/5

A sober look at llms for material discovery: Are they actually good for bayesian optimization over molecules? arXiv preprint arXiv:2402.05015, 2024.

저자: Agustinus Kristiadi, Felix Strieth‐Kalthoff, Marta Skreta, Pascal Poupart, Alán Aspuru‐Guzik, Geoff Pleiss | 날짜: 2024

Essence

![Figure 2](figures/fig2.webp) *Figure 2. The surrogates we consider in this work. “PEFT” refers to parameter efficient finetuning which adds a (proport* 본 논문은 대규모 언어모델(LLM)이 분자 공간에서의 베이지안 최적화(BO)에 실제로 유용한지를 엄밀하게 평가하며, 베이지안 서로게이트 모델을 통해 원칙적인 불확실성 정량화를 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 분자 최적화에 대한 과장된 주장을 비판적으로 검토하면서 원칙적인 베이지안 프레임워크를 제시하는 매우 중요한 기여를 한다. 광범위한 실험과 실용적 라이브러리 제공으로 과학 발견의 자동화 분야에 높은 영향을 미칠 것으로 예상된다.

#514 2023.03 4/5

Simulations in the era of exascale computing

저자: Choongseok Chang, Volker L. Deringer, Kalpana S. Katti, Veronique Van Speybroeck, Christopher M. Wolverton | 날짜: 2023.03 | DOI: 10.1038/s41578-023-00540-6

Essence

엑사스케일(exascale) 슈퍼컴퓨터의 등장으로 계산 재료과학(computational materials science) 분야에서 획기적인 발전이 가능해지고 있으며, 다양한 분야의 연구자들이 이 기술을 활용하여 새로운 시뮬레이션 가능성과 직면한 도전과제를 공유하는 관점 논문이다.

Evaluation

Overall: 4

본 Viewpoint는 엑사스케일 컴퓨팅이 계산 과학 전반에 가져올 변혁적 기회를 다학제적 관점에서 균형 있게 제시하며, 기술 발전뿐 아니라 알고리즘 혁신, 검증 체계, 오픈 사이언스 문화의 중요성을 강조하는 전략적 문서로서의 가치가 높다.

AI Hypothesis Generation 9 ▶

#515 2025 4/5

From Reasoning to Learning: A Survey on Hypothesis Discovery and Rule Learning with Large Language Models

저자: Kaiyu He, Zhiyu Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2505.21935

Essence

![Figure 1](figures/fig1.webp) *Figure 1: LLM 기반 가설 발견의 분류 체계* 본 논문은 대규모 언어모델(LLM)이 단순한 정보 실행자에서 새로운 지식을 발견하는 혁신 엔진으로 진화할 수 있는지를 Peirce의 철학적 프레임워크(귀납법, 연역법, 귀추법)를 통해 체계적으로 분석한 종합 설문(survey)이다. LLM을 활용한 가설 발견과 규칙 학습의 전체 사이클을 이론적으로 정립하고 실증적으로 검토한 첫 시도이다.

Evaluation

Overall: 4

본 설문은 LLM 기반 가설 발견 분야의 첫 체계적 종합 분석으로서, 철학적 엄밀성과 현실적 적용 가능성을 모두 갖춘 고급 논문이다. 다만 벤치마크의 폐쇄형 문제 편향, 실제 과학 데이터에서의 검증 부재, 신성도(novelty) 정량화 방법의 미성숙은 향후 개선이 필요한 핵심 과제이다. AI 커뮤니티에서 가설 발견과 자동 과학 연구의 새로운 연구 방향을 제시하는 기준점이 될 가능성이 높다.

#516 2021 4/5

Nobel Turing Challenge: creating the engine for scientific discovery

저자: H. Kitano | 날짜: 2021 | DOI: 10.1038/s41540-021-00189-3

Essence

과학 발견의 과정을 자동화하고 가속화하기 위한 AI 시스템(AI Scientist)을 개발하는 것을 목표로 하는 거대한 도전(Grand Challenge)을 제시한다. 이는 노벨상 수준의 발견을 자율적으로 수행할 수 있는 AI를 2050년까지 구현하려는 야심찬 비전이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 5 Clarity: 4 Overall: 4

이 관점논문(perspective)은 과학적 발견의 자동화라는 거대하고 도전적인 문제를 명확한 비전과 구체적인 목표로 제시함으로써 AI 연구 커뮤니티에 새로운 방향을 제공하는 중요한 기여를 한다. 특히 가치 중심에서 탐색 중심으로의 패러다임 전환과 "Science of Science"라는 개념은 매우 혁신적이다. 다만 철학적 기초의 구체화, 기술적 실현 경로의 상세 제시, 그리고 사회적·윤리적 함의에 대한 깊이 있는 논의가 향후 필요하며, 실제 구현 과정에서 무편향 탐색의 실제 효과성이 검증되어야 한다는 한계가 있다.

#517 2025.09 4/5

Artificial Intelligence in Research and Development

저자: Benjamin F. Jones | 날짜: 2025.09 | DOI: 미기재

AI의 지능 향상이 진행 속도에 미치는 영향을 보여주는 핵심 도표

Essence

본 논문은 인공지능(AI)이 연구개발(R&D)의 아이디어 생산함수(ideas production function)에 미치는 영향을 평가하기 위한 이론적 프레임워크를 제시한다. 기계(AI 포함)와 인간을 R&D의 이질적 입력요소로 모델링하여, AI의 발전이 연구 진행 속도를 어느 정도 가속화할 수 있는지를 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 AI가 연구 진행 속도를 "얼마나" 가속화할 수 있는지를 규명하기 위한 핵심 이론적 틀을 제시하며, 기계 자동화 범위, 기계 생산성, 작업 간 병목의 세 가지 파라미터가 결과를 결정함을 명확히 한다. 다만 이들 파라미터의 실증적 측정과 구체 분야별 적용 사례가 추가될 경우 정책 영향력이 크게 증대될 것으로 예상된다.

#518 2026.02 4/5

Criteria-first, semantics-later: reproducible structure discovery in image-based sciences

저자: Jan Bumberger | 날짜: 2026.02 | DOI: 미제공

Figure 1: The inversion. 상단: 도메인 특정 레이블 세트가 모델 훈련을 결정하는 의미론-우선(semantics-first) 파이프라인. 하단: 명시적 최적화 기준으로 재현 가능한 의미론-무관(semantics-free) 구조적 산물을 도출하는 기준-우선(criteria-first) 파이프라인

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The inversion. 상단: 도메인 특정 레이블 세트가 모델 훈련을 결정하는 의미론-우선(semantics-first) 파이프라인. 하단: 명시적 최적화 기준으로 재현 가능한 의미론-무관(semantics-free) 구조적 산물을 도출하는 기준-우선(criteria-first) 파이프라인* 본 논문은 이미지 기반 과학에서 지배적인 "의미론-우선" 분석 패러다임을 "기준-우선, 의미론-후순위" 패러다임으로 전환할 것을 제안한다. 구조 추출을 도메인 온톨로지로부터 독립적인 명시적 최적화 기준에 기반하여 먼저 수행하고, 의미론적 해석은 다운스트림에서 별도로 적용함으로써 장기 모니터링, 크로스-센서 비교, 개방형 발견을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 3 Overall: 4

본 논문은 이미지 기반 과학의 지배적 "의미론-우선" 패러다임의 근본적 한계를 사이버네틱스·정보이론·과학철학의 견고한 이론적 토대 위에서 비판하고, 명시적 최적화 기준으로 정의되는 "기준-우선, 의미론-후순위" 프레임워크를 강력하게 제안한다. 개념적 기여와 이론적 깊이는 뛰어나나, 구체적 알고리즘 개발과 다양한 도메인에서의 실증적 검증 사례 축적이 추후 필수적이다. 디지털 트윈, 장기 모니터링, 온톨로지 드리프트 극복이라는 절박한 과학적 요구와 정확히 맞아떨어지는 문제 설정으로 인해, 후속 구현 연구가 충분히 이루어진다면 이미지 과학 전반의 패러다임 전환을 견인할 수 있는 중요한 선언 논문이다.

#519 2023.03 4/5

AI for Science: An Emerging Agenda

저자: Philipp Berens, Kyle Cranmer, Neil D. Lawrence, Ulrike von Luxburg, Jessica Montgomery | 날짜: 2023.03

Essence

현대 과학의 복잡한 도전과제들을 해결하기 위해 AI와 도메인 전문성을 통합하는 새로운 연구 의제를 제시하는 보고서다. 이 문서는 데이터 기반 모델링과 메커니즘 기반 모델링의 격차를 연결하기 위한 협력 프레임워크를 제안한다.

Evaluation

Overall: 4

이 보고서는 AI와 과학의 통합을 "기술 이전" 차원에서 벗어나 상호 영감을 주는 "지식 생태계" 구축으로 재정의한 중요한 문서다. 학제 간 협력을 위한 포괄적 로드맵을 제시하며, 특히 시뮬레이션, 인과성, 도메인 지식 인코딩이라는 세 가지 핵심 주제는 향후 AI 과학 연구의 방향을 제시한다. 다만 고수준의 원칙 제시에 그쳐 실제 도메인별 구현 가이드와 기술적 세부사항이 상대적으로 미흡한 점은 보완이 필요하다.

#520 2025 4/5

Sparks of science: Hypothesis generation using structured paper data

저자: C. O'Neill, Tirthankar Ghosal, R. Raileanu, Mike Walmsley, Thang Bui, Kevin Schawinski, Ioana Ciuca | 날짜: 2025 | DOI: 미공개

Essence

![Figure 1](figures/fig1.webp) *HypoGen 파이프라인: 논문 초록에서 Bit-Flip-Spark 구조와 Chain-of-Reasoning을 추출하여 모델 파인튜닝에 사용* 본 논문은 과학적 가설 생성(Scientific Hypothesis Generation, SHG)을 조건부 언어 모델링(conditional language modeling) 문제로 프레임화하기 위해 약 5,500개의 구조화된 문제-가설 쌍으로 구성된 HypoGen 데이터셋을 소개한다. Bit(기존 가정)-Spark(핵심 통찰)-Flip(혁신적 제안) 스키마에 명시적 추론 체인을 결합하여 생성된 가설의 신성(novelty)과 타당성(feasibility)을 향상시킨다.

Evaluation

Overall: 4

본 논문은 과학적 가설 생성 문제를 체계적으로 접근하기 위해 첫 대규모 구조화 데이터셋을 제시하고, Chain-of-Reasoning을 명시적으로 통합한 점에서 높은 창의성을 보인다. 다만 평가 방법론의 엄밀성 강화, 다분야 확장, 실제 과학자 검증을 통한 검증이 완성도를 위해 필요하다.

#521 2024 4/5

Supporting assessment of novelty of design problems using concept of problem sapphire

저자: Sanjay Singh, Amaresh Chakrabarti | 날짜: 2024

SAPPhIRE 인과관계 모델

Essence

![Fig. 2](figures/fig2.webp) *설계 문제의 신규성 평가를 위한 프레임워크* 본 논문은 SAPPhIRE 인과관계 모델을 활용하여 설계 문제(design problem)의 신규성(novelty)을 정량적으로 평가하는 프레임워크를 제안한다. 현재 문제와 과거 문제 데이터베이스 간의 텍스트 유사성을 SAPPhIRE의 다양한 추상화 수준에서 비교하여 신규성을 측정한다.

Evaluation

Overall: 4

이 연구는 설계 과정에서 간과되어온 문제 신규성 평가에 처음 도전하는 가치 있는 시도로, SAPPhIRE 모델의 창의적 응용과 자동화 시스템을 제시하였다. 그러나 단일 제품 사례에 국한된 검증, 자동화 알고리즘의 정확성 미검증, 그리고 불완전한 논문 구성이 영향력을 제한한다. 후속 연구에서 다양한 도메인의 대규모 검증과 실제 산업 적용 사례를 통해 실용성을 입증할 필요가 있다.

#522 2021.09 3/5

Architecture Design for Human-Driven Systems

저자: Mahyar T. Moghaddam, Moamin B. Abughazala, Vittorio Cortellessa, Antinisca Di Marco, Henry Muccini, Fabrizio Rossi, Karthik Vaidhyanathan | 날짜: 2021.09

Essence

본 논문은 인간의 사회적·이동 행동을 IoT 아키텍처 설계에 통합하여 소시오-테크니컬 시스템의 지속가능성을 향상시키는 인간 중심 아키텍처 설계 방법론을 제시한다. 에이전트 기반 사회 시뮬레이션(ABSS)과 모델 주도 공학(MDE) 접근법을 결합하여 QoS(Quality of Service)와 QoE(Quality of Experience)의 균형을 맞추는 최적 아키텍처 구성을 도출한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 3 Clarity: 3 Overall: 3

인간 행동을 IoT 아키텍처 설계에 통합한다는 혁신적 아이디어와 체계적인 방법론을 제시했으나, 단일 사례 연구와 제한된 검증, 도구 부재로 인한 실용성 미흡이 주요 약점이다. 이 작업은 소시오-테크니컬 시스템 설계 분야에 중요한 기여를 하지만, 추가 사례 적용과 도구화를 통해 보완이 필요하다.

#523 2025.10 3/5

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

저자: Jiaqi Wei, Yuejin Yang, Xiang Zhang, Yuhan Chen, Xiang Zhuang, Zhangyang Gao, Dongzhan Zhou, Guangshuai Wang, Zhiqiang Gao, Juntai Cao, Zijie Qiu, Ming Hu, Chenglong Ma, Shixiang Tang, Junjun He, Chunfeng Song, Xuming He, Qiang Zhang, Chenyu You, Shuangjia Zheng, Ning Ding, Wanli Ouyang, Nanqing Dong, Yu Cheng, Siqi Sun, Lei Bai, Bowen Zhou | 날짜: 2025.10 | DOI: 10.48550/arXiv.2508.14111

Essence

![Figure 1: AI for Science의 진화 단계](https://arxiv.org/html/2508.14111v2/x1.png) *그림 1: 계산 도구에서 창의적 협력자까지 – AI의 4단계 여정. 에이전틱 사이언스는 AI for Science 내의 한 단계로, 주로 3단계(완전 에이전틱 발견)와 2단계(부분 에이전틱 발견)에 대응* 본 논문은 AI가 전문화된 계산 도구에서 자율적 과학 연구 파트너로 진화하는 과정을 체계화하며, **에이전틱 사이언스(Agentic Science)**를 AI for Science의 핵심 패러다임으로 위치지었다. 대규모 언어 모델(LLM)과 멀티모달 시스템을 통해 가설 생성, 실험 설계, 데이터 분석, 반복적 개선 등 과학적 발견의 전체 사이클을 자동화하는 AI 에이전트의 등장을 다룬다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 3 Clarity: 3 Overall: 3

Reward-guided Diffusion Models 5 ▶

#524 2025 4/5

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design

저자: Xingyu Su, Xiner Li, Masatoshi Uehara, Sunwoo Kim, Yulai Zhao | 날짜: 2025 | DOI: 10.48550/arXiv.2507.00445

그림 1: VIDD의 개요. 오프정책 롤인, 값함수 기반 보상가중 롤아웃, 정방향 KL 기반 모델 업데이트를 반복적으로 수행

Essence

생물분자 설계에서 미분불가능한 보상함수(reward function)를 최적화하기 위해 확산모델(diffusion model)을 안정적으로 미세조정하는 새로운 프레임워크 VIDD(Value-guided Iterative Distillation for Diffusion models)를 제안한다. 기존 강화학습 기반 방법들의 불안정성과 모드 붕괴 문제를 오프정책(off-policy) 학습과 정방향 KL 발산(forward KL divergence) 최소화를 통해 해결한다.

Evaluation

Overall: 4

이 논문은 생물분자 설계에서 미분불가능한 보상 최적화라는 실질적 도전 과제를 오프정책 학습과 정방향 KL 기반 정책 증류로 우아하게 해결한 강력한 기여다. 단백질·분자 설계 분야에서의 광범위한 실증과 기존 방법 대비 안정성 및 샘플 효율 개선이 논문의 가치를 높인다. 다만 이론적 분석과 대규모 문제에 대한 확장성 검증이 보강되면 더욱 우수한 논문이 될 수 있다.

#525 2024 4/5

Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding

저자: Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gökçen Eraslan | 날짜: 2024 | DOI: 10.48550/arXiv.2408.08252

Essence

본 논문은 사전학습된 확산 모델(diffusion model)에서 미분 불가능한 보상 함수를 최적화하면서도 자연스러운 샘플을 생성하는 새로운 추론 시간 기법 SVDD(Soft Value-based Decoding in Diffusion models)를 제안한다. 이 방법은 모델 미세조정 없이 연속 및 이산 확산 모델에 모두 적용 가능하며, 분자 생성 및 DNA/RNA 생성 등 생물정보학적 응용에 특히 유용하다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 미분-무료 가이던스라는 실용적이고 새로운 관점으로 확산 모델의 보상 최적화 문제를 해결하며, 특히 비미분 피드백을 활용해야 하는 생물정보학 응용에 큰 기여할 수 있다. 다만 계산 효율성과 이산 공간에서의 확장성 면에서 추가 개선이 필요하고, SVDD-PM의 가정이 실제 환경에서 얼마나 타당한지에 대한 더 깊은 분석이 요구된다.

#526 2025 4/5

Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design

저자: Masatoshi Uehara, Xingyu Su, Yulai Zhao, Xiner Li, Aviv Regev | 날짜: 2025 | DOI: 10.48550/arXiv.2502.14944

Essence

![Figure 1](figures/fig1.webp) *그림 1: 제안된 프레임워크는 반복적 과정을 따르며, 각 반복에서 샘플에 노이즈를 주입한 후 보상을 최적화하면서 디노이징하는 과정* 본 논문은 확산 모델(Diffusion Models)에서 테스트 타임 보상 최적화를 위한 반복적 개선 프레임워크를 제안한다. 기존의 단일 샷(single-shot) 방식과 달리, 부분 노이징과 보상 유도 디노이징의 두 단계를 반복하여 점진적으로 설계(design)를 개선할 수 있다.

Evaluation

Overall: 4

확산 모델의 테스트 타임 최적화에 혁신적인 반복 개선 접근을 제시하고, 특히 마스크 확산의 토큰 고정 문제 해결과 하드 제약조건 처리는 실질적 기여다. 단백질/DNA 설계에서 일관된 성능 향상을 보이나, 계산 효율성 분석 부재와 실제 생물학적 검증 부족이 한계. 학술적 우수성은 높으나 실무 적용을 위해서는 효율화와 검증이 필요하다.

#527 2025 4/5

Dynamic Search for Inference-Time Alignment in Diffusion Models

저자: Xiner Li, Masatoshi Uehara, Xingyu Su, Gabriele Scalia, Tommaso Biancalani | 날짜: 2025 | DOI: 10.48550/arXiv.2503.02039

Essence

확산 모델(diffusion models)의 추론 시간 정렬(inference-time alignment) 문제를 트리 탐색 문제로 재정의하고, 동적 빔 폭 조정을 통해 비미분 보상 함수(non-differentiable reward functions)에 대한 효율적인 최적화를 달성하는 새로운 방법을 제시한다.

Evaluation

Overall: 4

DSearch는 확산 모델의 추론 시간 정렬 문제를 체계적인 탐색으로 재해석한 실용적이고 견고한 방법론으로, 특히 비미분 보상 함수가 많은 과학 분야에서 높은 적용 가치를 가진다. 다만 동적 조정 메커니즘의 이론적 정당화와 최적성 분석이 보강되면 더욱 강력한 기여가 될 수 있을 것으로 판단된다.

#528 2025 4/5

Dlpo: Towards a robust, efficient, and generalizable prompt optimization framework from a deep-learning perspective

저자: Dengyun Peng, Yuhang Zhou, Qiguang Chen, JinHao Liu, Jingjing Chen, Libo Qin, Wanxiang Che | 날짜: 2025 | DOI: 미제공

그림 1: 반사 기반 프롬프트 최적화 방법과 DLPO의 비교 - 견고성, 효율성, 일반화 능력 개선

Essence

![Figure 1](figures/fig1.webp) *그림 1: 반사 기반 프롬프트 최적화 방법과 DLPO의 비교 - 견고성, 효율성, 일반화 능력 개선* 대규모 언어 모델(LLM)의 프롬프트 최적화에서 기존 반사(reflection) 기반 방법의 불안정성, 낮은 수렴 속도, 제한된 일반화 능력을 해결하기 위해 전통 딥러닝 기법에서 영감을 얻은 7가지 텍스트 기반 그래디언트 최적화 전략을 제시한다. 이를 통해 프롬프트 최적화의 견고성(robustness), 효율성(efficiency), 일반화 능력(generalizability)을 동시에 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 프롬프트 최적화의 근본적인 문제들(견고성, 효율성, 일반화)을 체계적으로 진단하고 딥러닝 패러다임에서 영감을 얻은 일관성 있는 해결책을 제시한 점에서 높이 평가할 만하다. 다만 제한된 작업 유형, 불충분한 ablation study, 계산 오버헤드 분석 부재 등으로 인해 완전한 5점 평가에는 미치지 못한다. LLM 기반 자동 최적화 분야에 실질적인 기여를 하는 의미 있는 작업이다.

Protein Drug Design 7 ▶

#529 2022 4/5

Robust deep learning based protein sequence design using ProteinMPNN

저자: J. Dauparas, I. Anishchenko, N. Bennett, H. Bai, R. Ragotte | 날짜: 2022 | DOI: 10.1126/science.add2187

Essence

![Figure 1](figures/fig1.webp) *ProteinMPNN 아키텍처: 메시지 패싱 신경망(MPNN) 기반의 순서-비의존적 자가회귀 모델로, 다중 체인 및 대칭성을 고려한 위치 결합 설계 가능* **깊은 신경망 기반 단백질 서열 설계 방법 ProteinMPNN을 개발하여, 기존의 물리 기반 방법(Rosetta)보다 우수한 성능을 보이며 다양한 단백질 설계 문제에 광범위하게 적용 가능함을 입증했다.**

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

ProteinMPNN은 깊은 학습 기반 단백질 설계에서 기존 물리 기반 방법의 한계를 혁신적으로 극복한 작업으로, 순서-비의존적 자가회귀와 견고성 중심의 학습 철학이 핵심이며, 모노머부터 올리머, 나노입자까지 광범위한 실용적 적용 가능성을 갖춘 분야 선도적 연구다.

#530 2024.11 4/5

An automatic end-to-end chemical synthesis development platform powered by large language models

저자: Yixiang Ruan, Chenyin Lu, Ning Xu, Yuchen He, Yixin Chen, Jian Zhang, Jun Xuan, Jianzhang Pan, Qun Fang, Hanyu Gao, Xiaodong Shen, Ning Ye, Qiang Zhang, Yiming Mo | 날짜: 2024.11 | DOI: 10.1038/s41467-024-54457-x

문헌 검색부터 정제까지 전 과정을 포괄하는 LLM 기반 다중 에이전트 시스템 및 자연언어 기반 웹 인터페이스

Essence

본 논문은 GPT-4 기반의 대규모 언어모델(LLM)을 활용한 통합 화학합성 개발 프레임워크(LLM-RDF)를 제시하여, 문헌 검색부터 반응 최적화, 규모 확대, 정제까지 전 과정을 자동화하는 엔드-투-엔드 플랫폼을 구현했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM의 다목적성을 활용한 화학합성 자동화의 새로운 패러다임을 제시하는 고도로 창의적인 연구로, 자연언어 기반 인터페이스와 통합 프레임워크 구축이라는 실질적 기여가 우수하나, 완전 자율화 미달성, 특정 모델 의존성, 제한된 화학적 범위 등의 한계가 있다. Nature Communications 수준의 학제 간 영향력 있는 공헌이다.

#531 2023.12 4/5

Autonomous chemical research with large language models

저자: Daniil A. Boiko, Robert MacKnight, Ben Kline, Gabe Gomes | 날짜: 2023.12 | DOI: 10.1038/s41586-023-06792-0

Coscientist의 시스템 아키텍처. 플래너 모듈이 중심이 되어 웹 검색, 파이썬 코드 실행, 문서 검색, 실험 자동화 모듈들을 조율한다.

Essence

![Figure 1](figures/fig1.webp) *Coscientist의 시스템 아키텍처. 플래너 모듈이 중심이 되어 웹 검색, 파이썬 코드 실행, 문서 검색, 실험 자동화 모듈들을 조율한다.* GPT-4 기반의 다중 대형 언어 모델(LLM) 에이전트인 Coscientist는 웹 검색, 코드 실행, 실험 자동화를 통합하여 복잡한 화학 실험을 자율적으로 설계·계획·수행할 수 있는 시스템이다. 팔라듐 촉매 교차 결합 반응 최적화를 포함한 6가지 다양한 작업에서 자동화 실험 설계의 실행 가능성을 입증했다.

Evaluation

Overall: 4

이 논문은 대형 언어 모델을 실제 화학 실험 자동화와 결합한 획기적인 사례를 제시하며, 특히 웹 검색을 통한 Hallucination 방지와 문서 검색을 통한 API 활용이 인상적이다. 다만 대규모 자동화 실험의 신뢰성, 오류 처리 능력, 그리고 현재 시스템의 한계(복잡한 다단계 합성, 주관적 평가)에 대한 더 깊은 분석이 필요하다.

#532 2024 4/5

ProtAgents: protein discovery via large language model multi-agent collaborations combining physics and machine learning

저자: Alireza Ghafarollahi, Markus J. Buehler | 날짜: 2024 | DOI: 10.1039/d4dd00013g

Figure 1: 단백질 발견 및 분석을 위한 다중 에이전트 AI 프레임워크. 각 에이전트는 프로필로 정의된 초점과 맞춤 함수에 접근 가능하며, 그룹 채팅 관리자를 통해 동적으로 협력한다.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 단백질 발견 및 분석을 위한 다중 에이전트 AI 프레임워크. 각 에이전트는 프로필로 정의된 초점과 맞춤 함수에 접근 가능하며, 그룹 채팅 관리자를 통해 동적으로 협력한다.* 본 논문은 대규모 언어모델(LLM, Large Language Model) 기반의 다중 에이전트 협업 시스템인 ProtAgents를 제안하여, 물리 기반 시뮬레이션과 머신러닝을 통합함으로써 de novo 단백질 설계 및 분석을 자동화한다. 각 에이전트는 특정 도메인 전문성을 가지고 동적으로 상호작용하면서 복잡한 단백질 설계 문제를 해결한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 다중 에이전트 시스템을 단백질 설계에 창의적으로 응용하여, 물리 기반 도구와 머신러닝을 동적으로 통합하는 새로운 패러다임을 제시한다. 자동화된 협력 메커니즘과 다양한 도메인 지식의 통합이 강점이나, LLM의 물리적 근거 부족과 계산 효율성 개선이 향후 과제로 남아 있다. 재료 설계와 AI의 융합 연구에 중요한 기여를 할 수 있는 잠재력 있는 작업이다.

#533 2024.05 4/5

Augmenting large language models with chemistry tools

저자: Andres M. Bran, Sam Cox, Oliver Schilter, Carlo Baldassari, Andrew D. White, Philippe Schwaller | 날짜: 2024.05 | DOI: 10.1038/s42256-024-00832-8

Fig. 1 | 개요 및 도구 집합. (a) 작업 해결 과정의 개요 및 DEET 합성 예시, (b) 구현된 18개의 화학 도구 (반응, 분자, 안전, 검색, 표준 도구)

Essence

ChemCrow는 GPT-4에 18개의 화학 전문가 도구를 통합하여 합성 계획, 약물 발견, 재료 설계 등 다양한 화학 작업을 자동으로 수행할 수 있는 LLM 화학 에이전트이다. 이 시스템은 곤충 기피제와 유기촉매 합성을 자율적으로 실행하고 새로운 색소체 발견을 주도하여, 계산 화학과 실험 화학 사이의 격차를 효과적으로 연결한다.

Evaluation

Overall: 4

ChemCrow는 LLM을 화학 도구와 체계적으로 통합하여 자율적 합성 실행과 신약 발견을 실현한 획기적인 작업으로, 화학 자동화 분야에 명확한 진전을 보여준다. 다만 평가 방법론의 표준화와 다양한 화학 도메인으로의 확장성 검증이 향후 과제이다.

#534 2025 4/5

Accelerating drug discovery with artificial: a whole-lab orchestration and scheduling system for self-driving labs

저자: Yao Fehlis, Paul Mandel, Charles Crain, Betty Liu, David Fuller (Artificial Inc.) | 날짜: 2025 | DOI: arXiv:2504.00986

Essence

![Figure 1](figures/fig1.webp) *Artificial 플랫폼의 모듈식 및 확장 가능한 아키텍처* 자동화된 AI 기반 실험(self-driving labs)에서 복잡한 워크플로우를 조정하고, 다양한 기기와 AI 모델을 통합하며, 데이터를 효율적으로 관리하는 통합 플랫폼인 Artificial을 제시한다. NVIDIA BioNeMo 같은 AI/ML 모델을 통해 분자 상호작용 예측 및 생물분자 분석을 가능하게 함으로써 신약 개발을 가속화한다.

Evaluation

Overall: 4

자동 신약 개발 실험실의 오케스트레이션과 AI 통합이라는 중요한 문제를 해결하기 위한 실용적이고 포괄적인 플랫폼을 제시한 논문으로, 아키텍처와 설계 개념은 혁신적이나 실제 환경(습식 실험실)에서의 검증과 AI 모델 신뢰도 평가, 대규모 배포 성능 평가 등이 더 보완되어야 하는 초기 단계의 성숙한 산업 솔루션 논문이다.

#535 2025 3/5

PRIME: A Multi-Agent Environment for Orchestrating Dynamic Computational Workflows in Protein Engineerings

저자: Yuyang Zhou, Jin Su, Jiawei Zhang, Wan-Lin Hu, Tianli Tao | 날짜: 2025 | DOI: 10.1101/2025.09.22.677756

PRIME 프레임워크 개요: (a) 6개 주제에 걸친 65개 도구와 512개의 데이터 전달 경로, (b) Parse-Plan-Execute 3단계 다중 에이전트 아키텍처, (c) 적응형 재계획 전략, (d) 원자적 도구로부터의 유연한 워크플로우 조합, (e) 협력 생태계, (f) AI 주도 모델 훈련

Essence

단백질 공학의 복잡한 계산 워크플로우를 자동으로 조율하는 다중 에이전트 시스템(PRIME)을 개발했으며, 65개의 검증된 단백질 공학 도구를 동적으로 통합하여 213개의 다단계 작업에서 기존 AI 에이전트를 능가하는 성능을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 3 Clarity: 3 Overall: 3

Multimodal Physics Reasoning 13 ▶

#536 2023.07 4/5

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

저자: Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang | 날짜: 2023.07

Figure 1: Physical Chemistry 문제의 두 가지 프롬프팅 전략에 따른 GPT-4의 해결 시도. CoT 프롬프팅에서는 공식은 맞지만 계산 오류가 발생하고, Python 외부 도구 사용 시에는 수학적 관계 오해로 인한 오류 발생

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Physical Chemistry 문제의 두 가지 프롬프팅 전략에 따른 GPT-4의 해결 시도. CoT 프롬프팅에서는 공식은 맞지만 계산 오류가 발생하고, Python 외부 도구 사용 시에는 수학적 관계 오해로 인한 오류 발생* 본 논문은 대학 수준의 과학 문제 해결 능력을 평가하기 위한 포괄적 벤치마크인 SciBench를 제시한다. 기존 벤치마크의 고등학교 수준 문제 중심 한계를 극복하기 위해 869개의 대학 수준 수학, 화학, 물리 문제와 177개의 멀티모달 문제를 포함한 데이터셋을 구축했다.

Evaluation

Overall: 4

SciBench는 LLM의 과학적 추론 능력을 평가하기 위한 매우 중요한 벤치마크로, 기존 고등학교 수준의 단순 산술 중심 평가를 넘어 대학 수준의 복합 과학 문제로 확장했다는 점에서 큰 의의가 있다. 특히 10가지 세분화된 문제 해결 능력 분류와 프롬프팅 전략의 trade-off 분석은 향후 LLM 개선의 명확한 방향을 제시한다. 멀티모달 평가의 포함, 폐쇄 데이터셋을 통한 평가 무결성 보장, 다양한 LLM에 대한 포괄적 벤치마킹은 충분히 견고한 기초를 마련했다. 다만 자동 채점의 한계와 도메인별 세부 분석의 부족은 향후 개선 과제이며, 부분 점수 체계의 도입이나 논리적 타당성 평가 프레임워크의 개발이 필요하다. 전반적으로 과학 AI 분야의 발전에 중요한 표준이 될 수 있는 견고하고 영향력 있는 연구이다.

#537 2025 4/5

Biodsa-1k: Benchmarking data science agents for biomedical research

저자: Zifeng Wang, Benjamin P. Danek, Jimeng Sun | 날짜: 2025 | DOI: arXiv:2505.16100

BIODSA-1K의 벤치마크 통계: 329개 논문에서 추출된 다양한 생의학 연구 유형과 데이터 분석 과제들, 데이터 테이블의 행과 열의 범위를 보여주는 버블 플롯

Essence

![Figure 1](figures/fig1.webp) *BIODSA-1K의 벤치마크 통계: 329개 논문에서 추출된 다양한 생의학 연구 유형과 데이터 분석 과제들, 데이터 테이블의 행과 열의 범위를 보여주는 버블 플롯* 본 논문은 생의학 연구에서 AI 에이전트의 가설 검증 능력을 평가하기 위해 1,029개의 가설 중심 과제와 1,177개의 분석 계획으로 구성된 BIODSA-1K 벤치마크를 제시한다. 329개 출판 논문에서 추출된 이 벤치마크는 실제 연구 워크플로우를 반영하며, 검증 불가능한 가설 사례를 포함하여 현실적인 데이터 과학 시나리오를 평가한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

BIODSA-1K는 기존 생의학 AI 벤치마크의 규모, 복잡성, 현실성을 획기적으로 확대하며, 특히 검증 불가능 가설 포함과 근거-결론 정렬 평가는 AI 신뢰성 평가의 새로운 기준을 제시한다. 다만 자동 추출 과정의 오류 관리와 도메인 특화 기술 평가 보완이 필요하다.

저자: Lin Yang, Shawn Xu, Andrew Sellergren, Timo Kohlberger, Yuchen Zhou, Sofia Ira Ktena, Atilla P. Kiraly, Faruk Ahmed, Farhad Hormozdiari, Tiam Jaroensri, E.-W. Wang, Ellery Wulczyn, F Guimaraes Silvio Jamil, Theo Guidroz, Chuck Lau, Siyuan Qiao, Yun Liu, Akshay Goel, Kendall Park, Arnav Agharwal | 날짜: 2024 | DOI: arXiv:2405.03162v1

Essence

![Figure 1](figures/fig1.webp) *Med-Gemini 모델군의 구성과 다양한 의료 작업에서의 성능 개요* Gemini의 멀티모달 역량을 의료 영역에 특화시킨 Med-Gemini 모델 패밀리를 개발하여, 흉부 X선(CXR) 보고서 생성, 3D CT 해석, 의료 영상 분류, 유전체 위험도 예측 등 다양한 임상 작업에서 기존 최고 성능을 초과하거나 경쟁력 있는 결과를 달성했다.

Evaluation

Overall: 4

Med-Gemini는 대규모 멀티모달 기초 모델의 의료 특화에 있어 종합적이고 체계적인 접근을 보여주며, 특히 CXR 보고서 생성과 다양한 의료 영상 분류 작업에서 임상적으로 의미 있는 성과를 달성했다. 3D CT 해석과 유전체 위험도 예측 통합은 의료 AI의 범위를 확장하는 중요한 시도이나, 임상 배포 검증 부재와 3D 성능 격차는 실제 임상 영향 평가의 한계로 남는다.

#543 2023 4/5

Can gpt-4v (ision) serve medical applications? case studies on gpt-4v for multimodal medical diagnosis

저자: Chaoyi Wu, Jiayu Lei, Qiaoyu Zheng, Weike Zhao, Weixiong Lin, Xiaoman Zhang, Xiao Zhou, Ziheng Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie | 날짜: 2023 | DOI: arXiv:2310.09909

의료 시스템 17개와 영상 모달리티 8개를 포괄하는 평가 프레임워크

Essence

![Figure 1](figures/fig1.webp) *의료 시스템 17개와 영상 모달리티 8개를 포괄하는 평가 프레임워크* 본 논문은 OpenAI의 GPT-4V(ision) 모델이 의료 영상 진단 작업에서 실제로 임상 적용 가능한지를 체계적으로 평가한 연구이다. 17개 신체 시스템과 8개 영상 모달리티를 포함한 광범위한 사례 연구를 통해 GPT-4V의 의료 진단 능력과 한계를 명확히 규명했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 급속히 발전하는 생성형 AI의 의료 적용 가능성에 대한 현실적이고 체계적인 평가를 제공함으로써 과도한 기대감을 조절하고 진정한 의료 AI의 발전 방향을 제시하는 중요한 기여를 한다. 특히 광범위한 의료 도메인 커버리지와 다양한 임상 작업 평가는 높이 평가되지만, 대규모 정량적 메트릭 부재와 평가 사례 수의 제한은 향후 개선이 필요한 부분이다.

#544 2024 4/5

ChemToolAgent: The Impact of Tools on Language Agents for Chemistry Problem Solving

저자: Botao Yu, Frazier N. Baker, Ziru Chen, Garrett Herb, Boyu Gou | 날짜: 2024

ChemToolAgent 프레임워크: ReAct 패러다임을 따르는 세 단계 반복 과정 (Thought, Action, Observation)

Essence

![Figure 1](figures/fig1.webp) *ChemToolAgent 프레임워크: ReAct 패러다임을 따르는 세 단계 반복 과정 (Thought, Action, Observation)* 대규모 언어 모델(LLM)에 화학 전문 도구를 통합한 에이전트가 모든 화학 문제 해결에서 일관되게 성능 향상을 가져오지는 않으며, 특화된 분자/반응 작업과 일반 화학 시험 문제에서 도구 활용의 효과가 크게 다르다는 것을 규명한다.

Evaluation

Overall: 4

본 논문은 화학 도메인에서 LLM 에이전트의 도구 통합 효과를 가장 포괄적으로 평가한 연구로, "도구가 항상 도움이 된다"는 기존 가정을 근거 기반으로 반박하면서 특화 작업 vs. 일반 문제의 이질성을 명확히 한다. 다만 문제의 원인 규명에 그치고 해결 방안 제시가 제한적이라는 점과, 인지 부하 가설의 정량화 부재가 아쉽다. 화학 문제 해결을 위한 LLM 에이전트 설계에 중요한 설계 원칙(task-specific tools for specialized tasks, improved reasoning for general questions)을 제시한 실용적 가치가 높다.

#545 2025 4/5

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

저자: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao | 날짜: 2025 | DOI: 미제공

그림 1: DeepResearch Bench에서의 에이전트 성능 개요. 좌측: 평가 차원별 생성된 보고서 품질 점수, 우측: 에이전트 인용 정확도 및 평균 효과적 인용 수

Essence

![Figure 1](figures/fig1.webp) *그림 1: DeepResearch Bench에서의 에이전트 성능 개요. 좌측: 평가 차원별 생성된 보고서 품질 점수, 우측: 에이전트 인용 정확도 및 평균 효과적 인용 수* 본 논문은 대규모 언어모델 기반 깊이 있는 연구 에이전트(Deep Research Agents, DRAs)를 체계적으로 평가하기 위한 최초의 종합 벤치마크 DeepResearch Bench를 제시한다. 22개 분야의 박사 수준 연구 과제 100개와 두 가지 혁신적인 평가 방법론(RACE, FACT)을 통해 DRA의 보고서 생성 품질과 정보 검색 능력을 정량적으로 평가한다.

Evaluation

Overall: 4

본 논문은 빠르게 발전하는 LLM 기반 에이전트 분야에서 Deep Research Agents를 체계적으로 평가하기 위한 첫 번째 종합 벤치마크를 제시하며, 실제 사용자 데이터 기반 설계와 인간 판단과 일치하는 평가 프레임워크를 통해 높은 실용성과 신뢰성을 확보했다. 다만 평가 방법론의 일부가 기존 기법에 의존하고, 더 광범위한 언어 및 도메인 확장이 필요한 점이 보완되어야 한다.

#546 2025 4/5

Tooling or Not Tooling? The Impact of Tools on Language Agents for Chemistry Problem Solving

저자: Botao Yu, Frazier N. Baker, Ziru Chen, Garrett Herb, Boyu Gou | 날짜: 2025 | DOI: 10.48550/arXiv.2411.07228

ChemToolAgent 프레임워크: ReAct 기반으로 Thought 생성 → Action 결정 → Observation 획득의 반복 사이클을 통해 화학 문제를 해결

Essence

![Figure 1](figures/fig1.webp) *ChemToolAgent 프레임워크: ReAct 기반으로 Thought 생성 → Action 결정 → Observation 획득의 반복 사이클을 통해 화학 문제를 해결* 본 논문은 대규모 언어 모델(LLM)에 도구를 통합한 화학 에이전트(ChemToolAgent)가 전문화된 화학 작업에서는 우수하나, 일반적인 화학 시험 문제에서는 기반 LLM을 하회한다는 놀라운 발견을 보고한다. 이는 도구 증강(tool augmentation)이 항상 성능을 개선하지 않음을 시사하며, 작업 특성에 따른 신중한 도구 적용이 필요함을 강조한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 화학 도메인에서 LLM 에이전트의 도구 증강 효과에 대한 **첫 번째 대규모 체계적 평가**를 제공하며, "도구가 항상 도움이 된다"는 통념을 깨뜨리는 **중요한 반직관적 발견**을 제시한다. 강화된 ChemToolAgent, 29개 도구, 그리고 1086개 샘플의 포괄적 벤치마크를 통해 **작업 특성별 맞춤 설계의 중요성**을 입증하였다. 다만, 인지 부하 증가의 정량적 증명과 개선 메커니즘의 제시 부족이 논문의 실질적 임팩트를 제한한다. 화학 정보학 및 AI 에이전트 설계 분야에 의미 있는 기여를 하였으나, 근본적 해결책 제시는 향후 과제로 남긴다.

#547 2024 4/5

Understanding fine-grained distortions in reports of scientific findings

저자: Amelie Wuehrl, Dustin Wright, Roman Klinger, Isabelle Augenstein | 날짜: 2024

과학 논문의 발견과 보도된 발견의 쌍 예시. 인과관계, 확실성, 일반화, 선정성의 세밀한 왜곡 레이블 표시

Essence

![Figure 1](figures/fig1.webp) *과학 논문의 발견과 보도된 발견의 쌍 예시. 인과관계, 확실성, 일반화, 선정성의 세밀한 왜곡 레이블 표시* 과학 논문의 발견이 일반 대중에게 보도될 때 발생하는 네 가지 유형의 세밀한 왜곡(인과관계, 확실성, 일반화, 선정성)을 자동으로 감지하기 위한 첫 번째 체계적 연구이다. 1,600개의 과학 발견을 쌍으로 주석 처리하고 기준 모델을 구축하여 과학 통신의 왜곡 패턴을 분석했다.

Evaluation

Overall: 4

이 연구는 과학 통신의 왜곡을 체계적으로 분석한 첫 번째 작업으로, 고품질의 주석 처리 데이터셋과 실제 데이터에서의 광범위한 분석을 제공한다. 다만 자동 감지 모델의 성능이 아직 실용적 한계를 보이므로, 후속 연구를 통한 기술적 개선과 함께 뉴스 환경에서의 왜곡 완화 메커니즘 개발이 필요하다.

#548 2025 3/5

ClinicalGPT-R1: Pushing reasoning capability of generalist disease diagnosis with large language model

저자: Wuyang Lan, Wenzheng Wang, Changwei Ji, Guoxing Yang, Yongbo Zhang, Xiaohong Liu, Song Wu, Guangyu Wang | 날짜: 2025

그림 1: 합성 데이터 생성 파이프라인

Essence

![Figure 1](figures/fig1.webp) *그림 1: 합성 데이터 생성 파이프라인* 본 논문은 실제 임상 기록을 기반으로 한 20,000개의 임상 데이터셋에서 학습하여, 질병 진단에서 추론 능력을 강화한 의료 특화 대규모 언어모델(LLM) ClinicalGPT-R1을 제시한다. 지도학습 미세조정(SFT)과 강화학습(RL)의 두 단계 학습을 통해 진단 추론 능력을 향상시키며, 중국어 진단 작업에서 GPT-4o를 능가하는 성능을 달성한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 3 Clarity: 3 Overall: 3

ClinicalGPT-R1은 일반 도메인의 추론 기법을 의료에 체계적으로 적용하고 실제 임상 기록 기반의 데이터셋을 활용한 점에서 창의적이나, 절대 성능 수치의 낮음과 평가의 제한성, 그리고 중국어 중심의 성과로 인해 일반적 임상 응용성이 아직 미흡하다. 의료 AI 분야에서 추론 강화의 중요성을 보여주는 선도적 연구이나, 실용화를 위해서는 더욱 강력한 성능 개선과 임상 타당성 검증이 필요하다.

AI Safety & Bias 7 ▶

#549 2023 4/5

What ChatGPT and generative AI mean for science

저자: Chris Stokel-Walker, Richard Van Noorden | 날짜: 2023 | DOI: https://doi.org/10.1038/d41586-023-00340-6

Essence

생성형 AI(generative AI) 및 대규모 언어모델(Large Language Models, LLMs)이 과학 연구에 미치는 긍정적 잠재력과 부작용을 종합적으로 검토한 자연(Nature) 저널의 특집 기사로, 과학자들의 흥분과 우려가 공존하는 현 상황을 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

이 논문은 2023년 초 ChatGPT 열풍의 한복판에서 생성형 AI의 과학 분야 영향에 대한 가장 균형잡힌 초기 진단을 제공했으며, 단순한 기술 예측을 넘어 윤리적·법적·사회적 차원의 성찰을 담아낸 중요한 기록으로 평가된다. 다만 이후 급속한 기술 발전으로 인해 일부 내용이 시대적 맥락을 잃은 점은 아쉬움이 있다.

#550 2025 4/5

Can language models falsify? evaluating algorithmic reasoning with counterexample creation

저자: Shiven Sinha, Shashwat Goel, P. Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu | 날짜: 2025 | DOI: 10.48550/arXiv.2502.19414

Essence

![Figure 1](https://arxiv.org/html/2502.19414v1/x1.png) *그림 1: 표준 벤치마크는 모델의 해결책 생성 능력을 평가하는 반면, 본 논문은 부정확한 해결책을 반박(falsify)하는 역 벤치마크를 제안한다.* 언어 모델(LM)이 프로그래밍 문제의 **부정확한 해결책에 대한 반례(counterexample)를 생성할 수 있는가**라는 질문에 답하는 논문으로, REFUTE 벤치마크를 통해 최신 LM들이 반례 생성 능력에서 심각한 한계를 보임을 실증적으로 입증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

언어 모델의 "반박(falsification)" 능력이라는 과학적으로 중요하면서도 벤치마크되지 않은 영역을 처음 정식화하고, 자동 검증 가능한 알고리즘 도메인에서 체계적으로 평가한 점에서 선도적 공헌이다. 다만 도메인의 제약성, 개선 방법의 부재, 일반화 가능성 미검증이 아쉬우므로, 후속 연구에서 다양한 도메인으로의 확대와 모델 개선 전략 연구가 필수적이다.

#551 2025 4/5

AI-assisted design of experiments at the frontiers of computation: methods and new perspectives

저자: Pietro Vischia (Universidad de Oviedo and ICTEA) | 날짜: 2025 | DOI: arXiv:2501.04448

그림 1: 최적화 루프 전후 편향 보정된 예측의 평균제곱오차

Essence

다음 세대 입자 물리 실험의 설계 최적화는 고차원 공간에서 해를 찾는 문제이며, 이를 미분 가능 프로그래밍(differentiable programming)과 신경형태 컴퓨팅, 양자 컴퓨팅 등 새로운 계산 패러다임을 통해 해결할 수 있음을 제시한다.

Evaluation

Overall: 4

본 논문은 차세대 입자 물리 실험 설계의 고차원 최적화 문제를 AI로 해결하는 혁신적 접근을 제시하며, 작은 규모의 증거 개념 사례들로 타당성을 보여주나, 실제 LHC 규모 적용을 위해서는 신경형태 및 양자 컴퓨팅 같은 근본적인 계산 패러다임 전환이 필수적이라는 점을 명확히 한다.

#552 2026.03 4/5

Can we automatize scientific discovery in the cognitive sciences?

저자: Akshay K. Jagadish, Milena Rmus, Kristin Witte, Marvin Mathony, Marcel Binz, Eric Schulz | 날짜: 2026.03 | DOI: 미제공

그림 1: 인지과학의 자동화된 과학 발견 사이클. 실험자가 실험을 제안하고, 인지 기초 모델이 행동 데이터를 생성하며, 모델러가 계산 모델을 제안·테스트하고, 비평가가 결과의 "흥미로움"을 평가한다.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 인지과학의 자동화된 과학 발견 사이클. 실험자가 실험을 제안하고, 인지 기초 모델이 행동 데이터를 생성하며, 모델러가 계산 모델을 제안·테스트하고, 비평가가 결과의 "흥미로움"을 평가한다.* 본 논문은 대규모 언어 모델(LLM)을 활용하여 인지과학의 과학 발견 과정 전체를 자동화하는 패러다임 전환을 제안한다. 기존의 느리고 편향된 인간 중심 연구 사이클을 대체하여, 실험 설계부터 모델 합성까지 모든 단계를 컴퓨터로 수행하는 고속 탐색 엔진을 구축할 수 있음을 보여준다.

Evaluation

Overall: 4

인지과학의 자동화된 발견을 위한 포괄적이고 야심찬 프레임워크를 제시하여 과학 혁신의 새로운 방향을 제시하지만, 기초 모델의 신뢰성, 자동 생성 모델의 과학적 타당성, 그리고 인식론적 함정에 대한 실증적 검증이 필요하다.

#553 2024.02 4/5

Chiral spin symmetry and hot QCD

저자: L. Ya. Glozman | 날짜: 2024.02

공간 상관함수: J=0,1 중성자 쌍교환 채널의 다중선 구조(E1, E2, E3)가 서로 다른 온도에서 대칭성 특성을 반영

Essence

본 논문은 QCD의 열역학적 특성을 설명하기 위해 **카이랄 스핀 대칭성(chiral spin symmetry)**이라는 새로운 대칭을 도입하고, 이를 통해 가열에 따른 QCD의 세 가지 상(phase)—하드론 기체(hadron gas), 끈모양 유체(stringy fluid), 쿼크-글루온 플라즈마(QGP)—를 통일적으로 설명한다.

Evaluation

Overall: 4

#554 2026 4/5

Resummation of the C-Parameter Sudakov Shoulder Using Effective Field Theory

저자: Matthew D. Schwartz | 날짜: 2026

Figure 1: C-parameter distribution at LO and NLO from EVENT2 Monte Carlo (with αs =

Essence

![Figure 1](figures/fig1.webp) *Figure 1: C-parameter distribution at LO and NLO from EVENT2 Monte Carlo (with αs =* 소프트-콜리니어 유효장이론(SCET)을 이용하여 e+e- 소멸에서 C-파라미터의 운동학적 어깨(kinematic shoulder) 현상을 재합(resummation)하고, 새로운 제트 및 소프트 함수를 도출하여 NLL+NLO 정확도의 예측을 제시했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 수다코프 어깨 재합의 SCET 프로그램을 C-파라미터로 확장하여 새로운 제트/소프트 함수를 정의하고 NLL+NLO 정밀도의 예측을 제시함으로써, QCD 정밀 현상론과 유효장이론 방법론의 발전에 중요한 기여를 한다.

#555 2025 4/5

Vibe physics: The AI grad student

저자: Anthropic | 날짜: 2025

Essence

Harvard 물리학 교수가 Claude AI를 감독하여 2주일 내에 고에너지 이론물리학 논문을 완성했으며, 이는 AI가 도메인 전문가의 지도 아래 frontier 과학 연구를 수행할 수 있음을 입증했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 AI가 도메인 전문가의 적절한 지도 아래 실제 frontier 과학 연구를 수행할 수 있음을 최초로 엄밀하게 입증하는 landmark 연구이며, 방법론의 혁신성(구조화된 markdown 시스템, G2 문제 선택)과 실제 고에너지물리학 진전으로 향후 AI-scientist 패러다임에 깊은 영향을 미칠 것으로 예상된다.

AI Scientific Discovery 7 ▶

#556 2024 4/5

Towards Scientific Discovery with Generative AI: Progress, Opportunities, and Challenges

저자: Chandan K. Reddy, P. Shojaee (Virginia Tech) | 날짜: 2024 | DOI: 10.48550/arXiv.2412.11427

AI 기반 과학 발견 프레임워크의 개요. 사용자 정의 문제 명세에서 시작하여 문헌 검색, 가설 생성, 실험 설계, 평가를 반복하는 과학적 탐구 사이클을 보여줌

Essence

![Figure 1](figures/fig1.webp) *AI 기반 과학 발견 프레임워크의 개요. 사용자 정의 문제 명세에서 시작하여 문헌 검색, 가설 생성, 실험 설계, 평가를 반복하는 과학적 탐구 사이클을 보여줌* 생성형 AI가 문헌 분석, 정리 증명(theorem proving), 실험 설계, 데이터 기반 발견 등 과학 연구의 개별 과제들에서 놀라운 진전을 이루었으나, 장기적 자율 과학 연구를 수행할 수 있는 통합된 AI 시스템은 여전히 부재한다. 본 논문은 과학 발견을 위한 포괄적 AI 시스템 개발의 핵심 과제와 연구 방향을 체계적으로 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 과학 발견을 위한 AI의 현재 진전과 미래 방향을 체계적으로 정리한 중요한 위치 논문으로, AI와 과학의 교집합에서 당면한 핵심 과제들을 명확히 제시한다. 개별 AI 기술의 구체적 혁신보다는 통합 시스템 구축을 위한 로드맵 제시라는 점에서 학계와 산업에 중요한 가이드를 제공할 수 있을 것으로 판단된다.

#557 2025 4/5

AI Scientists Fail Without Strong Implementation Capability

저자: Min Zhu, Qiujie Xie, Yixuan Weng, Jian Wu, Zhen Lin, Linyi Yang, Yue Zhang | 날짜: 2025 | DOI: 미제공

AI Scientist의 발전 로드맵(2024~미래)에서 구현 격차(Implementation Gap) 해결의 중요성을 강조

Essence

![Figure 1](figures/fig1.webp) *AI Scientist의 발전 로드맵(2024~미래)에서 구현 격차(Implementation Gap) 해결의 중요성을 강조* 대규모 언어모델(LLM) 기반 AI Scientist는 우수한 아이디어 생성 능력을 보유했으나, **실제 과학적 검증과 실험 구현 능력이 심각하게 부족**하여 진정한 자동화 과학 연구 달성에 실패하고 있다는 입장 논문이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

이 논문은 AI Scientist의 현주소를 객관적 데이터로 진단한 중요한 비판적 분석 연구로, **아이디어 생성의 성공이 실행의 실패로 귀결되는 근본 문제**를 명확히 드러낸다. 커뮤니티가 과장된 낙관론을 벗고 기술적 현실을 직시하게 하는 값진 기여이나, 해결책 제시 강화로 더욱 건설적 영향력을 발휘할 수 있을 것으로 기대된다.

#558 2024 4/5

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

저자: Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha | 날짜: 2024 | DOI: 10.48550/ARXIV.2408.06292

Figure 1: The AI Scientist의 개념도 - 아이디어 생성부터 논문 작성 및 자동 리뷰까지의 전체 파이프라인

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The AI Scientist의 개념도 - 아이디어 생성부터 논문 작성 및 자동 리뷰까지의 전체 파이프라인* 대규모 언어모델(LLM)을 기반으로 하는 완전 자동화된 과학 연구 수행 시스템으로, 아이디어 생성에서 실험 수행, 논문 작성, 동료 검토까지 전체 과학 연구 프로세스를 자동으로 처리할 수 있다. 한 편의 논문 생성에 15달러 미만의 비용이 소요되며, 자동 리뷰 시스템이 인간 수준에 가까운 성능으로 논문 품질을 평가한다.

Evaluation

Overall: 4

본 논문은 대규모 언어모델의 능력을 과학 연구의 완전 자동화로 확장한 획기적 시도로, 저비용 고속도의 자동 연구 수행 가능성을 입증하였다. 다만, 생성 논문의 실제 학술적 가치, 다양한 도메인으로의 일반화 가능성, 과학 출판 시스템에 미칠 윤리적 영향에 대한 심층 분석이 필요하다.

#559 2025 4/5

Human-ai teaming using large language models: Boosting brain-computer interfacing (bci) and brain research

저자: Maryna Kapitonova, Tonio Ball | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *Janusian Vision: 인간 전문성과 AI 능력을 모두 향하는 이중 설계 접근* 본 논문은 대규모 언어 모델(LLM)을 기반으로 한 인간-AI 협력 프레임워크를 제시하며, 이를 뇌-컴퓨터 인터페이스(BCI) 및 뇌 신호 분석 연구에 적용하는 ChatBCI 도구를 소개한다. 완전 자동화된 "AI 연구자"보다는 인간 전문가의 암묵적 지식을 활용하는 협력적 접근을 강조한다.

Evaluation

Overall: 4

본 논문은 대규모 언어 모델과 인간 전문가의 협력 패러다임을 BCI 연구에 창의적으로 도입하며, 암묵적 도메인 지식 전이의 실제 메커니즘을 제시하는 점에서 큰 가치를 지닌다. 다만 단일 프로젝트 검증, 생성 모델의 신경과학적 타당성 검증 부족, 그리고 대규모 적용 가능성 미증명 등이 아쉬운 한계이며, 향후 다양한 BCI 패러다임과 신경신호에 대한 광범위한 검증이 필요하다.

#560 2025 4/5

Evaluating Sakana's AI Scientist for Autonomous Research: Wishful Thinking or an Emerging Reality Towards 'Artificial Research Intelligence'(ARI)? arXiv preprint arXiv:2502.14297, 2025.

저자: Joeran Beel, Min-Yen Kan, Moritz Baumgart | 날짜: 2025

Essence

Sakana.ai의 AI Scientist는 연구 전체 생명주기(아이디어 생성, 실험 설계 및 실행, 논문 작성, 피어 리뷰)를 자동화하겠다고 주장하는 시스템이지만, 본 논문의 체계적 평가 결과 문헌 검토, 실험 실행, 원고 작성 등 여러 영역에서 심각한 결함을 발견했다.

Evaluation

Overall: 4

본 논문은 과대 광고된 AI 시스템에 대한 첫 체계적 비판적 평가로서 학술 공동체에 중요한 현실 검증을 제공하며, 문헌 검토부터 실험 실행까지 구체적인 결함을 입증함으로써 ARI 기술의 현주소를 명확히 하고 향후 발전 방향을 제시한다는 점에서 매우 가치 있는 연구다.

#561 2025 4/5

Towards LLM Agents for Earth Observation

저자: C. H. Kao, Wenting Zhao, Shreelekha Revankar, Samuel Speas, Snehal Bhagat, Rajeev Datta, Cheng Perng Phoo, Utkarsh Mall, Carl Vondrick, Kavita Bala, Bharath Hariharan | 날짜: 2025 | DOI: arXiv:2504.12110

UnivEARTH 벤치마크는 NASA Earth Observatory 기사에서 추출한 140개의 지구 관측 관련 예/아니오 질문으로 구성되며, Google Earth Engine API를 활용하여 LLM 에이전트를 평가한다.

Essence

![Figure 1](figures/fig1.webp) *UnivEARTH 벤치마크는 NASA Earth Observatory 기사에서 추출한 140개의 지구 관측 관련 예/아니오 질문으로 구성되며, Google Earth Engine API를 활용하여 LLM 에이전트를 평가한다.* 본 논문은 지구 관측(Earth Observation, EO) 작업을 자동화하기 위한 LLM 에이전트의 준비도를 평가하기 위해 **UnivEARTH** 벤치마크를 제시하고, 현재 최첨단 모델들이 코드 실행 실패(58%)로 인해 33% 수준의 낮은 정확도만 달성함을 보여준다.

Evaluation

Overall: 4

본 논문은 지구 관측이라는 실제 과학 도메인에서 LLM 에이전트의 신뢰성을 평가하는 의미 있는 벤치마크를 제시하며, 현 단계 AI 시스템의 현저한 한계를 객관적으로 입증함으로써 향후 연구 방향을 명확히 제시한다. 다만 질문 형식의 제한과 코드 실행 의존성으로 인한 평가 공정성 논의 필요 및 개선 방향 제시가 더 구체적일 수 있다는 점이 아쉬움.

#562 2024.11 3/5

MatPilot: an LLM-enabled AI Materials Scientist under the Framework of Human-Machine Collaboration

저자: Ziqi Ni, Yahao Li, Kaijia Hu, Kunyuan Han, Ming Xu, Xingyu Chen, Fengqi Liu, Yicong Ye, Shuxin Bai | 날짜: 2024.11 | DOI: 10.48550/arXiv.2411.08063

Essence

![Figure 1](figures/fig1.webp) *MatPilot에 구현된 인간-기계 협업 프레임워크* 대규모 언어 모델(LLM)을 기반으로 한 MatPilot은 자연어 인터페이스를 통해 연구자와 AI 에이전트 간의 협업을 가능하게 하며, 신소재 발견을 위한 인지 모듈과 실행 모듈의 통합을 통해 효율적인 검증, 지속적 학습, 반복적 최적화를 실현하는 AI 재료 과학자이다.

Evaluation

Overall: 3

MatPilot은 LLM 기반의 인간-기계 협업 프레임워크를 통해 재료 과학 연구의 혁신을 모색한 야심 찬 연구로, 특히 고체 재료의 전주기 자동화 실현 측면에서 의의가 크다. 다만 기술 검증의 깊이, 정량적 성과의 명시, 일반화 가능성에 대한 체계적 입증이 향후 보강되어야 한다.

Mechanistic Interpretability 5 ▶

#563 2024 4/5

Mechanistic interpretability for ai safety–a review

저자: Leonard Bereska, Efstratios Gavves | 날짜: 2024 | DOI: 해당 정보 없음

해석가능성 패러다임: 행동적(Behavioral), 귀속적(Attributional), 개념기반(Concept-based), 기계론적(Mechanistic) 접근의 비교

Essence

![Figure 1](figures/fig1.webp) *해석가능성 패러다임: 행동적(Behavioral), 귀속적(Attributional), 개념기반(Concept-based), 기계론적(Mechanistic) 접근의 비교* 본 논문은 신경망의 내부 작동 메커니즘을 인간이 이해할 수 있는 알고리즘으로 역공학(reverse engineering)하는 기계론적 해석가능성(mechanistic interpretability)의 종합적 리뷰를 제공한다. AI 안전성 확보를 위해 신경망의 세밀한 인과관계 이해가 필수적임을 강조한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 기계론적 해석가능성을 처음으로 포괄적으로 정리한 가치 있는 리뷰이며, AI 안전성과의 강한 연계를 통해 분야의 중요성을 부각하였으나, 개념의 형식적 정의 강화와 더 급진적인 후속 방향 제시가 있다면 더욱 임팩트 있는 기여가 될 수 있을 것으로 판단된다.

#564 2025 4/5

The hidden dimensions of llm alignment: A multi-dimensional safety analysis

저자: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia | 날짜: 2025

안전 잔차 공간(Safety Residual Space) 개념도. 안전 미세조정(safety fine-tuning) 중 표현 변화의 선형 결합으로 정의되며, 지배적 방향과 비지배적 방향의 상호작용을 보여줌

Essence

![Figure 1](figures/fig1.webp) *안전 잔차 공간(Safety Residual Space) 개념도. 안전 미세조정(safety fine-tuning) 중 표현 변화의 선형 결합으로 정의되며, 지배적 방향과 비지배적 방향의 상호작용을 보여줌* 대규모언어모델(LLM)의 안전 정렬 행동은 단일 선형 방향이 아닌 활성화 공간의 다차원 직교 방향들의 상호작용으로 제어된다. 본 연구는 안전 미세조정 과정에서 발생하는 표현 변화를 분석하여 거부 행동을 지배하는 주도적 방향과 가설적 내러티브, 역할극 같은 서로 다른 특징을 나타내는 부차적 방향들을 발견한다.

Evaluation

Overall: 4

본 논문은 LLM 안전 정렬에 대한 다차원적 해석을 제공하는 창의적이고 실질적인 연구이다. 안전 잔차 공간의 개념과 직교 방향 분석을 통해 기존 단일 방향 프로브의 한계를 극복하고, 부차적 특징의 역할을 밝힘으로써 안전 메커니즘의 이해를 심화시켰다. 특히 트리거 토큰 분석을 통한 취약성 발견은 향후 안전 방어 강화에 중요한 통찰을 제공한다. 그러나 선형성 가정, 단일 모델 평가, 제한된 데이터셋 규모 등의 한계는 논문의 영향력과 일반화 가능성을 다소 제약한다. 기계적 해석 가능성(mechanistic interpretability) 분야에서 의미 있는 기여이나, 실무적 안전 강화로의 연결은 추가 연구를 요한다.

#565 2024 4/5

SciAgents: Automating Scientific Discovery Through Bioinspired Multi-Agent Intelligent Graph Reasoning

저자: Alireza Ghafarollahi, Markus J. Buehler | 날짜: 2024 | DOI: 10.1002/adma.202413523

Essence

본 연구는 대규모 온톨로지 지식 그래프(ontological knowledge graphs), 대형 언어 모델(LLMs), 그리고 다중 에이전트 시스템을 결합하여 과학 발견 프로세스를 자동화하는 SciAgents 프레임워크를 제시한다. 생물 영감 재료(biologically inspired materials) 분야에 적용하여 인간의 연구 방법을 초월하는 규모, 정밀도, 탐색 능력으로 숨겨진 학제간 관계를 발견했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

본 논문은 온톨로지 지식 그래프, LLMs, 다중 에이전트 시스템을 통합하여 과학 발견을 자동화하는 혁신적 접근을 제시하며, 생물 영감 재료 분야에서 의미 있는 성과를 도출했으나, 생성된 가설의 실험적 검증과 더 광범위한 도메인 적용에 대한 추가 연구가 필요하다.

#566 2024 4/5

Towards uncovering how large language model works: An explainability perspective

저자: Haiyan Zhao, Fan Yang, Bo Shen, Himabindu Lakkaraju, Mengnan Du | 날짜: 2024 | DOI: arXiv:2402.10688

Essence

![Figure 1](figures/fig1.webp) *대규모 언어모델의 작동 메커니즘: (a) 모델 컴포넌트 내 지식의 아키텍처 구성, (b) 중간 표현에 인코딩된 지식, (c) 훈련 과정에서의 일반화 능력 발달* 이 논문은 설명가능성(explainability) 관점에서 대규모 언어모델(LLM)의 내부 작동 메커니즘을 체계적으로 검토한 종합 리뷰 논문이다. 기계적 해석가능성(mechanistic interpretability), 표현 공학(representation engineering), 훈련 역학 분석을 통해 LLM의 지식 구성, 부호화, 학습 과정을 밝히고, 이러한 인사이트가 모델 편집, 프루닝, 인간 정렬에 어떻게 활용될 수 있는지 보여준다.

Evaluation

Overall: 4

이 논문은 LLM의 내부 작동 메커니즘을 설명가능성 관점에서 체계적으로 정리한 우수한 리뷰 논문으로, 신경원·회로·헤드·훈련 역학의 계층적 분석을 통해 LLM의 투명성을 높인다. 다만 장난감 모델 기반 결과의 현실적 적용 가능성과 대규모 모델으로의 확장성은 여전히 과제로 남아 있다.

#567 2024 3/5

Simulating tabular datasets through LLMs to rapidly explore hypotheses about real-world entities

저자: Miguel Zabaleta, Joel Lehman (Stochastic Labs) | 날짜: 2024

LLM-driven Dataset Simulation: 개체 리스트와 속성이 주어졌을 때, 각 (개체, 속성) 조합에 대해 LLM을 쿼리하여 속성값 추정

Essence

본 논문은 대규모 언어모델(LLM)을 활용하여 실제 개체(사람, 국가, 동물 등)의 속성을 추정하고 표 형식의 데이터셋을 시뮬레이션함으로써, 질적(qualitative) 가설을 정량적으로 빠르게 탐색할 수 있는 방법을 제시한다. 예를 들어 "공포 작가들이 다른 작가들보다 더 힘든 어린 시절을 보냈는가?"라는 질문을 LLM 기반 데이터 시뮬레이션으로 신속하게 프로토타이핑할 수 있다는 것을 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 3 Clarity: 4 Overall: 3

본 논문은 LLM의 새로운 활용 방식—질적 과학 가설을 정량적으로 빠르게 프로토타이핑하는 도구—을 창의적으로 제시한다. 개념적으로 유의미하며 과학적 발견 사이클을 가속화할 수 있는 잠재력을 보여주지만, hallucination 위험, 제한적 실험 검증, 도메인 일반화 부족 등으로 인해 현 단계는 학술적 탐색(proof-of-concept) 수준으로 평가된다. 향후 RAG, 강화된 검증 절차, 더 광범위한 도메인 실험을 통해 신뢰성을 높인다면 실용적 영향력이 상당할 것으로 기대된다.

Research Idea Generation 9 ▶

#568 2025.12 4/5

Systematic Framework of Application Methods for Large Language Models in Language Sciences

저자: Kun Sun, Rong Wang | 날짜: 2025.12 | DOI: 10.48550/arXiv.2512.09552

LLM 기반 언어과학 연구를 위한 체계적 프레임워크: 방법 선택 프레임워크와 구현 설정 프레임워크의 두 계층 구조

Essence

본 논문은 언어과학 분야에서 대규모 언어모델(LLM)의 무분별한 적용으로 인한 방법론적 혼란을 해결하기 위해, 연구 목표와 LLM 기법을 체계적으로 연계하는 두 가지 포괄적 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 언어과학 분야의 LLM 응용에서 오래된 방법론적 혼란을 해결하기 위해 포괄적이고 체계적인 프레임워크를 제시함으로써, 학문적 성숙도와 재현성을 크게 향상시킬 수 있는 중요한 기여를 한다. 다만 구체적 데이터 편향 대응책과 신흥 기법에 대한 지침 강화가 필요하다.

#569 2024 4/5

Chain of Ideas: Revolutionizing research via novel idea development with llm agents

저자: Long Li, Weiwen Xu, Jiayan Guo, Ruochen Zhao, Xingxuan Li 외 (DAMO Academy, Alibaba Group; Zhejiang University) | 날짜: 2024 | DOI: arXiv:2410.13185

그림 1: Vanilla RAG 기반 연구 에이전트와 Chain-of-Ideas 에이전트의 비교. CoI는 관련 논문들을 체계적 체인으로 조직하여 논리적 일관성 있는 아이디어 생성

Essence

![Figure 1](figures/fig1.webp) *그림 1: Vanilla RAG 기반 연구 에이전트와 Chain-of-Ideas 에이전트의 비교. CoI는 관련 논문들을 체계적 체인으로 조직하여 논리적 일관성 있는 아이디어 생성* LLM 기반 에이전트가 과학 문헌을 체인 구조로 조직하여 연구 분야의 진화 과정을 명확히 반영함으로써, 인간 연구자 수준의 참신한 연구 아이디어 생성을 자동화한다.

Evaluation

Overall: 4

이 논문은 LLM의 창의적 능력을 과학 분야에 실질적으로 적용하는 혁신적 프레임워크를 제시하며, 문헌의 체계적 조직화를 통해 아이디어 생성 품질을 획기적으로 향상시킨다. 다만 AI 분야 검증과 실제 실험 수행 검증으로의 확장이 향후 과제이다.

#570 2025 4/5

GraphEval: A lightweight graph-based llm framework for idea evaluation

저자: Tao Feng, Yihang Sun, Jiaxuan You (UIUC, Peking University) | 날짜: 2025 | DOI: arXiv:2503.12600v2

동일 아이디어에 대해 프롬프트 미세 변화만으로도 평가 점수가 78→85→75로 크게 변한다.

Essence

![Figure 2](figures/fig2.webp) *GraphEval는 아이디어를 관점(viewpoint) 노드로 분해하여 그래프 구조로 변환함으로써 LLM 기반 평가의 편향과 불안정성을 해결한다.* 복잡한 연구 아이디어를 이해 가능한 관점들로 분해하고 이를 그래프로 연결하여 라벨 전파(label propagation) 또는 그래프 신경망(GNN)을 통해 견고하고 편향 없는 아이디어 평가를 수행하는 경량 프레임워크다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

GraphEval은 LLM 기반 아이디어 평가의 편향과 불안정성을 그래프 구조와 심리학적 직관으로 우아하게 해결하는 혁신적인 접근법이며, 실질적인 성능 향상과 표절 탐지 기능으로 학술 커뮤니티에 즉각적인 가치를 제공한다.

#571 2025 4/5

A review of llm-assisted ideation

저자: Sitong Li, Stefano Padilla, Pierre Le Bras, Junyu Dong, Mike J. Chantler | 날짜: 2025

Figure 1. PRISMA Flow Diagram for Screening

Essence

![Figure 3](figures/fig3.webp) *Figure 3. The Hourglass Ideation Framework for LLM-assisted Ideation. The hourglass shape of the framework visualizes* 본 논문은 대규모 언어모델(LLM)을 활용한 아이디에이션(ideation) 지원에 관한 61개 연구를 체계적으로 검토하고, 아이디에이션 프로세스의 7단계와 3단계를 포함하는 '모래시계 아이디에이션 프레임워크(Hourglass Ideation Framework)'를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 리뷰는 빠르게 성장하는 LLM 아이디에이션 분야의 현황을 최초로 체계적으로 정리하고, 모래시계 프레임워크를 통해 단계별 활용 격차를 명확히 규명하여 향후 연구 및 개발의 방향성을 제시하는 중요한 기여를 한다.

#572 2024 4/5

Acceleron: A tool to accelerate research ideation

저자: Harshit Nigam, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff | 날짜: 2024 | DOI: arXiv:2403.04382

Essence

![Figure 1](figures/fig1.webp) *Acceleron 사용자 인터페이스* 연구자의 아이디어 구상(ideation) 단계를 지원하기 위해 대규모 언어모델(LLM) 기반 에이전트 아키텍처를 활용한 연구 가속화 도구로, 동료(Colleague)와 멘토(Mentor) 페르소나를 통해 연구 제안의 동기 검증(motivation validation)과 방법 합성(method synthesis)을 수행한다.

Evaluation

Overall: 4

Acceleron은 연구 생명주기의 가장 취약한 단계인 아이디어 구상을 지원하는 실용적인 도구로, LLM 에이전트의 계층적 활용과 검색 기반 설계가 돋보이나, 제한된 평가 규모와 도메인 확장성에 대한 검증이 필요하다.

#573 2025 4/5

Improving research idea generation through data: An empirical investigation in social science

저자: Xiao Liu, Xinyi Dong, Xinyang Gao, Yansong Feng, Xun Pang (Beijing University) | 날짜: 2025 | DOI: arXiv:2505.21396

데이터 증강 LLM 아이디어 생성 프레임워크: 메타데이터를 아이디어 생성 단계에, 자동 검증을 선택 단계에 통합

Essence

![Figure 1](figures/fig1.webp) *데이터 증강 LLM 아이디어 생성 프레임워크: 메타데이터를 아이디어 생성 단계에, 자동 검증을 선택 단계에 통합* 대규모 언어 모델(LLM)을 활용한 연구 아이디어 생성 시 관련 데이터의 메타데이터와 자동 검증을 통합하면 아이디어의 실현가능성과 경험적 타당성이 20% 이상 향상된다. 더 나아가 LLM이 생성한 아이디어가 실제 연구자들의 자체 아이디어 개발을 영감 있게 지원함을 실증적으로 입증했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLM 기반 연구 아이디어 생성에 데이터를 통합하는 실질적 방안을 제시하고, 특히 인간 연구를 통해 LLM 아이디어가 실제 연구자들에게 영감을 줄 수 있음을 입증한 의미 있는 작업이다. 사회과학 특화, ClimateDataBank 리소스 기여, 메타데이터와 자동 검증의 이중 통합

#574 2024 4/5

On gradient-like explanation under a black-box setting: when black-box explanations become as good as white-box

저자: Yi Cai, Gerhard Wunder | 날짜: 2024 | DOI: arXiv:2308.09381

간단한 사례: 그래디언트 포화로 인해 추정된 그래디언트 η가 0으로 수렴하여 민감도 공리 위반

Essence

![Figure 2](figures/fig2.webp) *기준선 f(-3) ≈ 0이 주어질 때, GEEX의 평활화된 버전이 실제 기여도를 더 잘 근사함* 본 논문은 **GEEX (Gradient-Estimation-based EXplanation)**를 제안하여 블랙박스 설정에서도 화이트박스 수준의 그래디언트 유사 설명을 생성할 수 있음을 보인다. 쿼리 레벨 접근만으로 정밀한 특성 귀속(feature attribution)을 제공하면서도 완전성(Completeness), 민감도(Sensitivity) 등 기본 공리를 엄밀히 만족한다. ---

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

GEEX는 그래디언트 기반 설명의 정밀성과 블랙박스 방법의 유연성을 결합한 실용적이고 이론적으로 견고한 접근법이다. 특히 엄밀한 공리 기반 분석으로 설명의 신뢰성을 보증하는 점이 주목할 만하나, 계산 비용과 기준선 선택 문제에 대한 추가 논의가 보강되면 더욱 완성도 높은 연구가 될 것이다.

#575 2025 3/5

SCI-IDEA: Context-aware scientific ideation using token and sentence embeddings

저자: Farhana Keya, Gollam Rabby, Prasenjit Mitra, Sahar Vahdati, Sören Auer, Yaser Jaradeh | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *연구자와 SCI-IDEA의 상호작용 개요. 좌측은 연구자 피드백, 우측은 문맥 인식 과학적 아이디어 생성 및 개선 기법 제시* SCI-IDEA는 대규모 언어모델(LLM)의 다양한 프롬프팅 전략과 "Aha Moment" 탐지를 결합하여 문맥-인식적이고 고품질의 창의적 과학 아이디어를 반복적으로 생성하고 개선하는 프레임워크이다. 토큰 및 문장 임베딩을 활용하여 신성(novelty)과 놀라움(surprise)을 측정함으로써 혁신적인 연구 아이디어를 식별한다.

Evaluation

Overall: 3

SCI-IDEA는 LLM 기반 과학 아이디어 생성에 체계적 평가 체계와 반복적 개선 메커니즘을 도입한 실용적 프레임워크이나, 평가 척도의 주관성, 생성 아이디어의 실제 연구 가치 검증 부재, 기술적 혁신의 제한성(기존 기법의 조합) 등으로 인해 중간 수준의 기여도를 보인다. 윤리 고려사항 언급은 긍정적이나 구현 수준은 추상적이다.

#576 2025 N/A

TheoremExplainAgent: Towards Video-based Multimodal Explanations for LLM Theorem Understanding

저자: Max Ku, C.P. Chong, Jonathan Leung, Krish Shah, Ai‐Ming Yu, Wenhu Chen | 날짜: 2025 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *아리스토텔레스의 인용구와 함께 시각화 설명의 중요성을 강조하는 그림. 버블 정렬 예시로 텍스트 설명과 시각적 설명의 이해도 차이를 보여줌* 정리(Theorem) 이해를 위해 LLM이 5분 이상의 긴 형식 설명 비디오를 에이전트 기반으로 생성하는 새로운 접근법을 제시하며, 다중 모드 설명이 텍스트 기반 평가보다 더 깊은 추론 오류를 드러낼 수 있음을 입증한다.

Scientific Memory Parallelism 5 ▶

#577 2025 4/5

Drugpilot: Llm-based parameterized reasoning agent for drug discovery

저자: Kun Li, Zhennan Wu, Shoupeng Wang, Jia Wu, Shirui Pan, Wenbin Hu | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *DrugPilot 프레임워크의 구조: LLM, 매개변수화된 메모리 풀(PMP), Fe-Fo 메커니즘, AI 모델 집합으로 구성된 통합 시스템* 본 논문은 신약 개발의 전 단계를 지원하는 대형 언어모델(LLM) 기반 에이전트 시스템 DrugPilot을 제시한다. 매개변수화된 메모리 풀(Parameterized Memory Pool, PMP)을 통해 이질적인 약물 데이터를 표준화된 표현으로 변환하고, 피드백-포커스(Fe-Fo) 메커니즘으로 LLM의 추론 오류를 실시간 모니터링하여 정확한 도구 호출과 멀티턴 대화를 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

DrugPilot은 매개변수화된 메모리 풀과 피드백-포커스 메커니즘이라는 혁신적 아키텍처를 통해 LLM 기반 신약 개발 에이전트의 정확성과 사용성을 획기적으로 개선했으며, 첫 약물 발견 도구 호출 벤치마크 제시로 해당 분야의 학술적 기여도가 높다. 다만 대규모 데이터 처리 효율성 평가와 임상 단계로의 확장 경로가 보완되면 실무 적용 가능성이 한층 높아질 것으로 예상된다.

#578 2024 4/5

AgentMD: Empowering Language Agents for Risk Prediction with Large-Scale Clinical Tool Learning

저자: Qiao Jin, Zhizheng Wang, Yifan Yang, Qingqing Zhu, Donald Wright | 날짜: 2024 | DOI: 10.48550/arXiv.2402.13225

그림 1. 연구 개요: (a) RiskCalcs 도구 모음 구축 프로세스, (b) 장기 시스템별 계산기 분포, (c) 도구의 의미적 표현 t-SNE 시각화, (d) 환자 노트에 RiskCalcs 적용 프로세스

Essence

![Figure 1](figures/fig1.webp) *그림 1. 연구 개요: (a) RiskCalcs 도구 모음 구축 프로세스, (b) 장기 시스템별 계산기 분포, (c) 도구의 의미적 표현 t-SNE 시각화, (d) 환자 노트에 RiskCalcs 적용 프로세스* 본 논문은 대규모 언어모델(LLM)을 활용하여 PubMed 문헌으로부터 2,164개의 임상 계산기(RiskCalcs)를 자동으로 큐레이션하고, 이를 환자 기록에 적용하는 의료 언어 에이전트 AgentMD를 제시한다. 기존 수동 큐레이션의 확장성 문제를 극복하면서 80% 이상의 정확도를 달성하고, 기존 GPT-4 체인-오브-소트(Chain-of-Thought) 방식(40.9%)을 크게 능가한다(87.7%).

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 대규모 언어모델을 활용한 임상 도구 자동 큐레이션의 선도적 시도로, 기술적 혁신성과 임상적 잠재력이 높다. 다만 품질 검증 범위 확대, 실제 임상 통합 효과 검증, LLM 의존성 완화 등이 실용화를 위한 과제이다.

#579 2025 4/5

Position: Multimodal large language models can significantly advance scientific reasoning

저자: Yibo Yan, Shen Wang, Jiahao Huo, Jingheng Ye, Zhendong Chu, Xuming Hu, Philip S. Yu, Carla Gomes, Bart Selman, Qingsong Wen | 날짜: 2025 | DOI: 10.48550/arXiv.2502.02871

Essence

본 논문은 멀티모달 대형 언어 모델(MLLM)이 수학, 물리학, 화학, 생물학 등 다양한 과학 분야에서 과학적 추론(Scientific Reasoning)을 획기적으로 향상시킬 수 있다는 입장을 제시하는 위치 논문(Position Paper)이다. 저자들은 MLLM의 텍스트, 이미지, 기타 모달리티 통합 능력이 현재 과학 추론 모델의 도메인 간 일반화 부족과 멀티모달 인지 한계를 극복할 수 있다고 주장한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 MLLM의 과학적 추론 응용에 대한 포괄적인 위치를 제시하는 선도적 연구로, 4단계 로드맵과 멀티모달 과학 데이터 분석을 통해 향후 연구 방향을 제시하는 것이 강점이다. 다만 위치 논문의 특성상 구체적 실증과 기술적 깊이가 제한적이므로, 후속 논문들에서 각 단계별·도메인별 구체적 구현과 벤치마킹이 필요하다.

#580 2025 3/5

BioAgents: Democratizing Bioinformatics Analysis with Multi-Agent Systems

저자: Nikita Mehandru, Amanda K. Hall, Olesya Melnichenko, Yulia Dubinina, Daniel Tsirulnikov et al. | 날짜: 2025 | DOI: 10.48550/arXiv.2501.06314

Essence

![Figure 2](https://arxiv.org/html/2501.06314v1/assets/figures/figure2.webp) *Figure 2: (a) 두 개의 전문화된 에이전트 구조. (b) BioAgents 전체 개요. (c) BioAgents와 전문가 결과 비교* 본 논문은 소형 언어모델(Phi-3)을 기반으로 생물정보학 데이터로 미세조정하고 검색 증강 생성(RAG)을 통합한 다중 에이전트 시스템을 제안한다. BioAgents는 지역(local) 운영과 독점 데이터 기반 개인화를 가능하게 하며, 개념적 유전체학 작업에서 인간 전문가 수준의 성능을 달성한다.

Evaluation

Overall: 3

본 논문은 소형 언어모델과 생물정보학 특화 미세조정을 통해 접근 가능한 AI 기반 생물정보학 지원 도구를 제시하는 가치 있는 시도이며, 개념적 유전체학 작업에서 전문가 수준의 성능을 달성했다. 그러나 코드 생성 역량의 현저한 성능 격차와 자체 반복 메커니즘의 한계는 실제 복잡한 파이프라인 구축 지원에 아직 거리가 있음을 보여준다.

#581 2026.03 3/5

From GPU Engineering to Scientific Discovery: Parallelism Techniques for Large Language Models

저자: Emmanuel A Olanrewaju | 날짜: 2026.03 | DOI: 10.26434/chemrxiv.15001091/v1

Essence

![Figure 1-4](figures/fig1-4.webp) *데이터 병렬화(Data Parallelism) 기법들의 성능 비교: (좌상) 에포크 시간, (우상) 스케일링 효율성, (좌하) 손실 수렴, (우하) 처리량* 대규모 언어 모델(LLM)의 효율적인 학습 및 배포를 위해 GPU 기반 병렬화 기법들을 종합적으로 검토한 논문으로, 과학 발견 가속화를 위한 실제 적용 가이드를 제시한다. 데이터 병렬화, 텐서 병렬화, 시퀀스 병렬화, 컨텍스트 병렬화, 파이프라인 병렬화, 전문가 병렬화 등 6가지 주요 기법의 장단점과 최적 활용 조건을 실증적으로 분석한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 3 Clarity: 4 Overall: 3

본 논문은 LLM 병렬화 기법을 과학 응용 관점에서 체계적으로 검토한 실용적 가이드로서 가치 있으나, 개념적 참신성과 기술적 완전성 측면에서 제한적이다. 특히 추상에 언급된 6가지 기법 중 3가지만 실제 구현·검증되었고 과학 분야 구체적 활용 사례 부재로 인해 과학 발견 가속화 주장의 설득력이 약하다. Preprint 단계에서 추가 기법 분석, 초대형 모델 실험, 도메인 특화 응용 사례 추가 필요.

3D Molecular Generation 6 ▶

#582 2018 4/5

Molgan: An implicit generative model for small molecular graphs

저자: Nicola De Cao, Thomas Kipf | 날짜: 2018 | DOI: arXiv:1805.11973

MolGAN의 전체 구조: 잠재변수 z로부터 생성기가 분자 그래프를 생성하고, 판별기는 실제/생성 데이터 분류, 보상망은 화학적 성질을 평가한다.

Essence

![Figure 1](figures/fig1.webp) *MolGAN의 전체 구조: 잠재변수 z로부터 생성기가 분자 그래프를 생성하고, 판별기는 실제/생성 데이터 분류, 보상망은 화학적 성질을 평가한다.* 본 논문은 그래프 구조 데이터에 직접 작동하는 GAN 기반 암묵적(implicit) 생성 모델을 제안하여, 분자 설계에서 비용이 큰 그래프 매칭 절차와 노드 순서 휴리스틱을 우회하고 높은 유효성의 화학 화합물을 생성한다.

Evaluation

Overall: 4

MolGAN은 그래프 기반 분자 생성에 GAN을 성공적으로 적용한 선구적 연구로, 노드 순서 불변성 문제를 우아하게 해결하고 높은 유효성의 화합물을 생성하나, 모드 붕괴 취약성과 소분자 제한이라는 근본적 과제를 안고 있다.

#583 2025 4/5

Foundation Molecular Grammar: Multi-Modal Foundation Models Induce Interpretable Molecular Graph Languages

저자: Michael Sun, Weize Yuan, Gang Liu, Wojciech Matusik, Jie Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2505.22948

주요 FMG 알고리즘 모듈: 기저 클리크 추출부터 근 모티프 선택까지의 단계적 프로세스. MMFM이 의미 있는 부분구조 병합과 화학적 중요도 판단을 수행.

Essence

![Figure 1](figures/fig1.webp) *주요 FMG 알고리즘 모듈: 기저 클리크 추출부터 근 모티프 선택까지의 단계적 프로세스. MMFM이 의미 있는 부분구조 병합과 화학적 중요도 판단을 수행.* 다중 모달 기반 모델(MMFM)의 화학 지식을 활용하여 분자를 이미지와 텍스트로 표현하고, 계층적 분해 알고리즘과 연쇄 추론(chain-of-thought)을 결합해 해석 가능한 분자 그래프 문법(graph grammar)을 자동으로 학습하는 프레임워크를 제안한다.

Evaluation

Overall: 4

본 논문은 다중 모달 기초 모델의 화학 이해 능력을 구조적 그래프 문법 유도에 창의적으로 활용한 우수한 논문이다. 전문가 주석 의존성을 제거하고 자동 검증 메커니즘을 제시함으로써 실무적 기여도가 높으나, MMFM의 일관성 이론적 보장과 대규모 검증이 보완되면 더욱 강력할 것으로 예상된다.

#584 2026 4/5

Generative Inversion of Spectroscopic Data for Amorphous Structure Elucidation

저자: Jiawei Guo, Daniel Schwalbe-Koda | 날짜: 2026 | DOI: 10.48550/ARXIV.2603.23210

Fig. 1: Architecture of GLASS: Generative Learning of Amorphous Structures from Spectra. A. Concep-

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Architecture of GLASS: Generative Learning of Amorphous Structures from Spectra. A. Concep-* GLASS는 다중 분광 측정 데이터를 역변환하여 비정질 재료의 실제적인 원자 구조를 생성하는 생성형 AI 프레임워크를 제시한다. 점수 기반 확산 모델(score-based diffusion model)과 미분 가능한 분광 시뮬레이션을 결합하여 상호작용 포텐셜 없이 구조를 복원한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

GLASS는 생성 모델, 미분 가능 시뮬레이션, GNN 대체 모델을 창의적으로 결합하여 비정질 구조 복원의 자동화를 달성한 고도로 혁신적인 연구이다. 다중 분광 데이터 동시 역변환과 물리적 타당성 보증이라는 난제를 효과적으로 해결하면서도, GNN 전이성과 실험 노이즈 강건성 측면에서 추가 검증이 필요하다.

#585 2026.02 4/5

DMFlow: Disordered Materials Generation by Flow Matching

저자: Liming Wu, Rui Jiao, Qi Li, Mingze Li, Songyou Li, Shifeng Jin, Wenbing Huang | 날짜: 2026.02 | DOI: 10.48550/arXiv.2602.04734

그림 1: 완전 정렬 결정체 vs. 무질서 결정체. 화살표는 슈퍼셀 축소, BL/BR은 좌측/우측 위치를 표시

Essence

![Figure 1](figures/fig1.webp) *그림 1: 완전 정렬 결정체 vs. 무질서 결정체. 화살표는 슈퍼셀 축소, BL/BR은 좌측/우측 위치를 표시* 본 논문은 완전히 정렬된 결정체만 생성하던 기존 심화 학습 모델의 한계를 극복하기 위해, **치환 무질서(Substitutional Disorder, SD)와 위치 무질서(Positional Disorder, PD)를 모두 생성 가능한 DMFlow 프레임워크**를 제시한다. 리만 기하학적 흐름 매칭(Riemannian Flow Matching)과 구 재매개변수화를 통해 확률 심플렉스 제약을 만족하는 물리적으로 타당한 무질서 가중치를 생성한다.

Evaluation

Overall: 4

DMFlow는 무질서 결정체 생성이라는 중요하면서도 미개척된 문제를 처음 체계적으로 해결한 논문으로, 리만 흐름 매칭과 통합 표현이라는 기술적 혁신을 통해 높은 완성도를 보인다. 다만 이진 PD 제약, 생성 구조의 물리적 검증 부족, 대규모 구조에 대한 확장성 미검증 등이 향후 개선 과제이며, 실제 신물질 발견으로의 영향력은 추가 실증이 필요하다.

#586 2024 4/5

Geometry Informed Tokenization of Molecules for Language Model Generation

저자: Xiner Li, Limei Wang, Youzhi Luo, Carl N. Edwards, Shurui Gui | 날짜: 2024 | DOI: 10.48550/arXiv.2408.10120

Essence

![Figure 1](figures/fig1.webp) *Geo2Seq 개요: 정규 표준화 라벨링 순서로 노드를 배열하고 각 노드에 원자 종류와 구면 좌표를 벡터 형태로 채워 수열로 변환* 본 논문은 3D 분자 구조를 SE(3)-불변(invariant) 1D 이산 수열로 변환하는 Geo2Seq 토큰화 방법을 제안하여, 언어 모델(LM)이 3D 분자 생성 태스크를 효과적으로 수행할 수 있도록 한다. 기존의 확산 모델 기반 방법론보다 빠르면서도 더 나은 조건부 생성 성능을 달성한다.

Evaluation

Overall: 4

본 논문은 언어 모델을 3D 분자 생성에 효과적으로 적용하기 위한 창의적인 토큰화 방법을 제안하며, SE(3)-불변성을 엄밀히 보장하면서도 조건부 생성에서 확산 모델을 초과하는 성능을 달성한다. 모델-불가지론적 설계로 확장성도 우수하나, 수치 정밀도와 계산 복잡도 측면의 실용적 제약에 대한 더 깊은 논의가 필요하다.

#587 2025 4/5

Language Models for Controllable DNA Sequence Design

저자: Xingyu Su, Xiner Li, Yu-Ching Lin, Ziqian Xie, Degui Zhi | 날짜: 2025 | DOI: 10.48550/arXiv.2507.19523

Essence

ATGC-Gen은 트랜스포머 기반 언어 모델을 활용하여 생물학적 특성(세포 타입, 전사인자 결합 등)을 조건으로 하는 제어 가능한 DNA 서열 생성을 수행하는 프레임워크이다. 교차 모달 인코딩을 통해 다양한 생물학적 신호를 통합하여 기능적이고 다양한 DNA 서열을 생성한다.

Evaluation

Overall: 4

본 논문은 DNA 서열 설계라는 중요한 생물학적 문제에 트랜스포머 언어 모델을 체계적으로 적용하고, 교차 모달 조건화를 통해 다양한 생물학적 신호를 통합하는 실용적 프레임워크를 제시한다. 새로운 ChIP-Seq 벤치마크와 일관된 실험 결과는 강점이나, 실제 생물학적 검증과 방법론의 기술적 깊이 측면에서는 개선의 여지가 있다.

Disruptive Framework Identification 4 ▶

#588 2025 4/5

Frame: Feedback-refined agent methodology for enhancing medical research insights

저자: Chengzhang Yu, Yiming Zhang, Zhixin Liu, Zenghui Ding, Yining Sun, Zhanpeng Jin | 날짜: 2025 | DOI: 미제공

FRAME 아키텍처: 학습 단계에서 반사 보고서(Reflection Reports)를 누적하여 형식적 논문 생성 과정을 안내하는 반복적 학습 패러다임

Essence

![Figure 1](figures/fig1.webp) *FRAME 아키텍처: 학습 단계에서 반사 보고서(Reflection Reports)를 누적하여 형식적 논문 생성 과정을 안내하는 반복적 학습 패러다임* 본 논문은 대규모 언어 모델(LLM)을 활용한 의료 연구 논문 자동 생성의 품질 문제를 해결하기 위해 피드백 기반 다중 에이전트 시스템(FRAME)을 제안한다. 구조화된 반복 개선과 메트릭 기반 평가를 통해 자동 생성 논문이 인간 저자 수준의 품질을 달성할 수 있음을 입증했다.

Evaluation

Overall: 4

FRAME은 LLM 기반 의료 논문 생성에 체계적인 피드백 메커니즘을 도입하여 인간 수준의 품질을 달성한 주목할 만한 시도로, 특히 데이터셋 구축과 다중 에이전트 협력 방식에서 기여하나, 의료 분야의 핵심 과제인 사실 검증과 윤리 거버넌스 문제는 후속 과제로 남아있다.

#589 4/5

A framework for discovering scientific equations with large language

저자: Douglas M. Bates, Martin Mächler, Benjamin M. Bolker, Steve Walker

Essence

대규모 언어모델(LLM)을 활용하여 과학적 혁신을 구조화하고, 문제-방법 조합의 파괴적 잠재력을 정량화하여 과학적 발견을 체계적으로 탐색하는 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM을 활용한 과학 발견의 기존 한계를 명확히 인식하고, 문제-방법 조합의 체계적 탐색과 정량적 파괴성 평가라는 창의적인 해결책을 제시함으로써 과학 혁신의 구조화된 모델링에 중요한 기여를 한다. 다만 실제 과학 커뮤니티에서의 검증과 방법론의 추가적 강화가 필요하다.

#590 2025 4/5

Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration

저자: Nuo Chen, Yicheng Tong, Jiaying Wu, M. Duong, Qian Wang | 날짜: 2025 | DOI: 10.48550/arXiv.2508.04575

그림 1: 단일 에이전트와 다중 에이전트 과학적 아이디어 창출의 상호작용 모드, 에이전트 구성, 혁신 원천, 핵심 메커니즘 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1: 단일 에이전트와 다중 에이전트 과학적 아이디어 창출의 상호작용 모드, 에이전트 구성, 혁신 원천, 핵심 메커니즘 비교* 본 연구는 구조화된 다중 에이전트 토론이 단독 아이디어 창출을 능가할 수 있는지 체계적으로 조사하며, 그룹 규모, 리더십 구조, 팀 구성이 고품질 과학 제안 생성에 미치는 영향을 분석한다. 인지 다양성이 아이디어 품질의 주요 동인이지만, 기본적인 전문성이 필수 전제조건임을 발견하였다.

Evaluation

Overall: 4

본 논문은 다중 에이전트 협력을 통한 과학적 아이디어 창출의 우월성을 체계적으로 입증하며, 특히 인지 다양성과 기본 전문성의 균형이라는 실용적 인사이트를 제공한다. 다만 LLM 기반 시뮬레이션의 현실 타당성 검증과 다양한 과학 분야로의 일반화가 향후 과제로 남는다.

#591 2025 4/5

Structuring scientific innovation: A framework for modeling and discovering impactful knowledge combinations

저자: Junlan Chen, Kexin Zhang, Daifeng Li 외 | 날짜: 2025 | DOI: arXiv:2503.18865v3

Essence

본 논문은 대규모 언어모델(LLM)을 활용하여 과학적 발견을 문제-방법(problem-method) 조합의 구조적 재결합으로 모델링하고, 파괴적 혁신 지수(Disruptive Index, DI)를 통해 혁신적 지식 조합의 영향력을 정량적으로 평가하는 프레임워크를 제안한다.

Evaluation

Overall: 4

본 논문은 대규모 언어모델 기반 과학 발견에서 구조적 문제-방법 재결합과 객관적 파괴성 평가라는 중요한 격차를 해결하였으며, 다중 도메인 실험으로 실용성을 입증하였으나, 핵심 알고리즘의 상세한 기술 설명과 통계적 엄밀성 강화가 필요하다.

Reinforcement Learning for Reasoning 22편 ▶

Reinforcement Learning for Reasoning Timeline

Category Overview

# Reinforcement Learning for Reasoning (강화학습 기반 추론) 강화학습(Reinforcement Learning, RL)을 활용하여 대규모 언어모델(LLM)의 추론 능력을 향상시키는 연구 분야입니다. 이 카테고리는 LLM이 복잡한 문제 해결 과정에서 단계적 추론(step-by-step reasoning)을 학습하도록 보상 신호(reward signal)를 설계하고, 정책 최적화(policy optimization)를 통해 모델의 추론 성능을 개선하는 기술들을 다룹니다. 핵심 연구 방향은 크게 세 가지입니다. 첫째, LLM 자체의 추론 능력 강화 [265, 683, 873, 447, 449, 598]로서, 자기 교정(self-correction), 도구 활용(tool-use), 다중 턴 상호작용(multi-turn interaction) 등을 통해 추론 과정을 반복적으로 개선하는 방법들입니다. 둘째, 구조화된 학습 프레임워크 [242, 243, 257, 740, 845]로서, 비평(critique), 부분목표 분해(subgoal decomposition), 검증(verification) 등의 명시적 추론 구조를 강화학습으로 학습하는 접근입니다. 셋째, 실제 응용 분야 [066, 871, 484, 667]에서의 에이전트 학습으로서, 웹 에이전트, 과학 설명 생성, 연구 아이디어 도출 등 실용적 과제 해결을 위한 강화학습 기반 추론 시스템입니다. 부가적으로 로봇 제어 및 안전성 검증 분야 [891, 395, 422, 662, 688]에서도 강화학습 기반 추론의 견고성(robustness)과 일반화 성능(generalization)을 평가하고 개선하는 연구들이 포함되어 있습니다. 이러한 연구들은 AI 시스템이 보상 신호만으로도 명시적 감독 없이 효과적인 추론 전략을 자동으로 학습할 수 있음을 보여주며, 향후 자율적이고 적응형인 지능형 에이전트 개발의 기초가 될 것으로 기대됩니다.

#592 2025 4/5

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

저자: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Jun-Mei Song | 날짜: 2025 | DOI: 10.1038/s41586-025-09422-z

Figure 1: (a) RL 훈련 과정에서 DeepSeek-R1-Zero의 AIME 정확도. (b) RL 프로세스 중 응답의 평균 길이 증가.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: (a) RL 훈련 과정에서 DeepSeek-R1-Zero의 AIME 정확도. (b) RL 프로세스 중 응답의 평균 길이 증가.* 본 논문은 인간이 주석을 단 추론 궤적(reasoning trajectory) 없이 순수 강화학습(RL)을 통해 대형언어모델(LLM)의 추론 능력을 유도할 수 있음을 보여준다. RL 훈련 과정에서 모델은 자발적으로 자기 검증, 재검토, 동적 전략 적응 등의 고급 추론 패턴을 개발한다.

Evaluation

Novelty: 5 Technical Soundness: 5 Significance: 5 Clarity: 4 Overall: 4

본 논문은 LLM의 추론 능력 발전에 있어 인간 주석의 필요성을 근본적으로 재검토하며, 순수 RL만으로 고급 추론 패턴의 자발적 발현을 입증한 혁신적 연구이다. AIME에서 인간 수준을 초과하는 성능 달성과 함께 모델의 자기 진화 과정을 명확히 보여주는 점이 높이 평가되나, 개방형 작업으로의 확장과 신경망 보상 모형의 안정화가 향후 과제로 남아있다.

#593 2025 4/5

RM-R1: Reward Modeling as Reasoning

저자: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian | 날짜: 2025 | DOI: 10.48550/arXiv.2505.02387

Essence

보상 모델(Reward Model, RM)에 추론 능력을 통합함으로써 해석 가능성과 성능을 모두 향상시킨 새로운 클래스의 생성형 보상 모델인 RM-R1을 제시한다. Chain-of-Rubrics(CoR) 메커니즘을 통해 작업 특성에 맞춘 맞춤형 추론 전략을 적용하여 70B, 340B 모델과 GPT-4o를 최대 4.9% 능가한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

보상 모델링을 추론 작업으로 재정의하는 핵심 아이디어와 Chain-of-Rubrics의 작업 인식 메커니즘이 혁신적이며, 실증적 성과(최대 4.9% 성능 향상)와 체계적 분석을 통해 실질적 기여를 입증한 우수한 연구이다. 다만 오라클 모델 의존성과 작업 분류의 이진 구조는 실무 확장성 측면에서 개선 여지가 있다.

#594 2025 4/5

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

저자: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu | 날짜: 2025 | DOI: 10.48550/arXiv.2504.21776

그림 1: 두 가지 작업에서 WebThinker와 다른 모델의 전체 성능 비교: 복잡한 문제 해결(좌측)과 과학 보고서 생성(우측)

Essence

![Figure 2](figures/fig2.webp) *그림 2: RAG 패러다임 비교: (a) 표준 RAG, (b) 사전 정의된 워크플로우가 있는 고급 RAG, (c) WebThinker의 자율적 도구 호출* 대규모 추론 모델(LRM)의 정적 지식 의존성을 극복하기 위해, 웹 탐색과 정보 수집을 추론 과정에 통합하는 자율 딥 리서치 에이전트를 제시한다. WebThinker는 LRM이 웹 페이지를 동적으로 탐색하고 실시간으로 보고서를 작성할 수 있도록 지원한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

WebThinker는 LRM의 추론 능력과 웹 정보 탐색을 효과적으로 결합하여 복잡한 지식 집약적 작업에서 뛰어난 성과를 보여준다. 특히 온라인 DPO 기반의 end-to-end 최적화와 실시간 Think-Search-and-Draft 전략은 고도로 독창적이며, 광범위한 벤치마크에서 proprietary 시스템을 능가하는 실증적 성과는 중요하다. 다만 계산 비용과 웹 신뢰성 문제는 실제 배포 시 고려해야 할 과제이다.

#595 2025 4/5

Iterative self-incentivization empowers large language models as agentic searchers

저자: Zhengliang Shi, Lingyong Yan, Dawei Yin, Suzan Verberne, Maarten de Rijke, Zhaochun Ren | 날짜: 2025 | DOI: arXiv:2505.20128

그림 1: HotpotQA 데이터셋에서 다양한 LLM에 EXSEARCH를 적용한 성능. 여러 모델과 스케일에서 안정적인 수렴을 보임.

Essence

![Figure 2](figures/fig2.webp) *그림 2: EXSEARCH의 Expectation-Maximization 프로세스 개요. E-step에서는 탐색 궤적을 샘플링하고 가중치를 할당하며, M-step에서는 재가중치 손실함수로 LLM을 학습시킨다.* 본 논문은 대규모 언어모델(LLM)을 정보 검색 에이전트로 자동 개선하는 **자기-인센티브화 기반 탐색 프레임워크(EXSEARCH)**를 제안한다. 일반화 EM 알고리즘을 통해 검색 궤적을 잠재변수로 취급하고, LLM이 생성한 데이터로부터 반복적으로 학습하는 자기 루프를 형성한다.

Evaluation

Overall: 4

EXSEARCH는 LLM 기반 정보 검색 에이전트를 자기-인센티브화된 자기 개선 루프로 학습하는 이론적으로 견고한 프레임워크를 제시하며, 지식 집약적 작업에서 일관된 성능 향상을 보여준다. 다만 계산 효율성 개선과 더 광범위한 작업 영역 검증이 이루어진다면 더 강력한 기여가 될 수 있다.

#596 2025 4/5

Kimi k1.5: Scaling reinforcement learning with llms

저자: Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Feng Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo | 날짜: 2025 | DOI: arXiv:2501.12599v4

Essence

![Figure 1: Kimi k1.5 long-CoT results](figures/fig1.webp) 본 논문은 대규모 언어모델(LLM)의 강화학습(RL) 기반 훈련을 통해 추론 성능을 대폭 향상시킨 Kimi k1.5 모델을 제시한다. 긴 맥락(long context) 확장과 개선된 정책 최적화를 기반으로 복잡한 기법(MCTS, 가치함수 등) 없이도 o1 수준의 성능을 달성했다.

Evaluation

Overall: 4

본 논문은 긴 맥락과 간단한 정책 최적화만으로 o1 수준의 추론 성능을 달성한 점에서 실질적 기여도가 크다. 특히 Long2Short 기법으로 단문 모델도 대폭 향상시킨 결과는 실무적 가치가 높으나, 훈련 데이터 공개 미흡과 이론적 근거 보강이 이루어진다면 더욱 설득력 있는 연구가 될 것으로 판단된다.

#597 2025 4/5

PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier

저자: Yuhua Jiang, Yuwen Xiong, Yufeng Yuan, Chao Xin, Wenyuan Xu | 날짜: 2025 | DOI: 10.48550/arXiv.2506.10406

상단 좌측: 다양한 수학 추론 데이터셋에서 PAG의 최첨단 자기 수정 성능. 하단: SCoRe는 신뢰도와 관계없이 항상 두 번째 시도를 생성하지만, PAG는 자기 검증을 통한 선택적 수정을 수행

Essence

![Figure 1](figures/fig1.webp) *상단 좌측: 다양한 수학 추론 데이터셋에서 PAG의 최첨단 자기 수정 성능. 하단: SCoRe는 신뢰도와 관계없이 항상 두 번째 시도를 생성하지만, PAG는 자기 검증을 통한 선택적 수정을 수행* 대형 언어모델(LLM)의 자기 수정(self-correction) 능력을 강화하기 위해, 정책(policy)과 검증자(verifier) 역할을 전환하며 다중 턴 강화학습을 통해 검증-수정 워크플로우를 구현한 새로운 프레임워크를 제안한다. 기존 방법과 달리 모델 자신의 검증 단계에서 오류를 명시적으로 감지할 때만 답변을 수정하므로 모델 붕괴를 완화하고 추론과 검증 능력을 함께 향상시킨다.

Evaluation

Overall: 4

PAG는 검증-수정 원칙을 통해 LLM 자기 수정의 모델 붕괴 문제를 우아하게 해결하며, 훈련 복잡도를 크게 감소시키면서도 성능을 향상시킨다. 단일 모델 내 역할 전환을 활용한 효율적인 설계가 돋보이나, 검증 신뢰도 향상과 다양한 작업으로의 일반화가 향후 과제이다.

#598 2023 4/5

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

저자: Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang | 날짜: 2023 | DOI: 10.48550/arXiv.2305.11738

Essence

![Figure 1](https://github.com/microsoft/ProphetNet/tree/master/CRITIC) *CRITIC 프레임워크: 외부 도구와 상호작용하여 검증(Verify)한 후 비판(Critique)에 기반해 수정(Correct)하는 반복 과정* 대규모 언어모델(LLM)이 외부 도구(검색엔진, 코드 인터프리터 등)와 상호작용하여 자신의 출력을 검증하고 반복적으로 자가수정(self-correct)할 수 있도록 하는 통합 프레임워크를 제안한다. 인간의 비판적 사고 방식을 모방하여 할루시네이션, 코드 오류, 독성 콘텐츠 등의 문제를 완화한다.

Evaluation

Overall: 4

CRITIC은 LLM의 자가수정 문제를 외부 도구 상호작용으로 우아하게 해결하며, 추가 학습 없이 범용적으로 적용 가능한 실용적 프레임워크를 제시한다는 점에서 높은 가치가 있다. 다만 도구 품질 의존성, 프롬프트 설계의 수작업 필요성, 계산 비용 증가 등의 실무적 제약이 있으며, 이들을 보완하는 추가 연구가 필요하다. ICLR 2024 채택된 것을 고려하면 LLM 신뢰성 개선 분야에서 의미 있는 기여를 한 것으로 평가된다.

#599 2025 4/5

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

저자: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu | 날짜: 2025 | DOI: 10.48550/arXiv.2505.16421

WebArena-Lite 벤치마크에서 기존 방법 대비 WebAgent-R1의 성능 비교

Essence

웹 에이전트(Web Agent) 학습을 위한 종단 간(End-to-End) 다중턴 강화학습 프레임워크를 제안하며, 동적 컨텍스트 압축과 병렬 궤적 생성을 통해 실제 웹 환경에서의 장기 의사결정을 효과적으로 수행하도록 훈련한다.

Evaluation

Overall: 4

본 논문은 웹 에이전트 학습의 실무적 과제(메모리, 외부 감독)를 창의적으로 해결하여 상당한 성능 향상을 달성했으며, 온폴리 강화학습의 다중턴 상호작용 환경으로의 확장을 성공적으로 입증한 의미 있는 기여이다.

#600 2026.03 4/5

Agentic Personas for Adaptive Scientific Explanations with Knowledge Graphs

저자: Susana Nunes, Tiago Guerreiro, Catia Pesquita | 날짜: 2026.03 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *페노피브레이트의 관상동맥질환 치료 관계에 대한 비적응형(REx)과 적응형(페르소나 조건부) 설명 예시* 본 논문은 지식그래프(Knowledge Graph) 기반 설명 생성에 **에이전틱 페르소나(agentic personas)**를 도입하여, 정적 사용자 모델의 한계를 극복하고 전문가의 다양한 인식론적 입장(epistemic stances)을 반영한 적응형 설명을 제공하는 강화학습 기반 접근법을 제시한다.

Evaluation

Overall: 4

본 논문은 적응형 설명성을 인식론적 입장 개념으로 재정의하고, 제한된 전문가 피드백을 LLM 기반 페르소나로 확장하는 창의적이고 실용적인 접근법을 제시한다. 약물 발견 도메인에서의 엄격한 검증과 윤리적 페르소나 설계 원칙은 강점이나, 표본 규모의 제한과 다중 도메인 일반화 부재는 주요 약점이다. 고위험 전문가 AI 시스템의 설명성 향상에 의미 있는 기여를 하지만, 대규모 재현성 검증으로 강화될 필요가 있다.

#601 2025 4/5

Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

저자: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu | 날짜: 2025 | DOI: 10.48550/arXiv.2506.03106

그림 1: (a) Critique-GRPO는 수치 피드백만이 아닌 자연어 피드백(비판)을 통해 초기 응답과 자기 개선 모두에서 학습 가능. (b) Qwen3-8B에서 8가지 추론 과제 평균 Pass@1 4.5% 개선. (c) 자기 비판을 통한 자기 개선으로 AIME 2024에서 66.7% Pass@1 달성.

Essence

![Figure 1](figures/fig1.webp) *그림 1: (a) Critique-GRPO는 수치 피드백만이 아닌 자연어 피드백(비판)을 통해 초기 응답과 자기 개선 모두에서 학습 가능. (b) Qwen3-8B에서 8가지 추론 과제 평균 Pass@1 4.5% 개선. (c) 자기 비판을 통한 자기 개선으로 AIME 2024에서 66.7% Pass@1 달성.* 본 논문은 순수 수치 보상(numerical rewards)의 한계를 극복하기 위해 자연언어 비판(natural language critiques)을 온라인 강화학습(online RL) 프레임워크에 통합한 Critique-GRPO를 제안한다. 이는 LLM의 추론 능력을 향상시키는 새로운 접근 방식이다.

Evaluation

Overall: 4

본 논문은 순수 수치 피드백 RL의 구체적 한계를 실증적으로 규명하고, 자연언어 비판과의 통합을 통해 온라인 RL 프레임워크를 성공적으로 확장한 의미 있는 연구이다. 광범위한 실험 결과와 일관된 성능 개선은 실용적 가치가 높으나, 이론적 깊이와 계산 효율성 측면에서는 추가 개선의 여지가 있다.

#602 2023 4/5

Decomposing the enigma: Subgoal-based demonstration learning for formal theorem proving

저자: Xueliang Zhao, Wenda Li, Lingpeng Kong | 날짜: 2023 | DOI: 10.48550/arXiv.2305.16366

그림 1: 왼쪽은 비형식적 증명과 부분목표 기반 증명의 예시, 오른쪽은 확산 모델을 사용한 시연 예제의 최적 부분집합과 순서 결정

Essence

![Figure 1](figures/fig1.webp) *그림 1: 왼쪽은 비형식적 증명과 부분목표 기반 증명의 예시, 오른쪽은 확산 모델을 사용한 시연 예제의 최적 부분집합과 순서 결정* 대형 언어 모델(LLM)을 형식 정리 증명(formal theorem proving)에 활용할 때, 시연 예제의 구조화와 조직화 방식을 개선함으로써 증명 성공률을 38.9%에서 45.5%로 향상시키는 부분목표 기반 학습 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

형식 정리 증명에서 LLM의 효율성을 높이기 위해 부분목표 분해와 확산 모델 기반 시연 조직화라는 두 가지 창의적 접근을 결합한 우수한 연구이다. 실증적 성과(45.5%)가 의미 있으며, 반복적 검증 기반의 부분목표 정제 알고리즘은 자동화 수준을 높인 점이 인정된다. 다만 초기 부분목표의 수동 구성, 확산 모델 학습 데이터의 제약성, 그리고 miniF2F에 국한된 평가는 일반화 가능성에 대한 의문을 남긴다. 추가로 확산 모델의 의사결정 원리에 대한 심층 분석과 다양한 정리 증명 환경으로의 확장이 향후 연구로 기대된다.

#603 2025 4/5

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

저자: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani | 날짜: 2025 | DOI: 10.48550/arXiv.2503.09516

Figure 1: PPO와 GRPO에서 검색 엔진을 활용한 훈련 과정. 롤아웃 중 LLM은 검색 엔진과 다중 턴 상호작용 수행

Essence

강화학습(RL)을 통해 대언어모델(LLM)이 추론 과정 중 검색 엔진을 자동으로 호출하고 활용하는 방법을 학습하는 프레임워크 Search-R1을 제안하며, 기존 RAG 대비 최대 41%의 성능 향상을 달성한다.

Evaluation

Overall: 4

Search-R1은 검색 엔진 호출을 RL 최적화에 체계적으로 통합한 실용적 프레임워크로, 강력한 실험 결과와 구현 상세함이 강점이나, 이론적 깊이와 계산 효율성에 대한 추가 분석이 요구된다.

#604 2025 4/5

Zero-shot sim-to-real transfer for reinforcement learning-based visual servoing of soft continuum arms

저자: Hsin-Jung Yang, Mahsa Khosravi, Benjamin Walt, Girish Krishnan, Soumik Sarkar | 날짜: 2025 | DOI: 10.48550/arXiv.2504.16916

Essence

![Figure 1](https://arxiv.org/html/2504.16916v1/x1.png) *그림 1: 시뮬레이션(위)과 실제 하드웨어(아래)에서 시각 서보잉을 수행하는 제안된 프레임워크의 개요* 소프트 연속 팔(Soft Continuum Arms, SCAs)의 비선형 동역학을 다루기 위해 운동학과 기계적 특성을 분리한 강화학습(RL) 기반 시각 서보잉 프레임워크를 제시하며, 시뮬레이션에서만 학습한 정책을 실제 하드웨어에 직접 배포하여 67% 성공률의 제로샷 심-투-리얼 전이(zero-shot sim-to-real transfer)를 달성했다.

Evaluation

Overall: 4

본 논문은 소프트 연속 팔 제어에 획기적인 접근법을 제시하며 제로샷 심-투-리얼 전이라는 미달성 과제를 최초로 성공시킨 점에서 학술적 가치가 높으나, 실제 성공률 67%는 현장 적용에 향상 여지를 남기고 있다. 이원 계층 아키텍처와 최소 센싱 원칙은 앞으로의 소프트 로보틱스 연구에 유용한 설계 가이드라인을 제공할 것으로 예상된다.

#605 2025 4/5

Guided by guardrails: Control barrier functions as safety instructors for robotic learning

저자: Maeva Guerrier, Karthik Soma, Hassan Fouad, Giovanni Beltrame | 날짜: 2025 | DOI: arXiv:2505.18858

그림 1: 세 가지 안전 가드레일 변형 - 필터(초록색), 보상 기반(주황색), 감쇠(파란색)

Essence

강화학습(RL)의 안전성 문제를 제어 장벽 함수(Control Barrier Functions, CBFs)를 활용하여 해결하는 혁신적 접근법을 제시한다. 세 가지 CBF 통합 방식을 통해 로봇이 안전한 행동을 학습하면서도 목표 달성 성능을 유지하도록 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 강화학습의 안전성 문제를 CBF라는 이론적으로 견고한 도구를 통해 해결하는 실질적이고 창의적인 접근을 제시하며, 세 가지 통합 방식의 비교와 sim2real 검증을 통해 실무적 가치를 입증한다. 다만 더 복잡한 환경과 동적 장애물에 대한 성능 평가가 후속 과제이다.

#606 2024 4/5

Improving generalization of robot locomotion policies via sharpness-aware reinforcement learning

저자: S. Bochem, E. Gonzalez-Sanchez, Y. Bicker, G. Fadini (ETH Zürich) | 날짜: 2024 | DOI: arXiv:2411.19732

다양한 노이즈 조건에서의 정책 성능 히트맵

Essence

미분 가능 시뮬레이터 기반의 1차 정책 최적화(first-order policy gradient) 방법은 샘플 효율성은 우수하나 일반화 성능이 떨어진다는 문제를 해결하기 위해, Sharpness-Aware Minimization (SAM) 기법을 로봇 강화학습에 처음 도입한 연구이다. SHAC-ASAM 알고리즘을 통해 손실 함수의 평평한 극소점(flat minima)을 찾음으로써 접촉 기반 로봇 제어 환경에서 견고성과 효율성을 동시에 달성한다.

Evaluation

Overall: 4

SHAC과 ASAM의 결합을 통해 미분 가능 시뮬레이터 기반 정책 학습에서 샘플 효율성과 강건성 사이의 균형을 효과적으로 달성한 실용적 접근이나, 실제 로봇 검증과 이론적 분석 강화가 필요하다.

#607 2025 4/5

오프라인 강화학습의 로봇 제어 견고성 평가: 행동 공간 섭동에 대한 연구

저자: Shingo Ayabe, Takuto Otomo, Hiroshi Kera, Kazuhiko Kawamoto | 날짜: 2025 | DOI: arXiv:2412.18781

오프라인 강화학습의 견고성 평가 개요: 다양한 품질의 오프라인 데이터셋으로 학습된 모델을 정상, 랜덤, 적대적 섭동 조건에서 평가

Essence

![Figure 1](figures/fig1.webp) *오프라인 강화학습의 견고성 평가 개요: 다양한 품질의 오프라인 데이터셋으로 학습된 모델을 정상, 랜덤, 적대적 섭동 조건에서 평가* 본 논문은 **오프라인 강화학습(Offline RL) 기반 로봇 제어 시스템의 행동 공간 섭동에 대한 견고성을 체계적으로 평가**하며, 기존 오프라인 RL 방법들이 액추에이터 고장과 같은 실제 운영 환경의 도전에 얼마나 취약한지를 실증적으로 증명한다.

Evaluation

Overall: 4

본 논문은 **오프라인 강화학습의 실제 운영 환경에서의 적용 가능성에 중요한 의문을 제기**하며, 행동 공간 섭동에 대한 체계적 취약성 평가를 통해 실무적 가치를 제공한다. 특히 데이터셋 커버리지와 견고성의 상관관계 규명은 향후 더 견고한 오프라인 RL 알고리즘 개발의 기초가 될 수 있다. 다만 **문제 진단에는 탁월하지만 해결책 제시는 미흡**하며, 실제 로봇 검증과 더 다양한 공격 형태 분석을 통한 심화가 필요하다.

#608 2025 4/5

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

저자: Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu | 날짜: 2025 | DOI: 10.48550/arXiv.2503.19470

그림 1: ReSearch와 기준선(baseline) 방법들의 벤치마크 성능 비교. 모든 기준선은 Qwen2.5-32B-Instruct 기반.

Essence

![Figure 1](figures/fig1.webp) *그림 1: ReSearch와 기준선(baseline) 방법들의 벤치마크 성능 비교. 모든 기준선은 Qwen2.5-32B-Instruct 기반.* ReSearch는 강화학습(RL)을 통해 대규모 언어모델(LLM)이 추론 과정 중 언제 어떻게 검색을 수행할지를 자동으로 학습하는 프레임워크이다. 감독 데이터 없이 검색 쿼리, 텍스트 기반 사고(thinking), 검색 결과를 통합한 추론 체인을 만들어 다중 홉(multi-hop) 질문 답변에서 8.9~22.4%의 성능 향상을 달성했다.

Evaluation

Overall: 4

ReSearch는 추론과 검색을 통합하는 새로운 관점에서 강화학습을 적용하여 감독 데이터 없이도 다중 홉 질문 답변에서 뚜렷한 성능 개선을 달성한 실질적 가치 높은 논문이다. 다만 보상 함수의 단순성, 훈련 비용 분석 부재, 평가 데이터셋의 제한성 등으로 인해 완전성 면에서는 약간의 개선 여지가 있다.

#609 2024 4/5

Robustness evaluation of offline reinforcement learning for robot control against action perturbations

저자: Shingo Ayabe, Takuto Otomo, Hiroshi Kera, Kazuhiko Kawamoto (Chiba University) | 날짜: 2024 | DOI: arXiv:2412.18781

Essence

![Figure 1](figures/fig1.webp) *오프라인 RL의 견고성 평가 개요: 다양한 품질의 오프라인 데이터셋에서 학습한 모델을 정상, 랜덤, 적대적 행동 섭동 조건에서 평가* 본 논문은 오프라인 강화학습(Offline RL)이 로봇 제어에서 행동 공간의 섭동(action perturbations)에 대해 얼마나 취약한지를 체계적으로 평가하고, 기존의 온라인 RL 방법보다 더 큰 약점을 가짐을 실증적으로 증명한다.

Evaluation

Overall: 4

본 논문은 오프라인 RL의 행동 공간 섭동에 대한 취약성을 처음으로 체계적으로 드러냄으로써 중요한 안전성 문제를 제기한다. 다만 문제 제시에 머물고 해결책이 부족하며, 실제 로봇 환경에서의 검증이 필요하다는 점이 제약이다.

#610 2025 4/5

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

저자: Xiaoyuan Liu, Tian Liang, Zhiwei He, Jiahao Xu, Wenxuan Wang | 날짜: 2025 | DOI: 10.48550/arXiv.2505.13445

RISE 프레임워크: (i) 문제 풀이 및 검증 생성 단계와 (ii) RL 최적화 단계로 구성

Essence

![Figure 1](figures/fig1.webp) *RISE 프레임워크: (i) 문제 풀이 및 검증 생성 단계와 (ii) RL 최적화 단계로 구성* 대규모 언어모델(LLM)의 "표면적 자기반성(superficial self-reflection)" 문제를 해결하기 위해, 검증 가능한 보상(verifiable rewards)을 활용하여 문제 풀이 능력과 자기검증 능력을 **동시에 온라인으로 학습**하는 RISE 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 검증 가능한 보상을 활용하여 LLM의 문제 풀이와 자기검증 능력을 동시에 강화하는 실용적이고 효과적인 온라인 RL 프레임워크를 제안하며, 수학적 추론 벤치마크에서의 일관된 성능 개선과 상세한 분석으로 학계의 주목할 만한 기여이다.

#611 2024 3/5

Learning to generate research idea with dynamic control

저자: Ruochen Li, Liqiang Jing, Chi Han, Jiawei Zhou, Xinya Du | 날짜: 2024

Figure 1: 연구 논문으로부터의 연구 아이디어 생성. 각 아이디어는 참신성, 실현성, 효과성 차원으로 측정됨

Essence

![Figure 2](figures/fig2.webp) *Figure 2: 3가지 차원에 걸친 동적 제어를 포함한 학습 프레임워크. 생성된 연구 아이디어는 각 차원에 대한 점수를 제공하는 보상 모델로 평가되며, 이는 강화학습 미세조정 과정 중에 아이디어 제안자와 차원별 제어 파라미터를 최적화하도록 안내* 대규모 언어모델(LLM)을 활용하여 연구 아이디어 생성을 자동화하되, 참신성(novelty), 실현성(feasibility), 효과성(effectiveness)의 세 가지 핵심 차원 간의 균형을 동적으로 조정하는 두 단계 학습 프레임워크를 제시한다. 감독학습(SFT)과 제어 가능한 강화학습(RL)을 결합하여 차원별 보상 모델을 통해 미세한 피드백으로 최적화한다.

Evaluation

Overall: 3

본 논문은 연구 아이디어 생성이라는 중요한 문제에 대해 차원별 보상 모델과 동적 제어라는 실용적인 해결책을 제시하며, 자동화된 실제 데이터 활용이 강점이다. 그러나 자동 피드백의 신뢰성, 동적 메커니즘의 이론적 근거, 그리고 실제 학술적 영향력에 대한 검증이 보강되면 더욱 견고한 연구가 될 것으로 판단된다.

#612 2025 3/5

Value iteration for learning concurrently executable robotic control tasks

저자: Sheikh A. Tahmid, Gennaro Notomista | 날짜: 2025 | DOI: 정보 없음

로봇 팀이 장애 영역을 회피하면서 삼각형을 형성하는 장면

Essence

중복도(redundancy)를 가진 로봇 시스템이 여러 제어 태스크를 동시에 실행할 수 있도록 강화학습(RL)으로 학습된 가치 함수들 간의 독립성(independence)을 정의하고, 이를 만족하도록 학습하는 새로운 방법을 제안한다. 제안된 비용 함수(cost functional)를 통해 훈련된 태스크들을 우선순위 기반 스택으로 시간-변동 방식으로 조합 및 실행할 수 있다.

Evaluation

Overall: 3

제어-관계 동역학을 고려한 새로운 태스크 독립성 개념과 이를 학습하는 프레임워크는 강점이나, 순차 학습 및 정확한 동역학 가정 등 실용성 제약이 있으며, 이론적 수렴성 분석과 실제 로봇 실험 검증이 필요한 상태이다.

#613 2025 3/5

Webdancer: Towards autonomous information seeking agency

저자: Jing Wu, Baixuan Li, Runnan Fang, Weihua Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Xi Zhang, Gang Fu, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou | 날짜: 2025 | DOI: 10.48550/arXiv.2505.22648

그림 1: CRAWLQA와 E2HQA 두 가지 웹 데이터 생성 파이프라인. CRAWLQA는 웹 페이지 크롤링을 통해 깊이 있는 질문을 구성하고, E2HQA는 간단한 질문을 반복적으로 복잡하게 변환하여 멀티스텝 추론을 요구하는 QA 쌍을 생성한다.

Essence

![Figure 1](figures/fig1.webp) *그림 1: CRAWLQA와 E2HQA 두 가지 웹 데이터 생성 파이프라인. CRAWLQA는 웹 페이지 크롤링을 통해 깊이 있는 질문을 구성하고, E2HQA는 간단한 질문을 반복적으로 복잡하게 변환하여 멀티스텝 추론을 요구하는 QA 쌍을 생성한다.* 본 논문은 웹 환경에서 자율적 정보 탐색을 수행하는 에이전트(WebDancer)를 구축하기 위한 체계적 파이프라인을 제시한다. 데이터 중심의 관점에서 고품질 탐색 데이터와 궤적(trajectory)을 생성하고, 감독학습(SFT)과 강화학습(RL)을 순차적으로 적용하여 멀티스텝 정보 탐색 능력을 갖춘 에이전트를 학습시킨다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 3

Scholarly Information Retrieval Analytics 174편 ▶

Scholarly Information Retrieval Analytics Timeline

Category Overview

학술 정보 검색 분석(Scholarly Information Retrieval Analytics) 분야의 146편 논문은 과학 연구에서 AI 기술의 활용과 검증, 그리고 학술 자료의 효율적인 처리를 다루고 있습니다. 이 카테고리는 과학적 사실 검증(Scientific Fact Verification), 학술 문헌 요약(Scientific Literature Summarization), 동료 검토 감지(Peer Review Detection) 등 학술 커뮤니티의 핵심 활동을 AI로 자동화하는 연구들을 포함하고 있습니다. 특히 대규모 언어모델(LLM)이 텍스트 주석[206], 리뷰 생성[677], 자기 검증[747] 등 학술 업무에서 인간 전문가를 어느 정도 보완하거나 대체할 수 있는지에 대한 실증적 연구가 주목받고 있습니다[107], [187], [041]. 동시에 LLM 기반의 도구들이 자동으로 학술 자료를 요약[812]하고, 인용문(Citation Context)을 생성[219]하며, 지식 그래프(Knowledge Graphs)를 활용해 사실을 검증[333]하는 방법론들이 제시되고 있습니다. 한편 반대급부로 AI 생성 콘텐츠 탐지(Human-AI Detection)[611], 피어 리뷰의 질 평가[481], 학술지 철회(Retraction) 연구[885] 등 AI 시대 학술 생태계의 신뢰성과 무결성 유지를 위한 노력도 함께 진행 중입니다.

Scientific Fact Verification: # Scientific Fact Verification Scientific Fact Verification는 학술 정보 검색 분석 분야에서 주요한 하위 범주로, 과학적 주장과 사실들의 진위를 자동으로 검증하는 기술을 다룬다. 이 분야는 NLP(Natural Language Processing) 기반의 fact-checking 시스템의 한계를 극복하고 [541], multimodal 증거 활용과 LLM(Large Language Model) 기반 검증 방법론을 발전시키고 있다 [267]. 특히 LLM의 자가 검증 능력(self-checking)을 활용하거나 [747] unsupervised pretraining 방식으로 사실 검증 모델을 개선하는 연구들이 진행되고 있다 [859]. 또한 복잡한 주장(complex claims)에 대한 program-guided reasoning 접근법과 [332] 뉴스 기사의 사실성을 검증하기 위한 계층적(hierarchical) 방법론들이 제안되고 있다 [832]. 이러한 연구들은 Interactive한 방식으로 모호성을 해결하거나 [223] LLM의 자기 개선(self-improvement) 능력을 활용하여 fact verification의 정확도와 신뢰성을 높이는 데 기여하고 있다 [470].
AI in Scientific Research: AI in Scientific Research는 과학 연구 영역에서 인공지능의 역할과 영향을 다루는 중요한 주제입니다. 대규모 언어모델(Large Language Models, LLM)이 과학 논문 작성, 문헌 검토, 연구 데이터 분석 등 다양한 과학적 활동에 활용되고 있으며 [460][467], 이러한 기술의 도입으로 과학 커뮤니티의 관행과 윤리에 대한 근본적인 질문들이 제기되고 있습니다. 특히 AI 도구가 할루시네이션(hallucination) 현상을 보이거나 검증되지 않은 정보를 생성할 위험성에 대한 우려가 있으며 [753][796], 연구자들은 이러한 기술을 효과적이고 책임감 있게 활용하기 위해 적절한 거버넌스와 검토 메커니즘을 개발해야 합니다 [895]. 따라서 과학 연구의 질과 신뢰성을 유지하면서 AI의 혁신적 잠재력을 활용하는 균형잡힌 접근 방식이 시급한 상황입니다.
Scientific Literature Summarization: 과학 문헌 요약(Scientific Literature Summarization)은 학술 정보 검색 분석(Scholarly Information Retrieval Analytics) 영역에서 대규모의 과학 논문을 자동으로 처리하고 핵심 내용을 압축하는 기술을 다룬다. 이 분야의 연구들은 멀티모달 정보 추출(Multimodal Information Extraction) [524]부터 의료 연구의 다중 문서 요약(Multi-document Summarization) [561]에 이르기까지 다양한 문제 해결 방법을 제시한다. 특히 관련 연구 섹션 데이터셋 구축 [581]과 모듈식 파이프라인(Modular Pipeline) 구축 [108]을 통해 체계적인 문헌 검색과 요약의 자동화가 이루어진다. 계층적 카탈로그 생성(Hierarchical Catalogue Generation) [402]과 체크리스트 기반 반복 생성(Checklist-guided Iterative Generation) [534] 같은 방법론은 문헌 리뷰의 효율성을 크게 향상시킨다. 생의학 클레임 추출(Biomedical Claims Extraction) [711]과 같은 고급 기술들은 과학 문헌의 주요 주장을 자동으로 식별하고 검증하는 능력을 제공한다.
Hierarchical Knowledge Graphs: 계층적 지식 그래프(Hierarchical Knowledge Graphs)는 학술 정보 검색 분석에서 복잡한 지식 구조를 체계적으로 조직하고 활용하는 중요한 기술 영역입니다. 이는 개별 정보 요소들을 다층적 계층 구조로 표현함으로써 대규모 지식 베이스의 탐색성(discoverability)과 추론 능력을 향상시킵니다. [032]의 지식 그래프 표현 및 습득에 관한 종합 조사와 [020]의 관계형 머신 러닝(relational machine learning) 검토는 이 분야의 이론적 기초를 제공합니다. 실제 응용 측면에서 [215]의 LLM 기반 계층적 조직화 방법과 [450]의 지식 네비게이션 프레임워크는 사용자가 방대한 학술 정보를 효율적으로 탐색할 수 있도록 지원합니다. 또한 [333]의 지식 그래프 기반 사실 검증과 [563]의 다중 문서 과학 요약은 검색된 정보의 신뢰성과 통합성을 보장하는 핵심 기능입니다.
Peer Review Detection: 피어 리뷰 탐지(Peer Review Detection)는 학술 출판 생태계에서 인공지능이 생성한 리뷰를 식별하고 검증하는 기술 분야입니다. [270], [445]와 같은 연구들은 대규모 언어모델(Large Language Models, LLMs)이 작성한 피어 리뷰를 탐지하기 위한 방법론을 제시하고 있으며, 이는 학술지의 투명성과 신뢰성을 보장하는 데 중요한 역할을 합니다. [677], [678]과 같은 논문들은 AI 기반 리뷰 시스템의 최적화와 리뷰 생성 프로세스의 개선 방안을 탐구하고 있습니다. 또한 [083]은 확장 가능하고 편향 없는 리뷰 시스템 구축을 위해 LLMs의 성능을 평가하는 연구를 다루고 있습니다. 이러한 탐지 기술은 학술 커뮤니티의 질적 수준을 유지하고 인간 심사자의 역할을 보호하기 위한 필수적인 도구로 활용되고 있습니다.
Citation Context Generation: Citation Context Generation (인용 문맥 생성)은 학술 문헌에서 인용문의 맥락을 자동으로 생성하고 분석하는 기술 분야입니다. 이 분야는 연구논문들 간의 관계를 파악하고 인용 문장(citation sentence)을 생성하며, 적절한 인용 추천(citation recommendation)을 제공하는 것을 목표로 합니다. [219]는 local citation 생성을 위한 Citebart 모델을 제시하였고, [238]은 언어 모델을 통한 제어 가능한 인용 문장 생성 방법을 제안했습니다. 더불어 [329]는 연구논문들 간의 관계를 설명하는 방식을 탐구하였으며, [420]은 근거 기반의 해석 가능한 local citation 추천 시스템(ILCiteR)을 개발했습니다. 최근에는 [702]의 ScholarCopilot과 같이 대규모 언어모델(LLM)을 학술 환경에 맞게 학습시키는 접근법이 나타나고 있으며, 이러한 기술들은 학자들의 문헌 작성 과정을 효과적으로 지원하는 데 활용됩니다.
News Verification Automation: 뉴스 검증 자동화(News Verification Automation)는 과학 정보 검색 분석 분야에서 대규모로 생성되는 과학 관련 뉴스와 주장의 신뢰성을 자동으로 검증하는 기술을 다룬다. 이 하위 범주는 대규모 언어 모델(Large Language Models)의 거짓 정보 탐지 능력 [183], 과학 출판물을 잘못 표현하는 오류의 접지(Grounding fallacies) [394], 그리고 반자동화된 사실 검증(Semi-automated fact-checking) [057]을 포함한 다양한 검증 방법들을 포함한다. 또한 AI 공동 연구원(AI Co-Scientists)의 검증 실패를 벤치마크하는 연구 [881]와 설명 가능한 주장 수준의 검증(Explainable claim-level verification) [221] 등 자동화된 검증 시스템의 신뢰성을 평가하는 방법론도 다룬다. 철회된 논문 데이터셋(Retraction dataset) [885]과 비판적 문제를 다루는 과학 논문 리뷰 자동화 [680]는 검증 시스템의 학습과 평가를 위한 기초 자료로 활용된다. 이러한 연구들은 과학 정보의 무결성을 보장하고 오류 정보의 확산을 방지하는 데 핵심적인 역할을 한다.
Expert Review Feedback: 전문가 리뷰 피드백(Expert Review Feedback)은 학술 문헌의 품질 관리와 개선을 위해 전문가의 평가 및 의견을 수집하고 분석하는 과정입니다. 이는 논문 요약, 문서 편집, 그리고 자동화된 리뷰 생성 등 다양한 작업을 포함하며, 특히 대규모 언어 모델(Large Language Model)을 활용한 자동 평가 시스템의 개발이 주요 관심사입니다. [812]의 극단적 요약(Extreme Summarization) 기법과 [519]의 다중 에이전트 리뷰 생성(Multi-Agent Review Generation) 방식은 복잡한 학술 문서를 효율적으로 처리하고 체계적인 피드백을 제공합니다. [592]에서 제시된 OpenReviewer와 같은 특화된 언어 모델들은 과학 논문의 리뷰 품질을 높이기 위해 설계되었으며, 이러한 도구들은 학술 커뮤니케이션의 투명성과 신뢰성을 강화합니다. 궁극적으로 전문가 리뷰 피드백 체계는 학술 출판의 신뢰성 확보와 연구 커뮤니티의 지식 공유 효율화를 목표로 합니다.
Scholarly Document QA: 학술 문서 질의응답(Scholarly Document QA)은 과학 논문, 임상 정보, 생의학 문헌 등 전문 분야의 학술 자료에서 정보를 검색하고 질문에 답변하는 기술을 다룬다. [645]PubMedQA와 [715]Scidqa와 같은 데이터셋들은 생의학 연구 질문 응답과 과학 논문의 깊이 있는 독해 능력을 평가하는 벤치마크를 제공한다. [701]ScholarChemQA와 [488]Leveraging LLMs in Scholarly Knowledge Graph Question Answering 연구들은 대규모 언어모델(Large Language Models)이 화학, 의학 등 특정 학술 영역의 복잡한 질문에 답변하는 능력을 향상시키는 방법을 탐구한다. [424]Improving health question answering과 [530]MedBioLM 같은 연구는 도메인 특화 미세조정(Fine-tuning)과 신뢰할 수 있는 정보 활용을 통해 의료 및 생물학 질문 응답 시스템의 정확성을 개선하고 있다.
Patent Citation Prediction: Patent Citation Prediction은 특허 문서에서 인용 관계를 예측하고 분석하는 학술정보 검색 분야입니다. 이 분야는 인공지능(AI)이 기존 특허들 간의 인용 패턴을 학습하여 새로운 특허가 어떤 선행 기술을 참고할 가능성이 높은지를 자동으로 예측하는 연구를 포함합니다. [178]에서는 특허의 신규성(novelty)을 평가하기 위해 AI 기술을 활용하는 방법론을 제시하고 있으며, [220]에서는 인용 문헌의 텍스트 구간(cited text spans)을 파악하여 인용 문헌 생성(citation text generation)에 활용하는 기술을 다루고 있습니다. 이러한 연구들은 특허 심사 과정의 효율성 증대와 기술 혁신의 적절한 평가에 기여하며, [041]에서 논의되는 AI의 연구 지원 잠재력(AI's potential to assist research)을 구현하는 실제 사례로 볼 수 있습니다.
Scientific Question Answering: Scientific Question Answering (과학 질의응답)은 학술 문헌에서 과학적 질문에 대한 정확한 답변을 자동으로 찾아내고 생성하는 기술 영역입니다. 이는 방대한 학술 논문 데이터베이스에서 관련 정보를 검색(Information Retrieval)하고, Retrieval-Augmented Generation(RAG) 기법을 활용하여 신뢰할 수 있는 답변을 제공합니다. [602] PaperQA는 검색 강화 생성 에이전트(Retrieval-Augmented Generative Agent)로 과학 논문 분석을 지원하며, [843] TreeReview는 동적 질문 트리 프레임워크(Dynamic Tree of Questions Framework)를 통해 깊이 있는 문헌 분석을 가능하게 합니다. [087] AI2 Scholar QA와 같은 시스템은 속성 기반 인용(Attributed Citation)을 포함한 조직화된 문헌 종합(Organized Literature Synthesis)을 제공하며, 테이블 추론(Table Reasoning) 능력 강화[802]와 대규모 언어모델(Large Language Model) 기반의 테이블 이해도 개선[787]되고 있습니다. 이러한 기술들은 연구자들의 학술 영향력 확대(Scientists' Impact Expansion)[107]에 기여하며 과학 연구의 효율성을 크게 향상시키고 있습니다.
Academic Writing Diversity: Academic Writing Diversity는 AI 기술이 학술 저술 활동에 미치는 다양성 영향을 분석하는 분야입니다. 이 영역의 연구들은 언어모델(Language Models)이 학술 글쓰기의 내용 다양성(Content Diversity)을 감소시킬 수 있는지 실증적으로 검토하고 있습니다[284]. 동시에 인간의 창의성(Creativity)과 아이디어 진화(Idea Evolution)에 대한 AI의 영향을 대규모 동적 실험(Large-scale Dynamic Experiments)을 통해 측정하려는 시도들이 이루어지고 있습니다[409]. 인간과 언어모델이 창의성을 어떻게 이해하고 추론하는지(Human-LLM Reasoning)에 관한 비교 연구와 학술 저술에서의 공진화(Coevolution) 패턴 분석도 주요 연구 주제입니다[414]. 결과적으로 이 분야는 AI 도구 활용이 학술 커뮤니티의 지적 다양성과 혁신성을 어떻게 변화시키는지 규명하는 것을 목표로 합니다.
Cross-modal Language Detection: Cross-modal Language Detection은 서로 다른 양식(modality)의 데이터에서 언어를 감지하고 처리하는 학문 정보 검색 분석 분야입니다. 이는 텍스트, 이미지, 음성 등 다양한 형태의 정보를 통합하여 언어를 인식하고 분류하는 기술을 다룹니다. [192]에서는 cross-lingual과 cross-modal 과제를 동시에 처리하는 벤치마크를 제시하며, [001]에서는 멀티모달 환경에서 풍자(sarcasm) 감지와 같은 고차원적 언어 이해를 위한 신뢰성 있는 시스템 개발을 제안합니다. 또한 [314]에서 언어모델(Language Models)이 자체 개선(self-improvement)을 암묵적으로 학습할 수 있는 메커니즘을 탐구하는 연구도 이 영역에 포함됩니다. 이러한 연구들은 대규모 언어모델(LLM)의 다중 모달 이해 능력을 향상시키고, 더욱 정교한 언어 감지 및 분석 시스템 구축에 기여하고 있습니다.
Publication Concept Extraction: # Publication Concept Extraction Publication Concept Extraction은 학술 논문들로부터 핵심 개념, 아이디어, 그리고 연구 주제를 자동으로 추출하는 기술 분야입니다. 이 분야는 대규모 언어 모델(Large Language Models, LLMs)과 인공지능 기술을 활용하여 논문에 담긴 혁신적이고 흥미로운 연구 아이디어를 식별하고 생성하는 것을 목표로 합니다. [187]과 [376]의 연구들은 LLMs가 새로운 연구 아이디어를 생성할 수 있는지 여부를 규모있게 검증하고, 인간 전문가의 평가를 통해 그 질적 수준을 평가하는 방법론을 제시합니다. [132]와 [434]는 심리학 가설 생성 자동화와 지식 그래프(Knowledge Graph) 기반의 흥미로운 과학 아이디어 생성 시스템을 개발하여 학술 개념 추출의 실질적 응용을 보여줍니다. [762]의 Spark 시스템은 이러한 기술들을 종합하여 과학적 창의성(Scientific Creativity)을 지원하는 통합 플랫폼으로 기능합니다.
Table Caption Generation: 표 캡션 생성(Table Caption Generation)은 학술 문서에서 표의 내용을 정확하게 설명하는 텍스트를 자동으로 생성하는 기술입니다. 이는 과학 논문의 표를 이해하기 위해 필수적인 메타데이터를 제공하며, 시각 정보와 텍스트 정보를 통합하는 멀티모달(multimodal) 정보 검색에 중요한 역할을 합니다. [732]에서 제시된 대규모 데이터셋과 [564]의 다중 LLM(Large Language Model) 협업 접근법은 표 캡션 생성의 정확도를 크게 향상시켰습니다. [399]와 [401]에서 제안한 강조된 증거(highlighted evidence) 활용과 계층적 주의 메커니즘(hierarchical attention mechanism)은 복잡한 학술 문서에서 더욱 관련성 높은 캡션을 생성하는데 기여합니다. 이러한 기술들은 학술 정보 검색 시스템에서 논문의 표 정보를 효과적으로 색인화하고 요약하는 데 활용되고 있습니다.
Review Reward Models: # Review Reward Models 리뷰 보상 모델(Review Reward Models)은 학술 출판 및 피어 리뷰(peer review) 프로세스에서 AI와 인간의 협력을 강화하기 위한 연구 분야입니다. 이 분야는 자동화된 리뷰 생성, 리뷰 품질 평가, 그리고 창의적인 콘텐츠 생성을 위한 보상 메커니즘(reward mechanism)을 다룹니다. [665]에서는 LLM 추론(LLM reasoning)을 활용한 자동화된 피어 리뷰 생성 방법을 제안하고 있으며, [676]에서는 인간이 생성한 리뷰와 AI 생성 리뷰 간의 격차를 줄이기 위한 ReviewAgents 시스템을 개발했습니다. [515]의 Machine-in-the-loop 접근법은 인간의 개입을 통해 창의적인 이미지 캡셔닝(image captioning) 품질을 향상시키는 방식을 보여줍니다. 이러한 연구들은 학술 커뮤니티의 효율성을 높이고 리뷰 품질을 개선하는 데 기여하고 있습니다.
Long Context Embeddings: Long Context Embeddings는 학술 정보 검색에서 긴 문맥을 효과적으로 처리하고 표현하는 기술 분야입니다. [036]에서 다루는 트랜스포머 문맥 확장(Transformer Context Extension) 접근법들은 모델이 더 많은 토큰을 처리할 수 있도록 하여 장문의 문서나 다중 문단의 쿼리를 이해하는 능력을 향상시킵니다. [318]의 하이브리드 검색 증강 생성(Hybrid Retrieval-Augmented Generation) 시스템에서 최적의 문맥 길이를 추정하는 것은 검색 정확도와 계산 효율성 사이의 균형을 맞추는 데 중요합니다. 단어 정렬(Word Alignment) 기술인 [755]는 다국어 임베딩 공간에서 의미론적 대응을 찾아 긴 문맥에서의 교차언어 검색 성능을 개선합니다. 또한 [092]의 다중 뷰 클러스터링(Multi-view Clustering) 방법은 임베딩 정렬 및 융합을 통해 복잡한 고차원 문맥 정보를 효과적으로 활용합니다. 이러한 기술들의 통합은 장문 문서 분석, 다국어 검색, 그리고 문맥 인식 정보 검색 시스템의 성능을 크게 향상시킵니다.
Human-AI Detection: Human-AI Detection(인간-AI 탐지)는 AI 모델이 생성한 콘텐츠와 인간이 작성한 콘텐츠를 구별하는 기술 분야를 다룹니다. ChatGPT와 같은 대규모 언어 모델(Large Language Models, LLM)의 성능이 향상되면서 AI 생성 텍스트의 품질이 인간 수준에 근접해지고 있으며, 이에 따라 신뢰할 수 있는 탐지 방법론의 필요성이 증가하고 있습니다[206]. 특히 텍스트 주석 작업(text-annotation tasks)과 같은 구체적인 애플리케이션에서 AI의 성능을 평가하고, AI 도구의 활용 능력을 측정하는 연구가 중요한 역할을 하고 있습니다[813]. 학술 정보 검색(scholarly information retrieval) 분야에서는 가설 생성이나 연구 결과 예측 등 고차원적인 작업에서 AI의 역할을 분석하며, 이러한 분석을 통해 인간과 AI의 능력 차이를 정량적으로 파악할 수 있습니다[492]. 따라서 Human-AI Detection은 학술 출판의 무결성을 보장하고 AI 시대의 신뢰할 수 있는 정보 생태계를 구축하는 데 필수적인 연구 영역입니다.
Iterative Text Refinement: Iterative Text Refinement는 자동화된 피드백을 바탕으로 텍스트를 반복적으로 개선하는 기술 영역입니다. [746]의 Self-Refine 방식은 모델이 자체 피드백(self-feedback)을 생성하여 초기 응답을 지속적으로 개선하는 메커니즘을 제시합니다. [227]과 [656]은 인간-AI 협력 환경에서 자동 피드백 생성 및 수정 프로세스를 통해 텍스트 품질을 향상시키는 시스템을 다룹니다. [743]의 자기-비판 기반 반복 추론(self-critique guided iterative reasoning)은 다중-홉 질문 응답에서 단계별로 논리를 검증하면서 답변을 정제합니다. 이러한 접근 방식들은 사용자의 개입을 최소화하면서도 생성 텍스트의 정확성과 일관성을 체계적으로 높이는 데 효과적입니다.
Academic Writing Personalization: Academic Writing Personalization(학술 저작 개인화)는 개별 연구자의 특성과 필요에 맞춘 맞춤형 학술 작성 지원 기술을 다루는 분야입니다. 대규모 언어 모델(Large Language Model, LLM)의 등장으로 인해 학술 저작 과정에서 인공지능 기반의 개인화된 조언과 피드백을 제공하는 방식이 급속도로 발전하고 있습니다[280]. 사용자 이력 데이터를 효과적으로 활용하여 맞춤형 프로필을 구축하는 Step-back profiling 같은 기법들[775]과 초기 문장의 품질을 개선하여 유창한 학술 표현을 생성하는 방법론[272]들이 핵심 연구 주제입니다. 특히 인간-AI 협업(Human-AI Collaboration) 환경에서 저자가 원하는 학술 콘텐츠를 통제 가능하게 생성하는 기술[889]이 학술 커뮤니티에서 광범위하게 적용되고 있습니다. 이 분야는 연구자의 생산성 향상과 글쓰기 질 개선을 동시에 실현하는 데 기여하고 있습니다.
Multi-Memory Dataset Methods: 학술 정보 검색 분석(Scholarly Information Retrieval Analytics) 분야에서 다중 메모리 데이터셋 방법론(Multi-Memory Dataset Methods)은 복잡한 학술 작업을 해결하기 위해 여러 메모리 구조를 활용하는 접근 방식을 다룹니다. [481]의 Lazyreview는 자연언어처리(NLP)에서 게으른 사고를 감지할 수 있는 데이터셋을 제공하며, [520]의 MASSW는 AI 보조 과학 논문 작성을 위한 벤치마크 작업과 데이터셋을 제시합니다. [742]의 Select, Read, and Write는 다중 에이전트(multi-agent) 프레임워크를 통해 전체 텍스트 기반 학술 작업을 수행하는 통합 접근법을 제안하고 있습니다. [565]의 Multi-novelty는 콘텐츠의 다양성(diversity)과 신규성(novelty)을 향상시키는 메커니즘을 소개합니다. 이러한 방법론들은 학술 정보 검색 시스템에서 데이터셋의 품질과 효율성을 동시에 개선하는 데 기여합니다.

Academic Writing Personalization 5 ▶

#614 2025 4/5

Divergent LLM Adoption and Heterogeneous Convergence Paths in Research Writing

저자: Wu Zhu, Cong Lin | 날짜: 2025 | DOI: Not provided

Essence

ChatGPT 공개 이후 학술 논문 작성에서 LLM 활용이 급증하고 있으나, 그 실제 사용 패턴과 영향을 체계적으로 분석한 연구는 부재했다. 본 논문은 arXiv의 627,384개 논문을 분석하여 학문 분야, 성별, 모국어 여부, 경력 단계에 따른 이질적 LLM 채택 패턴과 이로 인한 학술 글쓰기 수렴 현상을 최초로 대규모로 규명한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 ChatGPT 이후 학술 글쓰기 변화를 최초로 대규모로 계량 분석하여, LLM의 글쓰기 품질 개선과 스타일 동질화라는 이중 효과를 규명했다. 특히 경력·성별·언어 배경별 이질적 채택과 수렴을 보여주어, 기술 채택의 불평등이 반드시 심화되지 않을 수 있음을 시사한다. 다만 초록 한정 분석과 인과기제에 대한 심화 탐색이 후속 과제다.

#615 2025 4/5

Scholawrite: A dataset of end-to-end scholarly writing process

저자: Linghe Wang, Minhwa Lee, R. Volkov, L. Chau, Dongyeop Kang | 날짜: 2025

Essence

학술 논문 작성의 전체 과정을 키스트로크(keystroke) 로깅과 인지적 주석을 통해 추적한 첫 대규모 데이터셋으로, 초안부터 최종 원고까지 4개월에 걸친 61K개 텍스트 변경을 포함한다. 이를 통해 인간의 비선형적 저술 과정과 현재 대규모언어모델(LLM)의 능력 간 격차를 실증적으로 규명한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

이 논문은 학술 저술의 인지 과정을 장기 추적하는 첫 대규모 데이터셋을 제시하여 "저술을 과학으로" 접근할 기초를 마련했으며, 인간 인지와 현재 LLM 간 근본적 차이를 실증적으로 입증함으로써 향후 인간-중심의 저술 보조 도구 개발에 명확한 방향을 제시한다. 다만 표본 다양성 제약과 모델 평가 범위 한정이 일반화 가능성을 저해할 수 있는 점이 아쉽다.

#616 2019 4/5

Diamonds in the rough: Generating fluent sentences from early-stage drafts for academic writing assistance

저자: Takumi Ito, Tatsuki Kuribayashi, Hayato Kobayashi, Ana Brassard, Masato Hagiwara, Jun Suzuki, Kentaro Inui | 날짜: 2019 | DOI: arXiv:1910.09180

Essence

![Figure 1](https://imgur.com/3yXkZ8J.png) *쓰기 과정의 4단계(초안 작성→수정→편집→교정)와 본 연구의 초점* 비모국어 부정확한 초안 문장을 유창하고 완성된 학술 문장으로 자동 변환하는 문장 수준 수정(Sentence-level Revision, SentRev) 작업을 제안하고, 이를 위한 SMITH 데이터셋을 구축하여 기준선 성능을 설정한다.

Evaluation

Overall: 4

학술 쓰기 보조의 미개척 영역인 초안 수정 단계를 새로운 작업으로 정의하고, 창의적인 크라우드소싱 방법론으로 자연스러운 오류 데이터셋을 구축했다는 점에서 중요한 기여이다. 다만 신경망 기반 모델 개발과 실제 적용 평가가 미흡하며, 향후 다양한 언어와 규모의 데이터 확장이 필요하다.

#617 2024 4/5

Step-back profiling: Distilling user history for personalized scientific writing

저자: Xiangru Tang, Xingyao Zhang, Yanjun Shao, Jie Wu, Yilun Zhao, Arman Cohan, Ming Gong, Dongmei Zhang, Mark Gerstein | 날짜: 2024 | DOI: arXiv:2406.14275

그림 1: STEP-BACK PROFILING 개요. 각 사용자의 과거 논문을 압축하여 프로필 표현을 생성하고, 이를 LLM 생성 과정에 증강하는 방식

Essence

![Figure 1](figures/fig1.webp) *그림 1: STEP-BACK PROFILING 개요. 각 사용자의 과거 논문을 압축하여 프로필 표현을 생성하고, 이를 LLM 생성 과정에 증강하는 방식* 본 논문은 사용자 이력(user history)을 간결한 프로필로 증류(distill)하여 LLM을 개인화하는 **STEP-BACK PROFILING** 기법을 제안한다. 특히 다중 저자 과학 논문 작성이라는 현실적 시나리오에서 협업 글쓰기를 지원하기 위해 개발되었다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 협업 과학 글쓰기라는 현실적 문제를 정의하고, 사용자 이력의 효율적 압축을 통한 LLM 개인화 방법을 제시한 점에서 기여도가 높다. 다만 저자 간 상호작용의 명시적 모델링과 인간 평가 기반 검증이 강화되면 더욱 설득력 있는 연구가 될 수 있다.

#618 2025 4/5

XtraGPT: Llms for human-ai collaboration on controllable academic paper revision

저자: Nuo Chen, Andre Huikai Lin, Jiaying Wu, Junyi Hou, Zining Zhang, Qian Wang, Xidong Wang, Bingsheng He | 날짜: 2025 | DOI: arXiv:2505.11336

Essence

![Figure 1](figures/fig1.webp) *학술 논문 수정 워크플로우 비교 (좌) 및 proprietary LLM의 부족한 수정 예시 (우)* 본 논문은 맥락 인식(context-aware)과 제어 가능한(controllable) 학술 논문 수정을 위한 인간-AI 협업 프레임워크를 제안하며, 이를 구현한 XtraGPT 모델군(1.5B~14B)을 소개한다. 140,000개의 지도 학습 쌍으로 구성된 ReviseQA 데이터셋을 구축하여 섹션 단위의 정교한 학술 논문 수정을 지원한다.

Evaluation

Overall: 4

본 논문은 학술 논문 수정을 인간-AI 협업의 관점에서 체계적으로 접근한 실용성 높은 연구이며, 기준 기반 지시 정렬과 맥락 인식 모델링이라는 명확한 설계 원칙 아래 140,000개 쌍의 전문가 주석 데이터셋과 XtraGPT 모델군을 제시했다. 자동/인간 평가에서 GPT-4o-mini 수준의 성능을 달성하고 실제 논문 품질 개선을 입증했으나, 모델 규모와 언어 다양성 면에서의 한계가 향후 과제로 남아있다.

Scientific Question Answering 9 ▶

#619 2026.01 4/5

Artificial intelligence tools expand scientists' impact but contract science's focus

저자: Qianyue Hao, Fengli Xu, Yong Li, James Evans | 날짜: 2026.01 | DOI: 10.1038/s41586-025-09922-y

그림 1: 1980-2025년 기간 동안 AI를 활용한 논문과 연구자의 지수적 증가 추세. 기계학습(ML), 딥러닝(DL), 생성형 AI(GAI) 세 시대별로 분화.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 1980-2025년 기간 동안 AI를 활용한 논문과 연구자의 지수적 증가 추세. 기계학습(ML), 딥러닝(DL), 생성형 AI(GAI) 세 시대별로 분화.* 본 논문은 4,130만 편의 자연과학 논문을 분석하여 AI 도구의 과학 영향을 정량화했다. **핵심 역설**: AI를 활용한 과학자들은 개인적으로 3배 이상 많은 논문을 발표하고 더 빠르게 리더십을 확보하지만, 집단 과학은 주제 다양성이 4.63% 축소되고 학자 간 상호 작용이 22% 감소한다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 AI 도입이 개인 과학자의 생산성과 영향력을 극적으로 증대하지만, 동시에 과학 전체의 주제 다양성과 창의적 탐색을 위축시킨다는 중요한 구조적 문제를 정량적으로 증증했다. Nature 게재 수준의 높은 엄밀성과 사회적 함의를 갖춘 연구이나, 인과성 규명과 정책 처방은 향후 과제로 남아있다.

#620 2025 4/5

BrowseComp: A simple yet challenging benchmark for browsing agents

저자: J. Wei, Zhiqing Sun, Spencer Papay, Steve McKinney, Jeffrey S. Han, Isa Fulford, Hyung Won Chung, Alex Tachard Passos, William Fedus, Amelia Glaese | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 테스트 시 계산량(browsing effort)에 따른 OpenAI Deep Research의 BrowseComp 성능. 정확도가 계산량에 비례하여 증가* 웹 에이전트의 능력을 평가하기 위해 1,266개의 어려운 질문으로 구성된 BrowseComp 벤치마크를 제시한다. 이 벤치마크는 깊이 있는 웹 탐색과 창의적인 검색 능력을 요구하면서도 답변이 짧고 검증이 용이한 특징을 갖는다.

Evaluation

Overall: 4

BrowseComp는 급성장하는 웹 에이전트 분야에 명확한 표준을 제공하는 실용적이고 잘 설계된 벤치마크이지만, 실제 사용자 요구(긴 답변, 모호성 해결)를 포함한 확장이 향후 필요하다.

#621 2022 4/5

Few-shot Learning with Retrieval Augmented Language Models

저자: Gautier Izacard, Patrick Lewis, M. Lomeli, Lucas Hosseini, F. Petroni | 날짜: 2022

Figure 1: Atlas는 사전학습과 미세조정 단계 모두에서 검색을 활용하는 검색 증강 언어 모델로, 지식 기반 작업에서 강력한 few-shot 성능을 보임

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Atlas는 사전학습과 미세조정 단계 모두에서 검색을 활용하는 검색 증강 언어 모델로, 지식 기반 작업에서 강력한 few-shot 성능을 보임* 본 논문은 매개변수 메모리에 의존하지 않고 외부 지식 소스를 활용하는 검색 증강 언어 모델(Atlas)을 제시하여, 550억 개 매개변수 모델보다 50배 적은 매개변수(110억)로 우수한 few-shot 학습 성능을 달성한다.

Evaluation

Overall: 4

본 논문은 검색 증강 언어 모델의 few-shot 학습 능력을 체계적으로 탐구하여, 매개변수 효율성과 성능 간의 새로운 균형점을 제시한 고품질 연구다. 특히 실무 적용 가능성과 지식 업데이트 용이성 측면에서 학계와 산업계에 모두 기여할 수 있는 중요한 작업이다.

#622 2025 4/5

The mighty torr: A benchmark for table reasoning and robustness

저자: Shir Ashury-Tahan, Yifan Mai, C Rajmohan, Ariel Gera, Yotam Perlitz, Asaf Yehudai, Elron Bandel, Leshem Choshen, Eyal Shnarch, Percy Liang, Michal Shmueli-Scheuer | 날짜: 2025

Figure 1: ToRR의 개요. LLM을 다양한 프롬프트 구성으로 표 추론 데이터셋에서 평가하고, 테이블 직렬화(serialization) 및 섭동(perturbation) 변형을 포함하여 성능과 신뢰성을 분석

Essence

![Figure 1](figures/fig1.webp) *Figure 1: ToRR의 개요. LLM을 다양한 프롬프트 구성으로 표 추론 데이터셋에서 평가하고, 테이블 직렬화(serialization) 및 섭동(perturbation) 변형을 포함하여 성능과 신뢰성을 분석* 본 논문은 **ToRR(Table Reasoning and Robustness) 벤치마크**를 제시하여, 대규모 언어모델(LLM)의 표 데이터 이해 능력과 다양한 표 형식에 대한 견고성(robustness)을 체계적으로 평가한다. 10개의 데이터셋을 통해 14개 주요 LLM을 평가한 결과, 최신 모델들도 표 형식 변화에 취약한 '깨지기 쉬운(brittle)' 행동을 보인다는 것을 발견했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM의 표 데이터 처리 능력에 대한 가장 포괄적인 평가를 제공하며, 특히 표 형식 변화에 따른 모델의 취약성을 실증적으로 드러냈다는 점에서 높은 가치를 지닌다. 견고성 메트릭과 메타-평가 분석은 향후 NLP 벤치마크 설계의 방향성을 제시하는 중요한 기여이다.

#623 2025 4/5

TreeReview: A dynamic tree of questions framework for deep and efficient llm-based scientific peer review

저자: Yuan Chang, Ziyue Li, Hengyuan Zhang, Yuanbo Kong, Yanru Wu, Hayden Kwok-Hay So, Zhijiang Guo, Liya Zhu, Ngai Wong | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *TreeReview 프레임워크 개요: (A) 하향식 질문 생성 단계에서 계층적 질문 분해, (B) 상향식 답변 집계 단계에서 최종 리뷰 생성* 본 논문은 긴 학술 논문의 동료평가(peer review)를 효율적이면서도 깊이 있게 수행하기 위해 질문-답변 트리 구조를 활용하는 TreeReview 프레임워크를 제안한다. 계층적 질문 분해와 동적 질문 확장 메커니즘을 통해 LLM 기반 과학 논문 검토에서 종합성, 기술적 깊이, 전문가 정렬성을 향상시키면서 토큰 사용량을 80%까지 감소시킨다.

Evaluation

Overall: 4

TreeReview는 LLM 기반 학술 논문 동료평가의 실질적 과제들을 명확히 인식하고, 계층적 질문 분해와 동적 확장이라는 우아한 해결책으로 높은 품질을 유지하면서 계산 효율성을 획기적으로 개선한 연구이다. 포괄적 벤치마크 공개와 인간 평가를 통한 검증으로 신뢰성이 높으나, 초매개변수 선택과 도메인 다양성 측면에서 추가 분석이 있으면 더욱 견고할 것으로 판단된다.

#624 2024.09 4/5

Language agents achieve superhuman synthesis of scientific knowledge

저자: Michael D. Skarlinski, Sam Cox, Jon M. Laurent, James D. Braza, Michaela Hinks, Michael J. Hammerling, Manvitha Ponnapati, Samuel G. Rodriques, Andrew D. White | 날짜: 2024.09 | DOI: 10.48550/arXiv.2409.13740

PaperQA2의 아키텍처와 핵심 성능 지표

Essence

LLM(Large Language Model)의 환각(hallucination) 문제를 극복한 에이전트 시스템 PaperQA2를 개발하여, 과학 문헌 검색, 요약, 모순 탐지 작업에서 박사 수준의 과학자를 능가하는 성능을 달성했다.

Evaluation

Overall: 4

이 논문은 과학 문헌 합성에서 LLM의 초인간 성능 달성을 엄격한 방법론으로 입증한 중요한 기여로, LitQA2 벤치마크와 PaperQA2 시스템의 설계가 실질적 가치 높음. 다만 모순 탐지의 신뢰도 한계와 도메인 편향을 극복하고, 계산 효율성을 개선한다면 과학 연구 인프라로서의 가능성이 더욱 강화될 것으로 판단됨.

#625 2023 4/5

PaperQA: Retrieval-Augmented Generative Agent for Scientific Research

저자: Jakub Lála, Odhran O'Donoghue, Aleksandar Shtedritski, Sam Cox, Samuel G. Rodriques, Andrew Dickson White | 날짜: 2023

PaperQA는 과학 논문 검색 및 합성을 통해 과학적 질문에 답변하는 에이전트 기반 검색 증강 생성(RAG) 시스템이다.

Essence

![Figure 1: PaperQA Workflow Diagram](figures/fig1.webp) *PaperQA는 과학 논문 검색 및 합성을 통해 과학적 질문에 답변하는 에이전트 기반 검색 증강 생성(RAG) 시스템이다.* 대규모언어모델(LLM)의 환각(hallucination) 문제를 해결하기 위해 모듈화된 RAG 컴포넌트를 활용하여 전문가 수준의 성능을 달성한다.

Evaluation

Overall: 4

PaperQA는 모듈화된 에이전트 기반 RAG를 통해 과학 문헌 기반 질답에서 인간 전문가 수준의 성능을 달성한 실질적 기여로, LitQA라는 새로운 벤치마크 도입으로 분야 발전에 촉매 역할을 할 것으로 기대된다. 다만 외부 API 의존성과 계산 비용 최적화 측면에서의 추가 연구가 필요하다.

#626 2025 4/5

Tablemaster: A recipe to advance table understanding with language models

저자: Lang Cao, Hanbing Liu | 날짜: 2025

표의 특성으로 인한 4가지 주요 도전과제와 이에 대응하는 솔루션 개요

Essence

![Figure 1](figures/fig1.webp) *표의 특성으로 인한 4가지 주요 도전과제와 이에 대응하는 솔루션 개요* 언어 모델(LM)의 테이블 이해 능력을 향상시키기 위해 구조화된 데이터의 특성으로부터 발생하는 4가지 도전과제를 식별하고, 이를 해결하기 위한 통합 프레임워크 TableMaster를 제안한다.

Evaluation

Overall: 4

테이블 이해의 도전과제를 체계적으로 분석하고 표적화된 솔루션들을 실용적으로 통합한 종합적 프레임워크로, 세 개의 벤치마크 데이터셋에서 우수한 성능을 달성함으로써 테이블 기반 NLP 작업의 발전에 실질적인 기여를 한다.

#627 2025 4/5

Ai2 Scholar QA: Organized literature synthesis with attribution

저자: Amanpreet Singh, Joseph Chee Chang, Dany Haddad, Aakanksha Naik, Jena D. Hwang, Rodney Kinney, Daniel S. Weld, Doug Downey, Sergey Feldman | 날짜: 2025

그림 1: Scholar QA 파이프라인 개요 - 검색(Retrieval), 재순위매김(Reranker), 다단계 생성(Multi-Step Generation)으로 구성

Essence

![Figure 1](figures/fig1.webp) *그림 1: Scholar QA 파이프라인 개요 - 검색(Retrieval), 재순위매김(Reranker), 다단계 생성(Multi-Step Generation)으로 구성* Ai2 Scholar QA는 과학 문헌에서 검색-증강 생성(RAG)을 활용하여 장문의 과학 질문에 답하는 무료 공개 시스템이다. 전체 파이프라인을 오픈소스로 공개하며 인용 기반의 조직화된 답변 보고서를 생성한다.

Evaluation

Overall: 4

Ai2 Scholar QA는 기존의 폐쇄 과학 QA 시스템에 대한 효과적인 오픈소스 대안을 제시하며, 투명한 인용 기반 답변 생성과 포괄적인 공개 자원을 통해 과학 정보 검색의 민주화를 실현한 실질적으로 가치 있는 시스템이다.

Publication Concept Extraction 5 ▶

#628 2024.09 4/5

Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

저자: Chenglei Si, Diyi Yang, Tatsunori Hashimoto | 날짜: 2024.09 | DOI: 10.48550/arXiv.2409.04109

Essence

![Figure 1](https://arxiv.org/html/2409.04109v1/x1.png) 100명 이상의 NLP 연구자를 모집한 대규모 블라인드 리뷰 연구를 통해, LLM이 생성한 연구 아이디어가 전문가 인간이 작성한 아이디어보다 **신규성(novelty) 측면에서 유의미하게 우수**함을 통계적으로 입증한 첫 연구이다. 다만 실현 가능성(feasibility)에서는 소폭 낮은 평가를 받았다.

Evaluation

Overall: 4

이 논문은 LLM의 연구 아이디어 생성 능력을 평가한 최초의 대규모 전문가 비교 연구로, 매우 엄격한 실험 설계와 통계적 엄밀성을 갖춘 고품질 연구이다. LLM이 신규성 측면에서 인간 전문가를 능가한다는 발견은 중요한 통찰을 제공하며, 동시에 실현 가능성 저하와 생성 다양성 결핍이라는 구체적 한계를 명확히 함으로써 향후 개선 방향을 제시한다. 다만 평가 범위가 프롬프팅 NLP로 제한되고, 신규성 판단의 객관성 문제가 여전히 존재하며, 실제 연구 성과로의 전환 가능성은 향후 end-to-end 연구에서 검증되어야 한다는 한계가 있다. 그럼에도 불구하고 자율 연구 에이전트의 핵심 질문에 과학적으로 접근한 방법론적 엄밀성과 향후 연구를 위한 표준 제시라는 점에서 매우 의미 있는 기여이다.

#629 2024 4/5

Generation and human-expert evaluation of interesting research ideas using knowledge graphs and large language models

저자: Xuemei Gu, Mario Krenn | 날짜: 2024 | DOI: arXiv:2405.17044

SciMuse 시스템: 지식 그래프와 GPT-4를 이용한 연구 아이디어 생성 메커니즘. (a) 5,800만 개 논문에서 123,128개 개념을 추출하여 구성한 지식 그래프, (b) 개인화된 연구 협력 제안 생성 과정

Essence

![Figure 1](figures/fig1.webp) *SciMuse 시스템: 지식 그래프와 GPT-4를 이용한 연구 아이디어 생성 메커니즘. (a) 5,800만 개 논문에서 123,128개 개념을 추출하여 구성한 지식 그래프, (b) 개인화된 연구 협력 제안 생성 과정* 본 논문은 5,800만 개의 과학논문과 대규모언어모델(LLM)을 활용하여 개인화된 연구 아이디어를 생성하는 SciMuse 시스템을 제시하고, 110명 이상의 연구그룹 리더가 4,400개 이상의 아이디어를 평가한 대규모 인간 평가 연구이다. 이를 통해 AI 생성 연구 아이디어의 매력도를 예측할 수 있는 두 가지 방법(지도학습 신경망, 제로샷 LLM 랭킹)을 개발했다.

Evaluation

Overall: 4

본 논문은 AI 기반 연구 아이디어 생성의 현실성을 입증한 주요 연구로, 대규모 인간 전문가 평가를 통한 엄밀한 검증과 실용적 예측 모델을 제시한 점이 강점이다. 다만 평가자 다양성 부족과 인과관계 규명의 한계로 인해 완전한 일반화에는 제약이 있으나, 향후 AI-과학자 협력 연구의 모범 사례를 제공한다.

#630 2024 4/5

Automating psychological hypothesis generation with AI: when large language models meet causal graph

저자: Song Tong, Kai Mao, Zhen Huang, Yukun Zhao, Kaiping Peng | 날짜: 2024 | DOI: 10.1057/s41599-024-03407-5

LLMCG 알고리즘을 기반한 가설 생성 프레임워크: 문헌 검색, 인과 관계 쌍 추출, 가설 생성의 세 단계

Essence

![Figure 1](figures/fig1.webp) *LLMCG 알고리즘을 기반한 가설 생성 프레임워크: 문헌 검색, 인과 관계 쌍 추출, 가설 생성의 세 단계* 본 연구는 대규모 언어 모델(LLM)과 인과 지식 그래프(Causal Knowledge Graph)를 결합하여 심리학 분야의 자동화된 가설 생성을 수행했다. 43,312개 심리학 논문을 분석한 결과, LLM 단독보다 우월한 신규성을 가진 130개의 웰빙 관련 가설을 생성할 수 있음을 입증했다.

Evaluation

Overall: 4

본 논문은 심리학 분야의 자동 가설 생성에 대한 선도적 시도로, LLM과 인과 그래프의 상승효과를 실증적으로 입증했다. 대규모 문헌 분석과 신뢰성 있는 비교 평가는 강점이지만, 인과 추출의 정확도 검증과 생성 가설의 실제 실험적 검증이 향후 연구에서 보완되어야 한다.

#631 2025.01 4/5

Interesting Scientific Idea Generation using Knowledge Graphs and LLMs: Evaluations with 100 Research Group Leaders

저자: Xuemei Gu, Mario Krenn | 날짜: 2025.01 | DOI: 10.48550/arXiv.2405.17044

Essence

![Figure 1](figures/fig1.webp) *SciMuse 시스템이 지식 그래프와 GPT-4를 활용한 연구 아이디어 생성 프로세스* 본 논문은 5,800만 개의 과학 논문으로부터 구축한 지식 그래프(Knowledge Graph)와 대규모언어모델(LLM)을 결합하여 개인화된 연구 아이디어를 생성하고, 100명 이상의 연구그룹리더들의 평가를 통해 AI가 생성한 연구 아이디어의 흥미도를 예측하는 SciMuse 시스템을 제시한다.

Evaluation

Overall: 4

본 논문은 대규모 인적 평가를 통해 AI 생성 연구 아이디어의 실제 가치를 체계적으로 평가한 점에서 높은 기여도를 갖지만, 학제 간 평가의 불균형과 예측 모델의 실제 개선 효과 미흡이 한계이다. 그럼에도 과학 지식 그래프 기반 아이디어 생성과 예측의 가능성을 실증적으로 입증했다는 점에서 의미 있는 연구이다.

#632 2025 3/5

Spark: A system for scientifically creative idea generation

저자: Asiem Sanyal, Samuel Schapiro, Sumuk Shashidhar, Royce Moon, Lav R. Varshney, Dilek Hakkani‐Tür | 날짜: 2025

Essence

![Figure 1](SPARK의_end-to-end_파이프라인.png) *SPARK의 end-to-end 파이프라인: XPLOR는 임베딩 기반 재귀적 문헌 검색을 수행하고, SPARK Idea Generator는 체인-오브-소트 프롬팅으로 연구 제안을 합성하며, SPARK Filter는 지도학습 미세조정된 JUDGE 모델을 통해 자동화된 동료평가 및 순위 매김을 수행한다.* 대규모 언어 모델(LLM)과 계산 창의성(CC) 원칙을 결합하여 과학적 아이디어를 자동 생성하고 평가하는 통합 시스템을 제시한다. OpenReview의 600K 과학 리뷰로 훈련된 JUDGE 평가 모델을 통해 생성된 아이디어의 창의성을 자동 검토한다.

Evaluation

Overall: 3

본 논문은 계산 창의성 원칙에 기반한 과학 아이디어 생성 시스템의 개념적 기여와 공개 데이터셋 제공으로 의미 있는 작업이나, JUDGE 모델의 평가 신뢰도 검증 부재와 기술적 세부 사항 부족으로 인해 완전성이 떨어진다. 향후 인간 평가와의 상관관계 분석 및 다양한 도메인으로의 확장 검증이 필요하다.

Human-AI Detection 6 ▶

#633 2023.07 4/5

ChatGPT outperforms crowd workers for text-annotation tasks

저자: Fabrizio Gilardi, Meysam Alizadeh, Maël Kubli | 날짜: 2023.07 | DOI: 10.1073/pnas.2305016120

그림 1: 네 가지 데이터셋에서 ChatGPT의 영점 샷(zero-shot) 텍스트 주석 성능 비교. ChatGPT의 정확도(accuracy)는 대부분의 작업에서 MTurk를 능가하며, 모든 작업에서 코더 간 합의도(intercoder agreement)가 MTurk와 훈련된 주석자를 초과함.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 네 가지 데이터셋에서 ChatGPT의 영점 샷(zero-shot) 텍스트 주석 성능 비교. ChatGPT의 정확도(accuracy)는 대부분의 작업에서 MTurk를 능가하며, 모든 작업에서 코더 간 합의도(intercoder agreement)가 MTurk와 훈련된 주석자를 초과함.* ChatGPT는 텍스트 주석 작업에서 크라우드 워커(crowd workers)를 평균 25 percentage point 초과하는 정확도로 능가하며, 훈련된 주석자 수준의 코더 간 합의도를 달성하면서도 MTurk 대비 약 30배 저렴한 비용으로 수행 가능함을 입증하는 연구이다.

Evaluation

Overall: 4

본 논문은 ChatGPT가 텍스트 주석 작업에서 크라우드 소싱을 실질적으로 대체 가능함을 최초로 체계적으로 입증한 중요한 실증 연구로, NLP 연구 커뮤니티의 실무 방식 전환을 촉발할 시사점이 있으나, 다언어 성능과 장기적 신뢰성에 대한 추가 검증이 필요하다.

#634 2023.02 4/5

Toolformer: Language Models Can Teach Themselves to Use Tools

저자: Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom | 날짜: 2023.02 | DOI: 10.48550/arXiv.2302.04761

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Toolformer의 예시적 예측. 모델이 자율적으로 다양한 API(위에서부터: 질의응답 시스템, 계산기, 기계번역 시스템, Wikipedia 검색 엔진)를 호출하여 텍스트 완성에 필요한 정보를 획득한다.* 언어 모델이 자기 자신의 피드백만을 이용하여 계산기, 검색 엔진, 질의응답 시스템 등의 외부 도구를 언제 어떻게 사용할지 자동으로 학습할 수 있는 Toolformer 모델을 제안한다. 인간의 주석 없이 자가감독(self-supervised) 방식으로 학습되며, 6.7B 매개변수의 소규모 모델이 GPT-3보다 나은 성능을 달성한다.

Evaluation

Overall: 4

Toolformer는 인간 주석 없이 모델 자신의 피드백으로부터 도구 사용을 학습하는 획기적인 접근법을 제시함으로써, 언어 모델의 근본적 한계를 극복하는 실질적이고 일반적인 해결책을 제공한다. 비록 기술적으로는 기존 개념들의 신중한 조합이지만, 자동화된 데이터셋 생성과 효율적인 필터링을 통해 실용적 가치가 높으며, 소규모 모델의 대규모 모델 능가라는 임팩트있는 결과를 달성했다는 점에서 높이 평가된다.

#635 2024 4/5

Literature meets data: A synergistic approach to hypothesis generation

저자: Haokun Liu, Yangqiaoyu Zhou, Mingxuan Li, Chenfei Yuan, Chenhao Tan | 날짜: 2024

문헌 기반(A), 데이터 기반(B), 통합 접근(C) 가설 생성의 비교

Essence

![Figure 1](figures/fig1.webp) *문헌 기반(A), 데이터 기반(B), 통합 접근(C) 가설 생성의 비교* 본 논문은 대규모 언어모델(LLM)을 활용하여 문헌 기반의 이론적 통찰과 데이터 기반의 패턴 발견을 통합하는 최초의 가설 생성 방법을 제안한다. 통합 접근은 기존의 단일 접근 방식보다 우수한 일반화 성능을 보이며, 인간 의사결정 개선에도 실질적 도움을 준다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 이론과 데이터의 상호 보완성을 실증적으로 입증하며, 특히 인간 의사결정 개선을 측정한 최초의 체계적 연구로서 높은 가치를 지닌다. 다만 평가 범위의 학제적 확장과 실무적 확장성(자동 문헌 검색, 계산 비용 최적화)에 대한 추가 연구가 필요하다.

#636 2024 4/5

Hypothesis Generation with Large Language Models

저자: Yangqiaoyu Zhou, Haokun Liu, Tejes Srivastava, Hongyuan Mei, Chenhao Tan | 날짜: 2024 | DOI: 10.18653/v1/2024.nlp4science-1.10

Essence

본 논문은 대규모 언어 모델(LLM)을 이용하여 데이터 기반 과학적 가설(hypothesis)을 자동으로 생성하고 개선하는 HypoGeniC 알고리즘을 제안한다. 다중 슬롯 머신(multi-armed bandit) 이론에 영감을 받아 탐색-활용(exploration-exploitation) 균형을 조절하며 반복적으로 가설 풀을 업데이트하여, 소수 샘플 프롬프팅을 크게 능가하는 해석 가능한 가설 기반 분류기를 구현한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM을 과학적 가설 생성에 활용하는 새로운 시도로, 다중 슬롯 머신 이론에 기반한 체계적이고 실용적인 알고리즘을 제시하며 실증적으로 강력한 결과를 도출했다. 특히 생성된 가설의 모델 간 호환성과 해석 가능성은 LLM의 일반화 능력을 시사하는 중요한 발견이다. 다만, 더 깊은 이론적 분석과 실제 과학 커뮤니티와의 협력을 통한 가설 품질의 검증이 이루어진다면 더욱 설득력 있는 기여가 될 것으로 기대된다.

#637 2024 4/5

Improving demonstration diversity by human-free fusing for text-to-sql

저자: Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *기준선(좌)과 FUSED(우)의 시연(demonstration) 풀 구성 비교. FUSED는 기존 라벨링 없이도 또는 인간 개입 없이 시연 풀을 합성하고 다양성을 향상시킬 수 있음* 본 논문은 대규모 언어모델(LLM)의 문맥 내 학습(in-context learning)을 활용한 Text-to-SQL 작업에서 시연(demonstration) 풀의 다양성을 측정하고 향상시키는 방법을 제안한다. 기존의 인간 라벨링 기반 시연 선택 방식의 낮은 다양성과 높은 비용 문제를 해결하기 위해 FUSED(FUSing itEratively for Demonstrations) 방법을 도입한다.

Evaluation

Overall: 4

본 논문은 Text-to-SQL 작업의 시연 풀 다양성을 체계적으로 측정하고 개선하는 실용적인 방법을 제안한다. DM 지표는 명확한 동기를 가지고 있으며, FUSED 방법은 라벨링 비용을 절감하면서도 일관된 성능 향상을 달성했다. 다만 일부 설계 선택의 이론적 근거가 보강되고 생성된 시연의 품질에 대한 상세 분석이 있으면 더욱 우수한 논문이 될 것으로 판단된다.

#638 2025 4/5

Predicting empirical ai research outcomes with language models

저자: Jiaxin Wen, Chenglei Si, Chen Yueh-Han, He He, Shi Feng | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *인간 NLP 전문가 대비 시스템의 예측 정확도 비교* 본 논문은 AI 연구 아이디어의 실험 성공 가능성을 사전에 예측하는 최초의 벤치마크와 언어 모델 기반 시스템을 제시한다. 두 개의 경쟁하는 연구 아이디어 중 어느 것이 벤치마크에서 더 좋은 성능을 보일지 예측하는 과제에서, 미세조정된 GPT-4.1과 검색 에이전트를 결합한 시스템이 인간 전문가를 큰 폭으로 능가함을 보여준다.

Evaluation

Overall: 4

본 논문은 실증적 AI 연구 성과 예측이라는 중요하면서도 미개척된 문제에 대해 엄격한 벤치마크 구축과 강력한 시스템 개발을 제시한 우수한 연구이다. 특히 인간 전문가를 능가하는 성능과 미발표 아이디어에 대한 일반화 가능성은 주목할 만하나, 도메인 간 성능 격차 분석과 왜 최신 대형 언어 모델들이 이 과제에서 실패하는지에 대한 심층적 이해가 향상되면 영향력이 더욱 커질 수 있다.

Scholarly Document QA 8 ▶

#639 2025 4/5

Clinical entity augmented retrieval for clinical information extraction

저자: Iván López, Akshay Swaminathan, Karthik S. Vedula, Sanjana Narayanan, F. Nateghi Haredasht | 날짜: 2025 | DOI: 10.1038/s41746-024-01377-1

Essence

임상 노트에서 정보를 추출할 때 임상 엔티티(clinical entities)를 기반으로 관련 정보만 효율적으로 검색하여 대규모 언어모델(LLM)에 제공하는 CLEAR 파이프라인을 제안하며, 기존 embedding 기반 검색 대비 70% 이상의 토큰 사용량 감소와 추론 시간 단축을 달성하면서도 성능을 개선했다.

Evaluation

Overall: 4

이 논문은 임상 정보 추출에서 embedding 기반 검색의 비효율성을 명확히 인식하고 엔티티 기반의 실질적 대안을 제시하는 실용적이고 검증된 연구이다. 대규모 임상 데이터셋에서 일관되게 우수한 성능과 효율성을 입증했으나, 온톨로지 의존성과 도메인 특화성 측면에서는 추가 개선의 여지가 있다.

#640 2024 4/5

Openscholar: Synthesizing scientific literature with retrieval-augmented lms

저자: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'Arcy, David Wadden, Matt Latzke, Mingliang Tian, Peng Ji, Shengyan Liu, Tong Hao, Borong Wu, Yi Xiong, Luke Zettlemoyer, Graham Neubig | 날짜: 2024 | DOI: ---

OpenScholar의 전체 개요: 전문화된 데이터스토어, 검색기 및 언어모델로 구성되며, 검색 기반 자체 피드백 추론 루프를 통해 반복적으로 응답을 개선한다.

Essence

![Figure 1](figures/fig1.webp) *OpenScholar의 전체 개요: 전문화된 데이터스토어, 검색기 및 언어모델로 구성되며, 검색 기반 자체 피드백 추론 루프를 통해 반복적으로 응답을 개선한다.* 본 논문은 4,500만 개의 오픈 액세스 과학 논문에서 관련 구절을 검색하고 인용 기반 응답을 합성하는 검색 증강 대규모 언어모델(RAG-LM) 기반 시스템 OpenScholar를 제안하며, 함께 과학 논문 합성 평가를 위한 대규모 벤치마크 ScholarQA-Bench를 소개한다.

Evaluation

Overall: 4

본 논문은 과학 문헌 합성을 위한 현실적이고 포괄적인 RAG 시스템을 제시하며, 최대 규모의 공개 데이터스토어와 다중 분야 전문가 벤치마크를 통해 중요한 평가 기반을 마련했다. 특히 인용 정확도 개선과 전문가 수준의 성능 달성이 실무적 가치가 크며, 모든 자원을 공개하여 재현성과 확장성을 확보한 점이 우수하다.

#641 2019 4/5

PubMedQA: A Dataset for Biomedical Research Question Answering

저자: Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William Cohen, Xinghua Lu | 날짜: 2019 | DOI: 미제공

Essence

![Figure 1](https://imgur.com/placeholder) *PubMedQA 데이터셋 인스턴스 예시: 질문은 원문의 제목이며, 맥락은 결론을 제외한 구조화된 초록이고, 장답변은 결론, 최종 답변은 yes/no/maybe* 생의학 분야의 연구 논문 초록을 이용하여 yes/no/maybe로 답변하는 질문응답 데이터셋을 제안한다. 1,000개의 전문가 주석 데이터, 61,200개의 미표지 데이터, 211,300개의 자동생성 데이터로 구성되며, 정량적 추론이 필요한 최초의 생의학 QA 데이터셋이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

PubMedQA는 생의학 텍스트 기반 추론이 필수적인 첫 대규모 QA 데이터셋으로, PubMed의 자연적 구조를 창의적으로 활용한 점과 삼층 구조의 체계적 설계가 돋보인다. 다만 자동생성 부분집합의 품질 한계와 인간-모델 성능 격차 분석의 부족이 보완되어야 할 점이다.

#642 2024 4/5

Scidqa: A deep reading comprehension dataset over scientific papers

저자: Shruti Singh, Nandan Sarkar, Arman Cohan | 날짜: 2024 | DOI: 10.18653/v1/2024.emnlp-main.1163

Essence

![Figure 1](figure1.png) *과학 논문에 대한 피어 리뷰 중 검토자-저자 토론에서 추출된 질의응답 쌍의 예시* 본 논문은 과학 논문의 깊이 있는 이해를 요구하는 새로운 질의응답(QA) 데이터셋 SCIDQA를 소개한다. OpenReview 플랫폼의 피어 리뷰에서 수집한 2,937개의 QA 쌍으로 구성되어 있으며, 표, 그림, 다중 문서 추론을 포함한 복잡한 과학 텍스트 이해를 평가한다.

Evaluation

Overall: 4

SCIDQA는 피어 리뷰라는 자연스러운 데이터 원천과 엄밀한 품질 관리를 통해 과학 논문의 깊이 있는 이해를 평가하는 의미 있는 데이터셋을 제공하나, 도메인 제한성과 규모의 소재 측면에서 개선 여지가 있다.

#643 2024 4/5

ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering

저자: Xiuying Chen, Tairan Wang, Taicheng Guo, Kehan Guo, Juexiao Zhou, Haoyang Li, Mingchen Zhuge, Jürgen Schmidhuber, Xin Gao, Xiangliang Zhang | 날짜: 2024 | DOI: arXiv:2407.16931

Figure 1: BoolQ(일반 도메인), KGQA(템플릿 기반 화학), ScholarChemQA(실제 논문 기반) 비교

Essence

![Figure 1](figures/fig1.webp) *Figure 1: BoolQ(일반 도메인), KGQA(템플릿 기반 화학), ScholarChemQA(실제 논문 기반) 비교* 화학 학술 논문으로부터 구성된 첫 대규모 화학 QA 데이터셋 ScholarChemQA를 제시하고, 불균형한 라벨 분포와 대량의 미표지 데이터를 다루는 QAMatch 모델을 제안하여 LLM을 능가하는 성능을 달성했다.

Evaluation

Overall: 4

ScholarChemQA는 학술 화학 분야의 진정한 QA 벤쌍을 제공하고, QAMatch는 반지도학습과 라벨 불균형을 다루는 실용적 솔루션을 제시한다. 화학 분야뿐 아니라 도메인 특화 QA 연구의 방향을 제시하는 의미 있는 기여이나, 데이터셋 규모와 모델 기법의 일반화 검증 측면에서 보완이 필요하다.

#644 2024 4/5

Improving health question answering with reliable and time-aware evidence retrieval

저자: Juraj Vladika, Florian Matthes (Technical University of Munich) | 날짜: 2024 | DOI: 10.48550/arXiv.2404.08359

Essence

건강 관련 질문에 대한 개방형 질의응답(Open-Domain QA) 시스템에서 증거 검색 전략을 최적화하여 성능을 개선하는 연구이다. PubMed의 2,000만 개 생의학 논문을 활용하여 검색 문서 수, 출판 연도, 인용 횟수 등의 요소가 최종 답변 정확도에 미치는 영향을 실증적으로 검증했다.

Evaluation

Overall: 4

건강 질문 응답에서 증거 검색의 시간성과 품질의 중요성을 실증적으로 입증한 견실한 경험 연구로, 의료 AI 시스템의 신뢰성 향상에 실질적 기여를 한다. 다만 증거 불일치 등 미해결 과제가 있어 후속 연구가 필요하다.

#645 2023.11 3/5

Leveraging LLMs in Scholarly Knowledge Graph Question Answering

저자: Tilahun Abedissa Taffa, Ricardo Usbeck | 날짜: 2023.11 | DOI: 미공개

Essence

![Figure 2](figures/fig2.webp) *학술 KGQA 모델의 전체 파이프라인* 본 논문은 대규모 언어모델(LLM)을 활용하여 학술 지식 그래프에 대한 자연어 질문을 SPARQL 쿼리로 변환하는 few-shot 기반 접근법을 제시하며, SciQA 벤치마크에서 F1 스코어 0.99를 달성했다.

Evaluation

Overall: 3

본 논문은 LLM의 few-shot 능력을 학술 KGQA에 효과적으로 적용하여 우수한 성능을 달성했으나, 템플릿 기반 데이터셋의 특수성과 제한된 도메인으로 인해 실제 학술 검색 시스템으로의 배포 가능성에는 추가 검증이 필요하다.

#646 2025 3/5

MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation

저자: Seon‐Ok Kim | 날짜: 2025

그림 1: MedBioLM과 기본 모델의 폐쇄형 및 단문형 의료 QA 작업 성능 비교

Essence

![Figure 2](figures/fig2.webp) *그림 2: 생의학 질의응답 최적화를 위한 접근 방식 개요 - 미세조정, 검색 증강 생성(RAG), 프롬프트 엔지니어링 통합* MedBioLM은 의료 및 생물학 분야의 질의응답(QA) 작업에 최적화된 대규모 언어 모델(LLM)로, 미세조정(fine-tuning)과 검색 증강 생성(RAG)을 결합하여 사실적 정확성과 신뢰성을 동시에 향상시킨다. 폐쇄형 QA(객관식), 장문형 QA, 단문형 QA 등 다양한 형식에서 기존 모델을 능가하는 성능을 달성한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 3 Clarity: 3 Overall: 3

MedBioLM은 미세조정과 RAG를 의료 QA에 통합한 실용적 연구로 성능 향상을 보여주지만, 기술적 세부사항 미비와 선행연구 대비 차별성 부족으로 학술적 기여도는 중상 수준이며, 임상 타당성 검증 강화가 필요하다.

Review Reward Models 9 ▶

#647 2018 4/5

Learning to split and rephrase from wikipedia edit history

저자: Jan A. Botha, Manaal Faruqui, John Alex, Jason Baldridge, Dipanjan Das | 날짜: 2018

위키피디아 편집 이력에서 추출한 문장 분할-재표현(split-and-rephrase) 예시. 원본 문장이 두 개의 더 단순한 문장으로 분해되며, 삭제된 단어(노랑)와 추가된 단어(파랑)를 표시함.

Essence

![Figure 1](figures/fig1.webp) *위키피디아 편집 이력에서 추출한 문장 분할-재표현(split-and-rephrase) 예시. 원본 문장이 두 개의 더 단순한 문장으로 분해되며, 삭제된 단어(노랑)와 추가된 단어(파랑)를 표시함.* 본 논문은 위키피디아 편집 이력을 마이닝하여 문장 분할-재표현(split-and-rephrase) 작업을 위한 100만 개 규모의 대규모 자연 데이터셋 WikiSplit을 구축하고, 이를 활용하여 기존 방법 대비 32 BLEU 포인트 향상을 달성했다.

Evaluation

Overall: 4

본 논문은 위키피디아 편집 이력이라는 풍부한 자연 자원을 효과적으로 활용하여 기존 소규모 합성 데이터셋의 한계를 극복한 우수한 데이터셋 논문이다. 비록 추출 방법론이 단순하고 노이즈가 존재하나, 공개된 대규모 자연 데이터와 입증된 성능 향상의 실용성이 충분히 가치 있으며, 텍스트 단순화 분야에서 중요한 기초 자원으로 널리 활용될 수 있다.

#648 2018 4/5

WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse

저자: Manaal Faruqui, Ellie Pavlick, Ian Tenney, Dipanjan Das | 날짜: 2018

Essence

본 논문은 위키피디아 편집 이력(edit history)에서 추출한 8개 언어, 4,300만 개의 원자적 편집(atomic edits)으로 구성된 WikiAtomicEdits 코퍼스를 공개한다. 이 코퍼스는 단일 연속 구절의 삽입 또는 삭제 사례만을 포함하며, 이를 통해 편집 과정에서 생성되는 언어가 일반 텍스트와 다르며 의미론과 담론 모델링에 고유한 신호를 제공함을 보여준다.

Evaluation

Overall: 4

본 논문은 위키피디아 편집 이력의 구조화된 신호를 체계적으로 활용하여 대규모 다언어 코퍼스를 구축한 견고한 자원 논문으로, 강력한 동기 부여와 품질 보증으로 인해 언어학 및 자연어 처리 커뮤니티에 상당한 기여를 하였다.

#649 2025 4/5

Paper2poster: Towards multimodal poster automation from scientific papers

저자: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip H. S. Torr | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *과학 논문에서 포스터를 생성하기 위한 두 가지 핵심 도전 과제: (좌) PosterAgent를 통한 포스터 생성 방법, (우) Paper2Poster 벤치마크를 통한 평가 방법* 본 논문은 과학 논문을 단일 페이지 학술 포스터로 자동 변환하는 첫 번째 벤치마크와 평가 지표 집합을 제시하며, 시각적-언어적 피드백 루프를 갖춘 다중 에이전트 파이프라인(PosterAgent)을 제안한다.

Evaluation

Overall: 4

본 논문은 학술 포스터 자동 생성이라는 도전적이고 실용적인 문제에 처음으로 체계적으로 접근한 의미 있는 작업으로, 신뢰할 수 있는 벤치마크와 혁신적인 PaperQuiz 지표를 제공하며, 실용성 높은 PosterAgent 파이프라인으로 강력한 결과를 달성했다. 다만 데이터셋 규모 확대, 다양한 학문 분야 적용, 그리고 자동 평가 지표의 보완이 향후 필요하다.

#650 2025 4/5

A hierarchical framework for measuring scientific paper innovation via large language models

저자: Enkelejda Kasneci, Kathrin Seßler, Stefan Küchemann, Maria Bannert, Daryna Dementieva, Frank Fischer, Urs Gasser, Georg Groh, Stephan Günnemann, Eyke Hüllermeier, Stephan Krusche, Gitta Kutyniok, Tilman Michaeli, Claudia Nerdel, Jürgen Pfeffer, Oleksandra Poquet, Michael Sailer, Albrecht Schmidt, Tina Seidel, Matthias Stadler | 날짜: 2025 | DOI: 10.1016/j.ins.2025.122787

Essence

![Figure 2](figures/fig2.webp) *Figure 2: An example of hierarchical scientific paper innovation measurement (HSPIM) via large language models. We use z* LLM 기반 계층적 프레임워크(HSPIM)를 제안하여 과학 논문의 혁신성을 측정한다. 논문을 섹션-QA 쌍으로 분해하고 가중 점수 집계를 통해 혁신성을 정량화한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

LLM의 강력한 일반화 능력을 활용한 혁신성 측정의 새로운 패러다임을 제시하며, 계층적 분해와 유전 알고리즘 최적화를 통해 실용적 고품질 자동화 평가 도구를 구현했다.

#651 2021 4/5

Machine-in-the-loop rewriting for creative image captioning

저자: Vishakh Padmakumar, He He | 날짜: 2021

그림 1: 사용자가 중심이 되어 재작성할 텍스트 구간을 표시하면, 모델이 창의적인 대안을 제시하는 기계-인-루프 시스템

Essence

![Figure 1](figures/fig1.webp) *그림 1: 사용자가 중심이 되어 재작성할 텍스트 구간을 표시하면, 모델이 창의적인 대안을 제시하는 기계-인-루프 시스템* 본 논문은 사용자가 주도권을 유지하면서 창의적 작문을 돕는 기계-인-루프 재작성 모델(Creative Rewriting Assistant, CRA)을 제안하며, 이미지 캡션 작성 과제에서 사용자와의 협력을 통해 더욱 서술적이고 비유적인 텍스트 생성을 지원한다.

Evaluation

Overall: 4

본 논문은 사용자 제어권을 보장하면서도 창의적 작문을 보조하는 실용적이고 타당한 접근법을 제시하며, 특히 기술이 다양한 사용자 그룹에 미치는 차별적 영향을 분석한 점이 강점입니다. 다만 평가 과제의 제한성과 초보 사용자를 위한 해결책 부재가 향후 개선 과제입니다.

#652 2025 4/5

Remor: Automated peer review generation with llm reasoning and multi-objective reinforcement learning

저자: Pawin Taechoyotin, Daniel Acuna | 날짜: 2025

Essence

![Figure 1](figures/fig1.webp) *REMOR의 작동 방식: (A) 다중 차원 보상 함수(HPRR)를 통한 AI 리뷰 생성 시스템, (B) PeerRT 데이터셋을 이용한 감독 미세조정(SFT) 및 GRPO 학습 프로세스* 본 논문은 추론(reasoning) 기능을 갖춘 대형언어모델(LLM)과 다목적 강화학습(MORL)을 결합하여 인간 수준 이상의 깊이 있고 균형잡힌 학술 논문 심사평을 자동 생성하는 REMOR 시스템을 제안한다. 기존 AI 심사평의 얕은 분석과 과도한 칭찬 문제를 다목적 보상함수와 추론 능력으로 극복한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

REMOR은 추론과 강화학습을 심사평 생성에 창의적으로 결합하여 인간 수준 이상의 성능을 달성한 의미 있는 기여이다. 특히 다차원 보상함수와 PeerRT 데이터셋의 공개는 학계에 실질적 자산이 될 것이다. 다만 인간 평가의 규모, 보상함수 설계의 정당성, 타분야 일반화 가능성에 대한 더 깊은 검증이 논문의 영향력을 강화할 것이다.

#653 2025 4/5

ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews

저자: Xiaojin Gao, Jiacheng Ruan, Zongyun Zhang, Jingsheng Gao, Ting Liu, Yuzhuo Fu | 날짜: 2025

Figure 1: 사전 정의된 구조화 사고 과정에 따른 심사 의견 변환 프로세스 (요약→분석→결론)

Essence

대규모 언어모델(LLM)을 활용하여 학술 논문 심사를 자동화하되, 인간 심사자의 다단계 추론 과정을 모방한 다중 에이전트 프레임워크를 제안한다. 구조화된 사고(Chain-of-Thought) 방식과 관련 논문 인식(relevant-paper-aware) 학습을 통해 AI 생성 심사의 품질을 인간 심사에 가깝게 향상시킨다.

Evaluation

Overall: 4

본 논문은 인간 심사자의 구조화된 사고 과정을 체계적으로 모방한 첫 대규모 데이터셋과 다중 에이전트 프레임워크로 AI 심사의 현실화 가능성을 높였다. 다만, 데이터 시간성 문제, 평가 지표의 한계, 실제 심사 제도 도입 시 윤리적·제도적 과제에 대한 보충 논의가 필요하다.

#654 2021 4/5

Wordcraft: A human-ai collaborative editor for story writing

저자: Andy Coenen, Luke M. Davis, Daphne Ippolito, Emily Reif, Ann Yuan | 날짜: 2021

Essence

![Figure 1](figures/fig1.webp) *Wordcraft 에디터: 왼쪽은 텍스트 편집 영역, 오른쪽은 AI 어시스턴트의 다양한 상호작용 옵션 제공* 신경 언어 모델의 능력을 활용하여 인간 작가와 AI 어시스턴트가 협력하는 스토리 쓰기 도구를 제시한다. Few-shot 학습과 대화형 인터페이스를 통해 단일 언어 모델으로 다양한 창작 작업을 지원한다.

Evaluation

Overall: 4

신경 언어 모델과 인간의 협력적 창작을 지원하는 실용적인 도구로서 가치 있는 연구이나, 핵심 주장들에 대한 체계적 검증과 평가 방법론이 부족하다는 점이 아쉽다. 향후 사용자 연구와 모델 비교 실험을 통해 강화될 필요가 있다.

#655 2024 3/5

Peerarg: Argumentative peer review with llms

저자: Purin Sukpanichnant, Anna Rapberger, Francesca Toni | 날짜: 2024 | DOI: 10.48550/arXiv.2409.16813

PeerArg 파이프라인 개요: 각 리뷰에서 양극 논증 틀(BAF)을 추출한 후 통합하여 최종 논문 채택 여부를 결정

Essence

![Figure 1](figures/fig1.webp) *PeerArg 파이프라인 개요: 각 리뷰에서 양극 논증 틀(BAF)을 추출한 후 통합하여 최종 논문 채택 여부를 결정* 본 논문은 대규모 언어 모델(LLM)과 계산 논증(computational argumentation) 방법을 결합하여 피어 리뷰 과정을 투명하고 해석 가능하게 만드는 PeerArg 시스템을 제안한다. 양극 논증 틀(Bipolar Argumentation Framework, BAF)을 활용하여 여러 리뷰의 의견을 구조화되고 논리적으로 통합함으로써 논문 채택 여부를 예측한다.

Evaluation

Overall: 3

본 논문은 피어 리뷰의 투명성과 해석 가능성 문제에 대한 혁신적인 접근을 제시하며 양극 논증 틀의 새로운 응용을 보여준다. 다만 논증 추출 과정의 신뢰성, QBAF 통합의 엄밀성, 실제 적용 가능성에 대한 더 깊은 분석과 검증이 필요하며, 특히 해석 가능성 개선의 실질적 이점을 정성적으로 입증해야 한다.

Scientific Fact Verification 21 ▶

#656 2022 4/5

Missing counter-evidence renders nlp fact-checking unrealistic for misinformation

저자: Max Glockner, Yufang Hou, Iryna Gurevych | 날짜: 2022

그림 1: PolitiFact의 거짓 주장. 반박 증거를 찾기 어려운 경우, 사실확인자들은 주장의 근거가 된 가정을 반박함으로써 거짓을 증명한다.

Essence

![Figure 1](figures/fig1.webp) *그림 1: PolitiFact의 거짓 주장. 반박 증거를 찾기 어려운 경우, 사실확인자들은 주장의 근거가 된 가정을 반박함으로써 거짓을 증명한다.* 현재의 NLP 기반 사실확인(fact-checking) 접근법은 반박 증거(counter-evidence)의 존재를 가정하지만, 실제 미정보(misinformation)는 신뢰할 만한 증거가 부족한 환경에서 발생하기 때문에 현실적이지 않다. 본 논문은 기존 사실확인 데이터셋들이 모두 현실적 요구사항을 만족하지 못함을 보이고, 모델들이 누출된(leaked) 증거에 의존함을 실증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 NLP 사실확인 연구의 근본적인 현실성 문제를 명확히 지적하고, 저널리즘 관점의 검증 전략 분석을 통해 구체적 기준을 제시함으로써 해당 분야에 중요한 비판적 기여를 한다. 단, 제시된 문제의 해결책 부재는 아쉬운 점이다.

#657 2019 4/5

BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions

저자: Christopher Clark, Kenton Lee, Ming‐Wei Chang, Tom Kwiatkowski, Michael J. Collins, Kristina Toutanova | 날짜: 2019

Essence

자연 발생적 예/아니오 질문에 대한 읽기 이해 데이터셋 BoolQ를 제시하며, BERT와 같은 최신 사전학습 모델도 도전적인 이 작업에서 인간 성능(90%)과 큰 격차(80.4%)를 보임을 입증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

BoolQ는 자연 발생적 예/아니오 질문의 내재된 복잡성을 체계적으로 규명하고, BERT 이후 시대에도 NLI 전이학습의 지속적 가치를 증명하는 중요한 벤치마크 데이터셋이다. 다만 멀티-홉 추론과 도메인 다양성 측면에서는 확장 가능성을 남겨두고 있다.

#658 2025 4/5

DEFAME: Dynamic Evidence-based Fact-checking with Multimodal Experts

저자: Tobias Braun, Mark Rothermel, Marcus Rohrbach, Anna Rohrbach (Technical University of Darmstadt & hessian.AI) | 날짜: 2025 | DOI: arXiv:2412.10510

DEFAME의 개요: 멀티모달 클레임을 멀티모달 증거로 검증하여 상세한 인간친화적 보고서를 생성

Essence

![Figure 1](figures/fig1.webp) *DEFAME의 개요: 멀티모달 클레임을 멀티모달 증거로 검증하여 상세한 인간친화적 보고서를 생성* 본 논문은 텍스트와 이미지를 모두 포함하는 클레임(주장)을 검증하는 DEFAME이라는 멀티모달 팩트체킹 시스템을 제안한다. 6단계 동적 파이프라인을 통해 외부 도구와 멀티모달 LLM을 활용하여 증거를 검색하고 평가하며, 설명 가능한 검증 보고서를 생성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

DEFAME은 멀티모달 팩트체킹의 분산된 연구를 통합하는 최초의 end-to-end 솔루션으로, 동적 도구 선택, 멀티모달 증거 처리, 설명 가능한 보고서 생성 측면에서 높은 독창성을 보여준다. 세 가지 주요 벤치마크에서 최첨단 성능을 달성하고 새로운 평가 세트를 제공한 점은 학계에 중요한 기여이다. 다만 처리 시간 및 도메인 특화 성능에 대한 평가가 추가되면 실용성이 더욱 강화될 것으로 예상된다.

#659 2023 4/5

Selfcheck: Using llms to zero-shot check their own step-by-step reasoning

저자: Ning Miao, Yee Whye Teh, Tom Rainforth | 날짜: 2023

SelfCheck의 구체적 실행 예시: 5번 단계의 정사각형 완성(completing the square) 검증 과정을 4단계로 분해하여 수행

Essence

대규모 언어 모델(LLM)이 자체 단계별 추론에서 발생한 오류를 외부 자원 없이 인식할 수 있는지 탐구하며, 4단계 분해 검증 방식(SelfCheck)을 통해 제로샷(zero-shot) 오류 감지 및 답변 정확도 향상을 달성한 연구이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLM 자체검증의 오랜 난제를 창의적인 4단계 분해 방식으로 해결하며, 제로샷 범용성과 실제 정확도 향상을 동시에 달성한 실질적 기여를 한다. 다만 계산 비용 증가와 수학 문제 중심의 평가가 한계이며, 향후 더 광범위한 도메인과 오류 분류 체계 개발이 필요하다.

#660 2023 4/5

Unsupervised pretraining for fact verification by language model distillation

저자: Adrián Bazaga, Píetro Lió, Gos Micklem | 날짜: 2023

*데이터 처리 파이프라인

Essence

본 논문은 **SFAVEL(Self-supervised Fact Verification via Language Model Distillation)**을 제안하여, 인간의 주석 없이 사전학습된 언어모델의 지식을 증류(distillation)함으로써 클레임과 근거 간의 의미론적 정렬을 학습하는 자기지도학습 기반 팩트 검증 프레임워크를 소개한다. 이는 FB15k-237에서 +5.3% Hits@1, FEVER에서 +8% 정확도 개선을 달성했다.

Evaluation

Overall: 4

SFAVEL은 팩트 검증에 특화된 자기지도학습 프레임워크로 SOTA 성능을 달성했으며, 주석 불필요한 확장 가능한 접근법을 제시한 의미 있는 기여이다. 다만 지식그래프 의존성과 설계 선택의 이론적 깊이가 보강된다면 더욱 강력한 연구가 될 수 있다.

#661 2023 4/5

Clarify when necessary: Resolving ambiguity through interaction with LMs

저자: Michael J.Q. Zhang, Eunsol Choi | 날짜: 2023

세 단계 프레임워크: (1) 명확화 필요 여부 판단, (2) 명확화 질문 생성, (3) 명확화 정보를 활용한 응답

Essence

![Figure 1](figures/fig1.webp) *세 단계 프레임워크: (1) 명확화 필요 여부 판단, (2) 명확화 질문 생성, (3) 명확화 정보를 활용한 응답* 대규모 언어모델(LLM)이 모호한 사용자 입력을 처리할 때 명확화 질문을 통해 상호작용하도록 하는 작업 중립적 프레임워크를 제시하고, 사용자 의도 엔트로피 추정 방식인 INTENT-SIM을 통해 명확화가 필요한 경우를 효과적으로 식별한다.

Evaluation

Overall: 4

본 논문은 LLM의 모호성 해결을 위한 명확화 상호작용이라는 미개척 영역에 체계적 프레임워크를 도입하고, INTENT-SIM을 통해 현실적 성능 개선을 달성한 견실한 연구이다. 다만 명확화 질문 생성에서 오라클 기반 접근의 한계와 현실적 상호작용 복잡성의 단순화로 인해, 실제 배포 시스템으로의 전환에는 추가 연구가 필요하다.

#662 2022 4/5

Large language models can self-improve

저자: Jiaxin Huang, Shixiang Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han | 날짜: 2022

그림 1: 방법의 개요. Chain-of-Thought 예시를 활용하여 언어모델이 여러 개의 CoT 추론 경로를 생성하고, 다수결 투표(Majority Voting)로 고신뢰도 답변을 선택한 후, 이를 파인튜닝 데이터로 활용

Essence

![Figure 1: 방법의 개요. Chain-of-Thought 예시를 활용하여 언어모델이 여러 개의 CoT 추론 경로를 생성하고, 다수결 투표(Majority Voting)로 고신뢰도 답변을 선택한 후, 이를 파인튜닝 데이터로 활용](figures/fig1.webp) *그림 1: 방법의 개요. Chain-of-Thought 예시를 활용하여 언어모델이 여러 개의 CoT 추론 경로를 생성하고, 다수결 투표(Majority Voting)로 고신뢰도 답변을 선택한 후, 이를 파인튜닝 데이터로 활용* 대규모 언어모델(LLM)이 레이블 없는 데이터만으로 자기 생성 고신뢰도 추론(reasoning) 경로를 통해 자가 개선(self-improve)할 수 있음을 입증한 논문이다. Chain-of-Thought 프롬팅과 자기 일관성(self-consistency)을 활용하여 감독 신호 없이 모델의 추론 능력을 향상시킨다.

Evaluation

Overall: 4

이 논문은 레이블 없는 데이터로 대규모 언어모델이 자가 개선할 수 있음을 명확히 입증한 중요한 연구다. Chain-of-Thought와 자기 일관성을 창의적으로 조합하여 강력한 자동 감독 신호를 얻었으며, 도메인 내외 다수 데이터셋에서 상태 추적 수준의 성능을 달성했다. 다만 신뢰도 평가의 정교성, 오류 증폭 위험, 계산 비용 등의 한계가 있으나, 감독 신호 의존성을 크게 줄일 수 있다는 점에서 실무적 가치가 매우 높다.

#663 2023 4/5

Towards LLM-based Fact Verification on News Claims with a Hierarchical Step-by-Step Prompting Method

저자: Xuan Zhang, Wei Gao | 날짜: 2023

그림 1: Vanilla CoT 프롬프팅 기반 클레임 검증의 예시. 생성된 CoT가 "nukes"에 관한 필수 사고 누락과 증거 없는 사실 환각으로 인해 잘못된 판단에 도달한다.

Essence

대규모 언어모델(LLM)의 인컨텍스트 학습(ICL) 능력을 뉴스 클레임 검증에 활용하되, 계층적 단계별 프롬프팅(HiSS) 방법을 통해 클레임을 세부 클레임으로 분해하고 검색 엔진 기반의 증거 수집을 통해 사실 확인의 정확도와 설명 가능성을 높인 연구이다.

Evaluation

Overall: 4

본 논문은 LLM 기반의 뉴스 클레임 검증에서 실무 지향적 성과를 보였으며, 계층적 분해와 검색 기반 증거 통합을 통해 LLM의 추론 능력을 실효적으로 향상시킨 의의 있는 연구이다. 다만 다양한 도메인과 언어로의 확장성 검증과 비용 효율성 개선이 향후 과제로 남아있다.

#664 2023 4/5

Fact-checking complex claims with program-guided reasoning

저자: Liangming Pan, Xiaobao Wu, Xinyuan Lu, Anh Tuan Luu, William Yang Wang, Min‐Yen Kan, Preslav Nakov | 날짜: 2023 | DOI: arXiv:2305.12744

Essence

복잡한 주장(claim)의 사실 확인을 위해 대규모 언어 모델(LLM)의 인-컨텍스트 학습(in-context learning) 능력을 활용하여 추론 프로그램(reasoning program)을 생성하고, 이를 특화된 하위 태스크 함수들로 순차적으로 실행하는 프로그램 가이드 팩트 체킹(PROGRAMFC) 프레임워크를 제안한다. 이는 설명 가능성과 데이터 효율성을 동시에 만족하면서 복잡한 다단계 추론이 필요한 주장 검증에서 우수한 성능을 달성한다.

Evaluation

Overall: 4

PROGRAMFC는 설명 가능성과 데이터 효율성을 동시에 달성하면서 복잡한 주장의 사실 확인 성능을 현저히 개선하는 혁신적인 프레임워크로, 프로그래밍 패러다임의 창의적 적용과 LLM의 인-컨텍스트 학습 능력을 효과적으로 결합한 점에서 높이 평가된다. 다만, cascade 오류에 대한 강건성 강화와 함수 라이브러리의 확장이 향후 실무 적용의 핵심 과제이다.

#665 2023 4/5

Investigating zero-and few-shot generalization in fact verification

저자: Liangming Pan, Yunxiang Zhang, Min-Yen Kan | 날짜: 2023

Essence

본 논문은 fact verification(FV) 모델의 zero-shot 및 few-shot 일반화 능력을 체계적으로 조사한 첫 번째 연구로, 11개 FV 데이터셋을 수집하여 도메인 간 전이 학습의 현황을 분석하고 개선 방안을 제시한다.

Evaluation

Overall: 4

본 논문은 fact verification의 도메인 일반화 문제를 처음으로 종합적으로 분석한 의미 있는 연구로, 체계적인 벤치마크 구축과 실무적 개선 방안 제시를 통해 해당 분야에 기여하지만, 단일 모델 사용과 제한된 개선 기법 등에서 보완의 여지가 있다.

#666 2025 4/5

Towards effective extraction and evaluation of factual claims

저자: Dasha Metropolitansky, Jonathan Larson | 날짜: 2025 | DOI: arXiv:2502.10855v2

Essence

LLM이 생성한 장문의 콘텐츠를 팩트체킹하기 위해 추출된 주장(claim)의 품질을 평가하는 표준화된 프레임워크를 제안하고, 모호성을 처리할 수 있는 새로운 주장 추출 방법인 Claimify를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 주장 추출의 품질 평가를 위한 첫 번째 표준화된 프레임워크를 제시하여 팩트체킹 시스템의 신뢰성 향상에 중요한 기여를 하며, 특히 요소 수준 분석과 결과 기반 평가라는 혁신적 방법론, 그리고 모호성을 명시적으로 처리하는 Claimify 방법이 실무적 가치가 높다.

#667 2023 4/5

CLAM: Selective clarification for ambiguous questions with generative language models

저자: Lorenz Kuhn, Yarin Gal, Sebastian Farquhar | 날짜: 2023 | DOI: arXiv:2212.07769

Figure 1. (a) 일반적인 언어모델의 동작 (b) CLAM: 애매한 질문 감지 및 명확화 질문 생성

Essence

![Figure 1](figures/fig1.webp) *Figure 1. (a) 일반적인 언어모델의 동작 (b) CLAM: 애매한 질문 감지 및 명확화 질문 생성* 대규모 언어모델(LLM)이 애매한 사용자 질문에 대해 명확화를 요청하지 않고 부정확한 답변을 제공하는 문제를 해결하기 위해, CLAM 프레임워크를 제안한다. 이는 애매한 질문을 감지하고 명확화 질문을 생성한 후 사용자의 명확화 정보를 바탕으로 최종 답변을 제공하는 선택적 명확화(selective clarification) 접근법이다.

Evaluation

Overall: 4

애매한 질문에 대한 LLM의 선택적 명확화 요청이라는 실용적 문제를 메타인지 패러다임으로 창의적으로 해결하고, 자동 평가 프로토콜로 다중턴 대화 평가의 확장성을 높인 좋은 연구이다. 다만 기술적 독창성과 평가 규모에서 개선 여지가 있다.

#668 2024 4/5

Comparing knowledge sources for open-domain scientific claim verification

저자: Juraj Vladika, Florian Matthes | 날짜: 2024

실험 설정: 세 가지 지식 소스를 통과한 과학적 주장이 최종 판정 성능 차이를 보임

Essence

본 논문은 과학적 주장 검증(scientific claim verification) 시스템에서 서로 다른 지식 소스(PubMed, Wikipedia, Google)와 정보 검색 기법(BM25, 의미 검색)이 최종 판정 성능에 미치는 영향을 비교 분석한 실증 연구이다.

Evaluation

Overall: 4

현실적인 개방 환경에서 지식 소스별 성능 차이를 체계적으로 비교한 의미 있는 실증 연구로, 과학적 주장 검증 시스템 설계에 실용적 가이드를 제공한다. 다만 새로운 방법론 개발보다는 기존 기법의 비교 분석에 집중되어 있는 점이 제약이다.

#669 2023 4/5

Hit-scir at mmnlu22: Consistency regularization for multilingual spoken language understanding

저자: Bo Zheng, Zhouyang Li, Fuxuan Wei, Qiguang Chen, Libo Qin, Wanxiang Che | 날짜: 2023

MASSIVE 데이터셋의 영어 예제: 의도(set alarm)와 슬롯 레이블(time, date) 표기

Essence

다국어 음성언어이해(multilingual spoken language understanding, SLU) 태스크에서 일관성 정규화(consistency regularization)와 하이브리드 데이터 증강(hybrid data augmentation) 전략을 결합하여 의도 탐지(intent detection)와 슬롯 채우기(slot filling) 성능을 향상시킨 연구이다. MASSIVE 데이터셋에서 전체 데이터셋 설정에서 1위를 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

일관성 정규화와 하이브리드 데이터 증강의 결합으로 다국어 SLU에서 체계적이고 효과적인 성능 향상을 달성했으며, MMNLU-22 경쟁 우승으로 실용성을 입증한 견고한 연구이다. 다만 기계 번역에서의 슬롯 정렬 한계와 상용 API 의존성이 개선 여지를 남긴다.

#670 2021 4/5

Multivers: Improving scientific claim verification with weak supervision and full-document context

저자: David Wadden, Kyle Lo, Lucy Lu Wang, Arman Cohan, Iz Beltagy, Hannaneh Hajishirzi | 날짜: 2021 | DOI: arXiv:2112.01640

Essence

![Figure 1](figures/fig1.webp) *Ibuprofen 청구가 COVID-19 증상을 악화시킨다는 주장이 의료 논문 초록으로 반박되는 예시. 빨간색 문장은 근거이지만 파란색 맥락 없이는 올바르게 해석될 수 없음* 과학 청구 검증 시스템이 선택된 근거 문장만 사용하지 않고 전체 문서 맥락을 활용하며, 약한 감독(weak supervision)을 통해 문장 수준의 주석 없이도 학습할 수 있는 멀티태스크 모델을 제시한다.

Evaluation

Overall: 4

MULTIVERS는 전체 문서 맥락을 활용하고 약한 감독으로 학습 가능한 실용적 설계를 통해 과학 청구 검증의 성능을 크게 향상시킨 견고한 연구이며, 특히 전문 분야의 저자원 시나리오에서의 기여가 눈에 띈다.

#671 2024 4/5

Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification

저자: Pritish Sahu, Karan Sikka, Ajay Divakaran | 날짜: 2024 | DOI: 10.48550/ARXIV.2407.02352

Pelican의 전체 파이프라인: 시각적 표(Visual Table) 구성, 청구(Claim) 분해, Program-of-Thought 코드 생성, 통합 검증 종합

Essence

![Figure 1](figures/fig1.webp) *Pelican의 전체 파이프라인: 시각적 표(Visual Table) 구성, 청구(Claim) 분해, Program-of-Thought 코드 생성, 통합 검증 종합* 시각 언어 모델(LVLM)의 환각(hallucination) 문제를 1차 술어(first-order predicates) 기반 청구 분해와 파이썬 코드 생성을 통해 검증하고 보정하는 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Pelican은 시각 언어 모델의 환각 문제를 체계적으로 접근하는 견고한 프레임워크로, 중간 변수와 계산 공유라는 실질적 개선을 통해 SOTA 대비 의미 있는 성능 향상을 달성했으나, 높은 계산 비용과 시각 도구 의존성이 실무 적용 시 제약이 될 수 있다.

#672 2023 4/5

Prompt to be consistent is better than self-consistent? Few-shot and zero-shot fact verification with pre-trained language models

저자: Fengzhu Zeng, Wei Gao | 날짜: 2023 | DOI: arXiv:2306.02569

일관성 메커니즘의 예시: 동일한 증거에 대해 원본, 확인, 부정, 불확실성 변형의 클레임에 대한 판단이 논리적으로 일치해야 함

Essence

본 논문은 사전학습 언어모델(PLM)의 일관성(consistency)을 명시적으로 강제하여 소수샘플(few-shot) 및 영샘플(zero-shot) 사실검증 성능을 향상시키는 **ProToCo** 방법을 제안한다. 클레임의 다양한 변형을 생성하고 이들 간의 논리적 일관성을 제약조건으로 활용하여 파라미터-효율적 미세조정(PEFT)을 수행한다.

Evaluation

Overall: 4

본 논문은 사실검증 과제의 내재적 논리 구조를 활용하여 명시적 일관성 제약을 통한 few-shot/zero-shot 학습을 효과적으로 구현했다. 프롬프트 기반의 간단하면서도 실용적인 접근이 돋보이나, 이론적 깊이와 확장성 측면에서는 개선 여지가 있다.

#673 2023 4/5

Reading and Reasoning over Chart Images for Evidence-based Automated Fact-Checking

저자: Mubashara Akhtar, Oana Cocarascu, Elena Simperl | 날짜: 2023 | DOI: 10.48550/ARXIV.2301.11843

ChartFC 데이터셋의 예: 청구(claim)가 증거 차트로 지지되는 경우

Essence

![Figure 1](figures/fig1.webp) *ChartFC 데이터셋의 예: 청구(claim)가 증거 차트로 지지되는 경우* 본 논문은 차트 이미지를 증거로 하여 텍스트 청구의 진위를 판정하는 새로운 자동 팩트-체킹(AFC) 과제를 제안하고, 이를 위한 첫 번째 모델인 ChartBERT를 소개한다. 텍스트, 구조, 시각 정보를 결합하여 차트 기반 주장 검증의 복잡한 추론 문제를 해결한다.

Evaluation

Overall: 4

차트 기반 팩트-체킹이라는 중요하고 미충족된 문제를 신규 제안하며 체계적 벤치마킹을 제공하는 의미 있는 연구이나, 63.8%의 정확도와 제한된 차트 유형으로 인해 실용적 영향은 아직 제한적이다. 해결해야 할 도전 과제가 많이 남아있는 초기 단계의 기초 연구로 평가된다.

#674 2024 4/5

What makes medical claims (un) verifiable? analyzing entity and relation properties for fact verification

저자: Amelie Wührl, Yarik Menchaca Resendiz, Lara Grimminger, Roman Klinger | 날짜: 2024 | DOI: 10.48550/arXiv.2402.01360

다중 주장을 포함하는 트윗에서 검증 결과의 쌍별 공존 관계

Essence

생의학 주장(biomedical claims)의 검증 가능성을 결정하는 요인을 분석하기 위해, 엔티티(entity)와 관계(relation) 속성에 중점을 두고 447개의 검증 불가능한 사례를 포함한 BEAR-FACT 코퍼스를 구축한 연구이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

생의학 사실 검증의 검증 불가능성 문제에 초점을 맞추어 체계적인 분석과 새로운 코퍼스를 제공한 의미 있는 연구이나, 검증 불가능 주장 예측의 낮은 성능과 시간 제약의 편향 문제는 실제 응용 측면에서의 한계를 보여준다.

#675 2024 3/5

Robust claim verification through fact detection

저자: Nazanin Jafari, James Allan | 날짜: 2024 | DOI: arXiv:2407.18367

과학적 주장에서 증거로부터 짧은 사실 생성의 3단계 프로세스

Essence

![Figure 2](figures/fig2.webp) *FactDetect 프레임워크 개요: 문구 매칭(Phrase Matching) → 질문 생성(Question Generation) → 짧은 사실 생성(Short Fact Generation)* 본 논문은 증거(evidence)에서 추출한 간결한 사실(short facts)을 통해 주장 검증(claim verification)의 견고성과 추론 능력을 향상시키는 FactDetect 방법을 제안한다. 멀티태스크 학습과 LLM 기반 제로샷 프롬프팅에서 모두 적용 가능한 데이터 증강 전략이다.

Evaluation

Overall: 3

FactDetect는 과학 주장 검증의 복잡성을 단순하고 명확한 사실 추출을 통해 해결하는 실용적인 접근이며, 멀티태스크 학습과 LLM 프롬프팅 모두에서 일관된 성능 향상을 보여준다. 그러나 자동 생성 파이프라인의 신뢰도 검증, 계산 효율성, 다양한 도메인에서의 일반화 가능성 평가가 향후 개선 과제이다.

#676 2025 3/5

Explainable biomedical claim verification with large language models

저자: Siting Liang, Daniel Sonntag | 날짜: 2025 | DOI: arXiv:2502.21014

그림 1: 생의학 주장 검증 시스템의 대화형 컴포넌트들

Essence

![Figure 1](figures/fig1.webp) *그림 1: 생의학 주장 검증 시스템의 대화형 컴포넌트들* 대규모 언어 모델(LLM)과 SHAP 설명가능성을 결합하여 의료 주장 검증의 투명성을 높이는 대화형 시스템을 제시한다. 사용자는 과학 문헌에서 관련 연구를 검색하고, CoENLI 프레임워크를 통해 LLM의 추론 과정을 검토하며, SHAP 값으로 단어 수준의 기여도를 파악할 수 있다.

Evaluation

Overall: 3

생의학 주장 검증의 투명성을 위해 CoENLI와 SHAP을 결합한 대화형 시스템은 실질적 가치 있는 제안이나, 논문이 미완성된 상태(평가 섹션 절반만 기재, 사용자 연구 결과 누락)로 과학적 검증이 불충분하다. 후속 완전판 논문 발표 시 상당히 향상될 것으로 예상된다.

Hierarchical Knowledge Graphs 10 ▶

#677 2021 4/5

Splade v2: Sparse lexical and expansion model for information retrieval

저자: Thibault Formal, Carlos Lassance, Benjamin Piwowarski, Stéphane Clinchant | 날짜: 2021 | DOI: 10.1145/nnnnnnn.nnnnnnn

Figure 1: SPLADE 모델들의 성능 대비 연산량(FLOPS) 비교

Essence

본 논문은 신경망 기반 정보검색에서 희소(sparse) 렉시컬 표현을 학습하는 SPLADE 모델을 개선하여, 밀집 표현(dense embedding)의 효율성과 전통적 가방 단어(bag-of-words) 모델의 해석가능성을 결합한 첫 단계 검색기를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 5 Significance: 5 Clarity: 4 Overall: 4

본 논문은 SPLADE 모델에 대한 정밀한 개선을 통해 희소 렉시컬 표현 기반 정보검색의 새로운 최고 성능을 달성했으며, 특히 최대값 풀링과 문서 전용 인코더 같은 단순하면서도 효과적인 기법들이 실무 적용 가치가 높다. 다만 초대규모 컬렉션과 실제 ANN 검색 환경에 대한 검증이 더 필요하다.

#678 2023 4/5

Factkg: Fact verification via reasoning on knowledge graphs

저자: Jiho Kim, Sungjin Park, Yeonsu Kwon, Yohan Jo, James H. Thorne, Edward Choi | 날짜: 2023 | DOI: arXiv:2305.06590

Figure 1: FACTKG의 예제 데이터. 주장을 SUPPORTED 또는 REFUTED로 검증하기 위해 DBpedia에서 추출한 트리플(triple)을 증거로 사용

Essence

![Figure 1](figures/fig1.webp) *Figure 1: FACTKG의 예제 데이터. 주장을 SUPPORTED 또는 REFUTED로 검증하기 위해 DBpedia에서 추출한 트리플(triple)을 증거로 사용* 본 논문은 지식 그래프(Knowledge Graph, KG)를 기반으로 사실 검증(fact verification)을 수행하기 위한 첫 번째 대규모 데이터셋 FACTKG를 제시한다. 이 데이터셋은 5가지 추론 유형(One-hop, Conjunction, Existence, Multi-hop, Negation)을 포함하는 108k개의 자연언어 주장으로 구성되어 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

FACTKG는 KG 기반 사실 검증의 체계적이고 대규모 데이터셋을 제시하여 학문적·실용적 가치가 높으나, 자동화된 데이터 생성 파이프라인의 한계와 언어 다양성 부족으로 인해 개선의 여지가 있다. 그래프 구조를 통한 명확한 추론 과정 제시는 해석 가능성이 중요한 사실 검증 분야에 큰 기여를 한다.

#679 2025 4/5

Chimera: A knowledge base of idea recombination in scientific literature

저자: Noy Sternlicht, Tom Hope | 날짜: 2025 | DOI: arXiv:2505.20779v4

Figure 1: 과학 논문 초록에서 아이디어 재조합을 자동으로 추출하는 작업. 드래곤플라이 날개에서 영감을 받아 드론 프로펠러를 설계한 사례.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 과학 논문 초록에서 아이디어 재조합을 자동으로 추출하는 작업. 드래곤플라이 날개에서 영감을 받아 드론 프로펠러를 설계한 사례.* 과학 논문 28,000개 이상에서 자동으로 추출한 아이디어 재조합 사례들의 대규모 지식베이스를 구축하였으며, 이를 통해 과학자들의 창의적 사고 과정을 분석하고 새로운 연구 방향을 제안하는 모델을 학습할 수 있도록 하였다.

Evaluation

Overall: 4

과학적 재조합을 체계적으로 추출하고 분석하는 최초의 시도로서, 고품질 주석 데이터셋과 지식베이스를 공개함으로써 메타과학 및 계산 기반 아이디어 생성 연구에 실질적 기여를 한다. 다만 AI 논문 중심, 추출 모델의 정량적 평가 미흡, 인과 관계 미확립 등의 한계가 있어, 향후 다학제 확장과 심층 분석이 필요하다.

#680 2015 4/5

A Review of Relational Machine Learning for Knowledge Graphs

저자: Maximilian Nickel, K. Murphy, Volker Tresp, E. Gabrilovich | 날짜: 2015 | DOI: 10.1109/JPROC.2015.2483592

Fig. 1. Sample knowledge graph. Nodes represent entities, edge labels represent

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Sample knowledge graph. Nodes represent entities, edge labels represent* 본 논문은 지식 그래프(Knowledge Graphs)에 대한 관계형 기계학습(Relational Machine Learning) 기법들을 종합적으로 검토하며, 잠재 특성 모델(Latent Feature Models)과 그래프 패턴 마이닝 기반 모델을 통해 누락된 사실(엣지)을 예측하는 방법을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 지식 그래프 분야의 핵심 기술과 이론을 포괄적으로 정리한 중요한 종합 리뷰로, 관계형 기계학습의 두 가지 주요 패러다임을 체계적으로 제시하고 실제 대규모 시스템 적용 사례를 통해 실용성을 입증했다.

#681 2020 4/5

A Survey on Knowledge Graphs: Representation, Acquisition, and Applications

저자: Shaoxiong Ji, Shirui Pan, E. Cambria, Pekka Marttinen, Philip S. Yu | 날짜: 2020 | DOI: 10.1109/TNNLS.2021.3070843

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: Categorization of research on knowledge graphs.* 본 논문은 지식 그래프(Knowledge Graph)의 표현 학습, 획득, 시간적 동적성, 응용을 포괄적으로 조사하는 설문 논문으로, 최신 딥러닝 기법을 통한 구조화된 지식 표현 및 추론 방법을 체계적으로 정리한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 지식 그래프 연구의 포괄적 현황을 체계적으로 정리한 고수준의 설문으로, 정확한 분류체계와 신흥 기술의 포함으로 학자와 실무자 모두에게 가치 있는 참고 자료를 제공한다. 다만 현실적 확장성, 노이즈 강건성, 추론의 해석성 등 실무적 한계에 대한 심화 분석이 필요하다.

#682 2024 4/5

Chime: Llm-assisted hierarchical organization of scientific studies for literature review support

저자: Chao-Chun Hsu, Erin Bransom, Jenna Sparks, Bailey Kuehl, Chenhao Tan, David Wadden, Lucy Wang, Aakanksha Naik | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *주어진 연구 주제와 관련된 학술지를 입력받아 LLM이 여러 계층적 조직 구조를 생성하고, 각 범주에 논문을 할당하는 과정. 그러나 범주 간 링크 오류와 논문 할당 오류 발생.* 본 논문은 문헌 검토(Literature Review)를 지원하기 위해 LLM을 활용하여 과학 논문들을 계층적 트리 구조로 자동 조직화하는 시스템을 제시하고, 전문가 수정을 통해 구축한 CHIME 데이터셋을 공개한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

문헌 검토 지원을 위한 계층적 조직화라는 실질적 문제에 LLM을 적용하고 체계적인 휴먼-인-더-루프 프로세스로 고품질 데이터셋을 구축한 점이 우수하며, 논문 할당 오류 개선의 여지가 남아있어 향후 연구 가치가 높다.

#683 2024 4/5

Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature

저자: Uri Katz, Mosh Levy, Yoav Goldberg (Bar-Ilan University, Allen Institute for AI) | 날짜: 2024 | DOI: arXiv:2408.15836

"Tool Use in Animals" 쿼리에 대해 생성된 계층적 지식 맵으로, 주요 주제와 하위 주제들을 체계적으로 조직화함

Essence

![Figure 1](figures/fig1.webp) *"Tool Use in Animals" 쿼리에 대해 생성된 계층적 지식 맵으로, 주요 주제와 하위 주제들을 체계적으로 조직화함* 대규모 과학 문헌에서 탐색적 검색을 지원하기 위해 LLM과 클러스터링 기법을 결합하여 검색 결과를 2단계 계층 구조의 주제로 자동 조직화하는 시스템을 제안한다. 이를 통해 연구자들이 수백 개의 문서를 직관적으로 탐색할 수 있도록 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 5 Overall: 4

본 논문은 대규모 과학 문헌의 탐색적 검색을 위해 LLM을 활용한 실용적이고 효과적인 시스템을 제시하며, 새로운 벤치마크와 공개 자료를 제공하여 향후 연구의 토대를 마련한다. 다만 기술적 혁신성은 중간 수준이고 사용자 연구를 통한 실제 효과성 검증이 부족한 점이 아쉽다.

#684 2022 4/5

Multi-document scientific summarization from a knowledge graph-centric view

저자: Pancheng Wang, Shasha Li, Kunyuan Pang, Liangliang He, Dong Li, Jintao Tang, Ting Wang | 날짜: 2022 | DOI: 미제공

Figure 1: 입력 과학 논문의 초록과 금표준 요약에서 구성된 지식 그래프

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 입력 과학 논문의 초록과 금표준 요약에서 구성된 지식 그래프* 본 논문은 지식 그래프(Knowledge Graph, KG)를 중심으로 다중 문서 과학 논문 요약(Multi-Document Scientific Summarization, MDSS)을 수행하는 KGSum 모델을 제안한다. 인코딩과 디코딩 전 과정에서 지식 그래프를 활용하여 논문의 주요 내용과 논문 간 관계를 효과적으로 모델링한다.

Evaluation

Overall: 4

본 논문은 지식 그래프 구조를 체계적으로 활용한 창의적인 MDSS 접근법을 제시하며, 두 단계 디코더 구조를 통해 중간 지식 표현을 명시적으로 활용하는 점이 인상적이다. 다만 추출 기반 지식 그래프의 노이즈 문제와 계산 복잡도 측면의 개선이 필요하며, 더 다양한 평가를 통한 일반화 가능성 검증이 요구된다.

#685 2025 4/5

Personalized graph-based retrieval for large language models

저자: Steven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed | 날짜: 2025

PGraphRAG 프레임워크 개요. 사용자 프로필과 상호작용 데이터로부터 사용자 중심 그래프를 구성하고, 그래프에서 구조화된 사용자 관련 정보를 검색하여 언어 모델의 생성을 조건부화함

Essence

![Figure 1](figures/fig1.webp) *PGraphRAG 프레임워크 개요. 사용자 프로필과 상호작용 데이터로부터 사용자 중심 그래프를 구성하고, 그래프에서 구조화된 사용자 관련 정보를 검색하여 언어 모델의 생성을 조건부화함* 본 논문은 지식 그래프 기반의 개인화된 검색 증강 생성(PGraphRAG)을 제안하여 사용자 이력이 부족한 콜드스타트 환경에서도 LLM의 개인화된 텍스트 생성 능력을 향상시킨다. 구조화된 사용자 정보를 검색 과정에 통합하여 희소 프로필 상황에서도 유의미한 개인화를 가능하게 한다.

Evaluation

Overall: 4

본 논문은 실제 희소 프로필 환경을 반영한 포괄적 벤치마크를 제시하고 그래프 기반 검색을 통해 개인화된 LLM 생성 문제를 효과적으로 해결한다는 점에서 실무적 가치가 크지만, 기술적 상세성과 새로운 알고리즘 개발 측면에서는 개선의 여지가 있다.

#686 2024 4/5

Taxonomy tree generation from citation graph

저자: Yuntong Hu, Zhuofeng Li, Zheng Zhang, Ling Chen, Raasikh Kanjiani, Boxin Zhao, Liang Zhao | 날짜: 2024

Essence

인용 그래프(Citation Graph)로부터 계층적 분류 체계(Taxonomy Tree)를 자동으로 생성하는 엔드-투-엔드 프레임워크 HiGTL을 제안한다. 텍스트 콘텐츠와 인용 구조를 결합하여 의미론적으로 일관성 있고 구조적으로 응집력 있는 분류 체계를 구축한다.

Evaluation

Overall: 4

인용 그래프로부터 자동으로 고품질 분류 체계를 생성하는 실용적이고 체계적인 접근을 제시하며, 계층적 그래프 클러스터링과 LLM 기반 개념 생성의 결합이 효과적임을 입증했다. 다만 방법론의 다분야 일반화와 이론적 깊이 심화가 향후 과제로 남아있다.

Academic Writing Diversity 8 ▶

#687 2025.12 4/5

The Adoption and Usage of AI Agents: Early Evidence from Perplexity

저자: Jeremy Yang, Noah Yonack, Kate Zyskowski, Denis Yarats, Johnny Ho, Jerry Ma | 날짜: 2025.12 | DOI: 10.48550/arXiv.2512.07828

에이전틱 분류체계의 계층적 구조: 주제(Topic) → 소주제(Subtopic) → 작업(Task) → 환경(Environment)

Essence

본 논문은 Perplexity의 AI 브라우저 Comet과 그 내장 에이전트인 Comet Assistant를 통해 수억 건의 사용자 상호작용을 분석한 첫 번째 대규모 현장 연구로서, AI 에이전트의 채택, 사용 강도, 그리고 구체적인 활용 사례를 체계적으로 규명한다.

Evaluation

Overall: 4

본 논문은 AI 에이전트의 실제 채택 및 사용 패턴에 관한 첫 번째 체계적 증거를 제시함으로써 급속히 성장하는 에이전틱 AI 분야에 중요한 경험적 기초를 마련한다. 다만 초기 단계 특정 플랫폼 데이터라는 한계를 고려하여 인과 관계 및 장기 영향 연구가 후속되어야 한다.

#688 2025 4/5

AI 아이디어가 인간의 창의성, 다양성, 아이디어 진화에 미치는 영향: 대규모 동적 실험 증거

저자: Joshua Ashkinaze, Julia Mendelsohn, Li Qiwei, Ceren Budak, Eric Gilbert | 날짜: 2025 | DOI: 10.1145/3715928.3737481

Figure 1: 실험 설계 개요. 참가자들은 AI 또는 인간이 생성한 아이디어 예시를 본 후 창의적 아이디어를 제출한다.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 실험 설계 개요. 참가자들은 AI 또는 인간이 생성한 아이디어 예시를 본 후 창의적 아이디어를 제출한다.* LLM(대규모 언어모델) 노출이 급증하는 상황에서, 본 연구는 800명 이상의 참가자를 대상으로 한 대규모 동적 실험을 통해 AI 생성 아이디어가 인간의 창의성과 집단 아이디어 다양성에 어떻게 영향을 미치는지를 실증적으로 규명했다. **높은 AI 노출은 개별 창의성은 증가시키지 않지만 집단 아이디어 다양성과 그 변화 속도를 증가시킨다는 핵심 발견**을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 **"수동적 노출"이라는 현실적 개념을 도입**하고 **동적 실험 설계로 아이디어 진화를 추적**함으로써 AI와 인간 창의성의 상호작용에 대한 기존 연구의 공백을 의미 있게 채웠다. AI가 반드시 개별 창의성을 증대시키지 않으면서도 **집단 다양성과 그 발전 속도를 향상**시킨다는 발견은 정책(AI 공개 의무화)과 집단 지능 설계에 중요한 함의를 제공한다. 다만 창의성 측정의 단일 차원성과 도메인 일반화의 제약이 남아있다.

#689 2025 4/5

Prototypical human-ai collaboration behaviors from llm-assisted writing in the wild

저자: Sheshera Mysore, Debarati Das, Hancheng Cao, Bahar Sarrafzadeh | 날짜: 2025 | DOI: arXiv:2505.16023v3

그림 1: 사용자들은 원래 요청 이후 후속 상호작용을 통해 LLM과 협력한다. 연구팀은 프로토타입 인간-AI 협력 행동(PATHs)을 식별하고, 사용자의 작성 의도와 PATHs 사이의 통계적 상관관계를 발견했다.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 사용자들은 원래 요청 이후 후속 상호작용을 통해 LLM과 협력한다. 연구팀은 프로토타입 인간-AI 협력 행동(PATHs)을 식별하고, 사용자의 작성 의도와 PATHs 사이의 통계적 상관관계를 발견했다.* 본 논문은 실제 환경(in-the-wild)에서 LLM 기반 글쓰기 보조 시스템(Bing Copilot, WildChat)을 사용하는 사용자들의 협력 행동을 대규모로 분석한다. 사용자들이 초기 요청 이후 후속 상호작용을 통해 생성물을 개선하고 탐색하는 프로토타입적 행동 패턴(PATHs)을 식별하며, 이들이 작성 의도(writing intent)와 어떻게 상관되는지를 규명한다.

Evaluation

Overall: 4

본 논문은 실제 환경의 대규모 대화 로그 분석을 통해 LLM 기반 글쓰기 협력의 프로토타입적 행동 패턴을 최초로 체계적으로 규명한 가치 있는 실증 연구이다. 작성 의도별 협력 행동의 차이를 통계적으로 입증하고 LLM 정렬에 구체적 시사점을 제시하는 점이 강점이나, 시간적 역학 모델링과 인과성 검증을 통해 심화될 여지가 있다.

#690 2023 4/5

Does writing with language models reduce content diversity? arXiv preprint arXiv:2309.05196, 2023.

저자: Vishakh Padmakumar, He He | 날짜: 2023 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *세 그룹(Solo, GPT3, InstructGPT)이 작성한 에세이의 내용 다양성 측정. InstructGPT로 공동 작성한 에세이가 가장 유사하고 어휘 및 내용 다양성이 낮음* 인간 피드백으로 미세조정된 언어모델(InstructGPT)을 사용한 협력 글쓰기가 통계적으로 유의미하게 내용 다양성을 감소시키는지를 제어된 실험을 통해 측정한 연구이다. 기본 모델(GPT3)은 유의미한 영향을 보이지 않았다.

Evaluation

Overall: 4

협력 글쓰기 환경에서 인간 피드백 미세조정된 LLM이 콘텐츠 다양성을 의도하지 않게 감소시킨다는 중요한 발견을 제시한 잘 설계된 실증 연구이다. 다만 현상 규명에 주력하여 근본 원인 분석과 해결 방안 제시는 미흡한 편이며, 제한된 참가자 집단에서의 결과로 인한 일반화 가능성 문제가 있다.

#691 2023.09 4/5

Best humans still outperform artificial intelligence in a creative divergent thinking task

저자: Mika Koivisto, Simone Grassini | 날짜: 2023.09 | DOI: 10.1038/s41598-023-40858-3

Essence

본 연구는 대체 용도 과제(Alternate Uses Task, AUT)를 통해 인간과 AI 챗봇의 창의성을 비교하였으며, 평균적으로는 AI가 우수하지만 최상위 인간의 창의적 아이디어는 여전히 AI와 동등하거나 초과한다는 것을 발견했다.

Evaluation

Overall: 4

본 연구는 AI와 인간 창의성의 관계를 정량적으로 규명한 중요한 실증 연구로, 평균적으로는 AI가 우수하지만 최고 수준의 인간 창의성은 여전히 독특한 가치가 있음을 보여준다. 다만 더 광범위한 과제와 표본에서의 검증과 시간에 따른 AI 발전 추적이 필요하다.

#692 2025 4/5

How do humans and language models reason about creativity? a comparative analysis

저자: Antonio Laverghetta Jr., Tuhin Chakrabarty, Tom Hope, Jimmy Pronchick, Krupa Bhawsar, Roger E. Beaty | 날짜: 2025 | DOI: arXiv:2502.03253v2

Essence

![Figure 3](figures/fig3.webp) *인간과 GPT-4O-MINI의 창의성 점수 비교* 본 논문은 STEM 분야의 창의성 평가에서 인간 전문가와 대규모 언어모델(LLM)이 어떻게 다르게 추론하는지를 비교 분석한다. 예시 제공 여부에 따른 창의성 평가 방식의 변화를 통해 인간과 AI의 인지 메커니즘과 편향의 차이를 규명한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 STEM 창의성 평가에서 인간 전문가와 LLM의 인지 메커니즘의 근본적 차이를 체계적으로 규명하는 의미 있는 연구로, 맥락 정보의 영향과 LLM의 동질화 현상이라는 새로운 발견을 제시한다. 다만 표본 규모 확대와 다양한 모델 비교를 통한 일반화 강화가 필요하다.

#693 2025 4/5

Human-LLM Coevolution: Evidence from Academic Writing

저자: Mingmeng Geng, Roberto Trotta | 날짜: 2025

arXiv 초록에서 ChatGPT가 선호하거나 비선호하는 단어들의 빈도 변화 추이

Essence

![Figure 1](figures/fig1.webp) *arXiv 초록에서 ChatGPT가 선호하거나 비선호하는 단어들의 빈도 변화 추이* 본 논문은 arXiv 논문 초록의 통계적 분석을 통해 인간과 대형언어모델(LLM)의 공진화(coevolution) 현상을 보여준다. 특히 2024년 초 ChatGPT의 과용 단어들이 지적된 직후부터 해당 단어들의 사용 빈도가 급감하는 현상을 발견했으며, 이는 연구자들이 LLM 출력을 의도적으로 수정하고 있음을 시사한다.

Evaluation

Overall: 4

인간과 LLM의 상호적응이라는 흥미로운 현상을 arXiv 대규모 텍스트 데이터로 명확히 증명하며, 현존 탐지 기술의 실질적 한계를 폭로함으로써 MGT 탐지 분야의 재성찰을 촉구하는 가치 있는 연구이다. 다만 인과성과 저자 의도에 대한 직접 증거 부족이 학술적 강도를 다소 제한한다.

#694 2025 3/5

Patterns and purposes: A cross-journal analysis of ai tool usage in academic writing

저자: Ziyang Xu | 날짜: 2025 | DOI: 미제공

데이터 분석 플로우차트: 내용 분석, 정량 분석, 네트워크 분석의 통합

Essence

본 연구는 엘스비어(Elsevier) 학술지 27개 범주의 8,859개 논문에서 AI 사용 선언문 168개를 분석하여, 학술 저술에서 ChatGPT가 77% 사용되며 가독성 개선(51%)과 문법 검사(22%)가 주요 목적임을 규명했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 3 Overall: 3

본 연구는 학술 저술에서의 AI 도구 실제 사용 패턴을 대규모로 규명한 시의적절한 실증 연구로, 저자 배경에 따른 차이를 통계적으로 입증함으로써 정책 입안자들에게 실질적 근거를 제공한다. 다만 샘플 제한, 선언문 기반 분석의 한계, 세부 개념화 부족 등을 보완할 필요가 있다.

Expert Review Feedback 7 ▶

#695 2020 4/5

TLDR: Extreme Summarization of Scientific Documents

저자: Isabel Cachola, Kyle Lo, Arman Cohan, Daniel S. Weld | 날짜: 2020 | DOI: 10.48550/ARXIV.2004.15011

과학 논문의 TLDR 예시. TLDR은 일반적으로 논문의 초록, 서론, 결론 섹션에서 발견되는 두드러진 정보로 구성됨

Essence

![Figure 1](figures/fig1.webp) *과학 논문의 TLDR 예시. TLDR은 일반적으로 논문의 초록, 서론, 결론 섹션에서 발견되는 두드러진 정보로 구성됨* 본 논문은 과학 논문을 위한 극단적 요약(extreme summarization) 작업인 TLDR 생성을 소개하고, 이를 위한 5.4K 규모의 멀티-타겟 데이터셋 SciTLDR과 제목을 보조 신호로 활용하는 CATTS 학습 전략을 제시한다.

Evaluation

Overall: 4

본 논문은 과학 논문의 극단적 요약이라는 현실적 필요성을 반영하여 새로운 작업과 고품질 멀티-타겟 데이터셋을 제시했으며, 혁신적 주석 프로토콜과 효과적인 학습 전략으로 자연어 처리 커뮤니티에 실질적 기여를 하였다.

#696 2025.01 4/5

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

저자: Jenna Russell, Marzena Karpinska, Mohit Iyyer | 날짜: 2025.01 | DOI: 10.48550/arXiv.2501.15654

Figure 1: 인간 전문가의 AI 생성 텍스트 주석 예시 - 판단, 신뢰도 점수, 상세 설명 포함

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 인간 전문가의 AI 생성 텍스트 주석 예시 - 판단, 신뢰도 점수, 상세 설명 포함* LLM을 글쓰기 작업에 자주 사용하는 사람들은 특별한 학습 없이도 AI 생성 텍스트를 극도로 정확하게 탐지할 수 있으며, 자동 탐지 시스템보다 훨씬 우수한 성능을 보인다. 본 연구는 300개의 논픽션 기사에 대한 9명의 주석자 분석을 통해 이를 입증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

현대 LLM 시대에 인간 탐지자의 잠재력을 체계적으로 재평가한 중요한 실증 연구이며, 실무적 가치가 높으나, 도메인과 전문가 표본의 제한성으로 인해 일반화 가능성에 주의가 필요하다.

#697 2024 4/5

Assisting in writing wikipedia-like articles from scratch with large language models

저자: Yijia Shao, Yucheng Jiang, Theodore A. Kanell, Peter Xu, Omar Khattab, Monica S. Lam (Stanford University) | 날짜: 2024 | DOI: arXiv:2402.14207

Essence

![Figure 1](figures/fig1.webp) *STORM은 Wikipedia와 같은 장문의 기사를 처음부터 작성할 때 필요한 사전 작성 단계(pre-writing stage)를 자동화한다. 다양한 관점의 질문 제시를 통해 주제를 연구하고 아웃라인을 생성한다.* 본 논문은 대규모 언어모델(LLM)을 활용하여 Wikipedia 수준의 장문 기사를 처음부터 작성하는 문제를 다루며, 특히 사전 작성 단계에서의 주제 연구와 아웃라인 생성에 초점을 맞춘다. STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking) 시스템을 제안하여 다양한 관점에서의 질문 생성과 정보 수집을 통해 체계적인 아웃라인을 자동으로 구성할 수 있음을 보인다.

Evaluation

Overall: 4

본 논문은 LLM을 이용한 장문 기사 생성에서 사전 작성 단계의 중요성을 재조명하고, 다양한 관점 기반의 대화형 질문 생성을 통해 체계적인 정보 연구를 자동화하는 STORM 시스템을 제시함으로써, 학술적으로나 실무적으로 중요한 기여를 한다. 특히 새로운 데이터셋과 평가 지표의 제공, 그리고 Wikipedia 편집자들의 전문가 평가를 포함한 종합적 검증이 강점이나, 출처 편향과 사실 관계의 정확성 문제는 향후 해결해야 할 과제로 남아있다.

#698 2023 4/5

Summarizing multiple documents with conversational structure for meta-review generation

저자: Miao Li, Eduard Hovy, Jey Han Lau | 날짜: 2023 | DOI: arXiv:2305.01498

계층적 대화 구조를 가진 PEERSUM 데이터셋 예시: 공식 리뷰, 저자 응답, 공개 리뷰 등이 스레드 형태로 조직됨

Essence

![Figure 1](figures/fig1.webp) *계층적 대화 구조를 가진 PEERSUM 데이터셋 예시: 공식 리뷰, 저자 응답, 공개 리뷰 등이 스레드 형태로 조직됨* 학술 논문 심사 과정에서 메타리뷰(meta-review)를 자동 생성하기 위해 리뷰어들의 상충된 의견과 다중 순환 대화를 포함한 계층적 구조를 갖춘 새로운 다중문서 요약 데이터셋(PEERSUM)과 이를 활용하는 관계-인식 모델(RAMMER)을 제안한다.

Evaluation

Overall: 4

복잡한 구조와 상충하는 정보를 다루는 현실적이고 도전적인 다중문서 요약 데이터셋을 제시한 점에서 학술적 기여도가 높으나, 제안된 모델이 핵심 문제(상충 해결)를 해결하지 못함을 보여주어 향후 연구의 방향을 명확히 제시한다.

#699 2020 4/5

Text editing by command

저자: Felix Faltings, Michel Galley, Gerold Hintz, Chris Brockett, Chris Quirk, Jianfeng Gao, Bill Dolan | 날짜: 2020 | DOI: arXiv:2010.12826

Essence

![Figure 1](figures/fig1.webp) *사용자 명령에 따른 대화형 텍스트 편집의 예시. "expand"와 "add years in office" 명령을 통해 문장이 점진적으로 확장된다.* 기존의 원샷(one-shot) 텍스트 생성 패러다임을 벗어나, 사용자의 자연어 명령(command)을 따르는 대화형 텍스트 편집 작업을 제안한다. 위키피디아 편집 이력에서 수집한 WikiDocEdits 데이터셋과 트랜스포머 기반 편집 모델을 통해 동적 제약조건을 반영한 문서 생성이 가능함을 보인다.

Evaluation

Overall: 4

본 논문은 기존의 원샷 생성 패러다임을 넘어 사용자와의 대화형 상호작용을 통한 문서 생성을 처음 체계적으로 제안한 점에서 의미가 있으며, 실제 위키피디아 데이터를 기반한 대규모 데이터셋은 향후 연구의 기초가 될 만큼 가치가 있다.

#700 2024.01 4/5

MARG: Multi-Agent Review Generation for Scientific Papers

저자: Mike D'Arcy, Tom Hope, Larry Birnbaum, Doug Downey | 날짜: 2024.01 | DOI: 10.48550/arXiv.2401.04259

Essence

![Figure 1](figures/fig1.webp) *다중 에이전트 아키텍처 개요: 논문을 여러 청크로 분할하여 각 GPT 인스턴스에 배치* 본 연구는 여러 LLM 인스턴스 간의 협력적 대화를 통해 과학 논문에 대한 피어 리뷰 피드백을 생성하는 MARG(Multi-Agent Review Generation) 방법을 제안한다. 이를 통해 기본 모델의 입력 길이 제한을 초과하는 긴 논문도 처리할 수 있으며, 제네릭한 피드백 문제를 크게 개선한다.

Evaluation

Overall: 4

본 논문은 다중 에이전트 LLM 협력을 통해 긴 과학 논문의 구체적 피드백 생성이라는 실질적 문제를 효과적으로 해결한 우수한 연구이다. 사용자 연구로 2.2배의 성능 개선을 실증했으나, 높은 비용과 에이전트 통신 오류라는 한계를 극복해야 한다.

#701 2024 4/5

OpenReviewer: A specialized large language model for generating critical scientific paper reviews

저자: Maximilian Idahl, Zahra Ahmadi | 날짜: 2024

OpenReviewer 데모 인터페이스: PDF 업로드, 마크다운 변환, 리뷰 템플릿 편집, 리뷰 생성 기능

Essence

![Figure 1](figures/fig1.webp) *OpenReviewer 데모 인터페이스: PDF 업로드, 마크다운 변환, 리뷰 템플릿 편집, 리뷰 생성 기능* 79,000개의 전문가 리뷰로 파인튠된 8B 파라미터 언어모델(Llama-OpenReviewer-8B)을 통해 기계학습 및 AI 학술지 논문에 대한 고품질 동료심사 의견을 생성하는 오픈소스 시스템이다. GPT-4o, Claude-3.5 같은 범용 LLM과 달리 비판적이고 현실적인 리뷰를 생성하여 인간 검토자의 평가 분포와 유사한 결과를 제시한다.

Evaluation

Overall: 4

OpenReviewer는 전문가 데이터셋 기반 파인튠과 구조화된 프롬프트 설계로 범용 LLM의 과도한 낙관적 편향을 극복하고 현실적인 학술 리뷰를 생성하는 실용적 시스템이다. 투고 전 저자 피드백 도구로서의 가치는 높지만, 평가 방법론의 한계와 다양한 학문 분야로의 확장성 검증이 필요하다.

Multi-Memory Dataset Methods 5 ▶

#702 2025 4/5

Lazyreview a dataset for uncovering lazy thinking in nlp peer reviews

저자: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych | 날짜: 2025 | DOI: -

Essence

NLP 동료 검토(peer review) 과정에서 발견되는 "게으른 사고(lazy thinking)" 를 자동으로 탐지하기 위한 첫 번째 주석 데이터셋 LAZYREVIEW를 제시한다. 500개의 전문가 주석 검토 세그먼트와 1,276개의 자동 주석 세그먼트로 구성되며, 지시 기반 미세 조정(instruction-based fine-tuning)을 통해 대규모 언어 모델(LLM) 성능을 10-20 포인트 향상시킬 수 있음을 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 NLP 커뮤니티의 실제 문제인 피어 리뷰의 게으른 사고 탐지를 위한 첫 번째 실제 데이터셋을 제공하며, 반복적 가이드라인 개선과 긍정 예시의 효과를 체계적으로 검증했다. LLM의 지시 미세 조정으로 높은 성능 향상을 보였으며, 인간 평가를 통해 실제 검토 품질 개선을 입증한 점이 강점이다. 다만 데이터셋 규모와 언어 다양성 측면에서 개선 여지가 있으며, 실제 검토 플랫폼 통합을 통한 장기 영향 평가가 필요하다.

#703 2025 4/5

Enabling AI Scientists to Recognize Innovation: A Domain-Agnostic Algorithm for Assessing Novelty

저자: Yao Wang, Mingxuan Cui, Arthur Jiang, Jun Yan | 날짜: 2025 | DOI: arXiv:2503.01508

RND 알고리즘의 개념 도시: 주어진 아이디어(삼각형/오각형)와 기존 문헌을 의미론적 임베딩 공간에 표현한 후, P개의 최근접 이웃을 찾고 각 이웃의 주변 밀도(Q개의 이웃 기준)를 계산하여 상대적 순위로 혁신성 점수를 결정

Essence

![Figure 1](figures/fig1.webp) *RND 알고리즘의 개념 도시: 주어진 아이디어(삼각형/오각형)와 기존 문헌을 의미론적 임베딩 공간에 표현한 후, P개의 최근접 이웃을 찾고 각 이웃의 주변 밀도(Q개의 이웃 기준)를 계산하여 상대적 순위로 혁신성 점수를 결정* 대규모 언어모델(LLM)이 생성한 연구 아이디어의 혁신성을 자동 평가하기 위해 **상대 이웃 밀도(Relative Neighbor Density, RND)** 알고리즘을 제안한다. 이 방법은 절대적 국소 밀도가 아닌 의미론적 이웃들의 상대적 밀도 분포를 분석하여 도메인 간 일관된 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 5 Overall: 4

혁신성 평가의 도메인 간 일반화를 상대 밀도 개념으로 우아하게 해결하고, 전문가 라벨링 불필요한 검증 방법론으로 스케일 가능성을 입증했다. LLM 과학자 시대의 실질적 요구에 부응하는 견고한 기술 기여이나, 테스트셋 라벨링의 철학적 가정(시간 경과 = 비혁신성)과 다양한 임베딩 모델의 영향에 대한 더 깊은 논의가 필요하다.

#704 2024 4/5

MASSW: A new dataset and benchmark tasks for AI-assisted scientific workflows

저자: Xingjian Zhang, Yutong Xie, Jin Huang, Jinge Ma, Zhaoying Pan, Qijia Liu, Ziyang Xiong, Tolga Ergen, Dongsub Shim, Honglak Lee, Qiaozhu Mei | 날짜: 2024

Essence

과학 논문 152,000편 이상으로부터 LLM을 이용하여 과학적 연구 워크플로우의 5가지 핵심 측면(Context, Key Idea, Method, Outcome, Projected Impact)을 자동 추출하여 구조화한 대규모 데이터셋을 제시하고, 다양한 벤치마크 과제를 통해 AI가 과학 연구를 보조할 수 있는 기반을 마련했다.

Evaluation

Overall: 4

MASSW는 과학 워크플로우를 구조화하고 대규모로 자동 추출한 혁신적 데이터셋으로, 향후 AI 기반 과학 연구 보조 도구 개발을 위한 견고한 기반을 제공한다. 다만 학문 분야 확장, 인과 관계 모델링, 실제 효과 입증 등이 보강되면 학술적 영향력이 더욱 증대될 것으로 예상된다.

#705 2025 4/5

Select, read, and write: A multi-agent framework of full-text-based related work generation

저자: Xiaochuan Liu, Ruihua Song, Xiting Wang, Xu Chen | 날짜: 2025 | DOI: arXiv:2505.19647

다중 에이전트 프레임워크의 개요: 셀렉터, 리더, 라이터가 협력하여 논문을 읽고 관련 연구 섹션을 생성

Essence

![Figure 1](figures/fig1.webp) *다중 에이전트 프레임워크의 개요: 셀렉터, 리더, 라이터가 협력하여 논문을 읽고 관련 연구 섹션을 생성* 학술 논문의 관련 연구(Related Work) 섹션 자동 생성을 위해 전체 텍스트 기반 다중 에이전트 프레임워크를 제안한다. 셀렉터-리더-라이터 구조와 그래프 기반 제약을 통해 참고 문헌 간의 관계를 명시적으로 포착하고 깊이 있는 이해를 달성한다.

Evaluation

Overall: 4

전체 텍스트 기반 관련 연구 생성이라는 실용적이고 도전적인 문제를 다중 에이전트 프레임워크와 명시적 그래프 제약으로 창의적으로 해결한 좋은 논문이다. 그러나 메모리 관리 메커니즘의 강건성, 대규모 참고 문헌에 대한 확장성, 실제 학술 환경에서의 실용성 검증이 추가로 필요하다.

#706 2025 3/5

Multi-novelty: Improve the diversity and novelty of contents generated by large language models via inference-time multi-views brainstorming

저자: Arash Lagzian, Srinivas Anumasa, Dianbo Liu | 날짜: 2025 | DOI: arXiv:2502.12700

다중 관점 임베딩을 통한 LLM 생성 콘텐츠의 다양성과 신규성 향상 개요

Essence

![Figure 1](figures/fig1.webp) *다중 관점 임베딩을 통한 LLM 생성 콘텐츠의 다양성과 신규성 향상 개요* 본 논문은 추론 시점(inference-time)에 텍스트와 이미지 기반 다중 관점(multi-view) 임베딩을 활용하여 대규모 언어모델(LLM)이 생성하는 콘텐츠의 다양성과 신규성을 개선하는 아키텍처 무관(model-agnostic) 방법을 제안한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 3 Overall: 3

본 논문은 LLM의 다양성과 신규성 문제에 실질적인 솔루션을 제시하며 909k 규모의 광범위한 실험으로 효과를 입증했으나, 기저 개념의 신규성이 제한적이고 계산 비용 및 다국어 확장성에 대한 고려가 충분하지 않다. 실무 적용 가치는 높으나 학술적 혁신성은 중간 수준.

Peer Review Detection 12 ▶

#707 2024.12 4/5

Reviewer2: Optimizing Review Generation Through Prompt Generation

저자: Zhaolin Gao, Kianté Brantley, Thorsten Joachims | 날짜: 2024.12 | DOI: 10.48550/arXiv.2402.10886

REVIEWER2의 구조: (a) 두 단계 모델 미세조정 (Mp: 논문→측면 프롬프트, Mr: 논문+프롬프트→리뷰) (b) 추론 단계에서의 순차적 생성

Essence

![Figure 1](figures/fig1.webp) *REVIEWER2의 구조: (a) 두 단계 모델 미세조정 (Mp: 논문→측면 프롬프트, Mr: 논문+프롬프트→리뷰) (b) 추론 단계에서의 순차적 생성* 본 논문은 LLM 기반 자동화된 논문 리뷰 생성의 문제를 **측면 프롬프트(aspect prompt)를 명시적으로 모델링하는 두 단계 프레임워크**로 해결하여, 더 구체적이고 다양한 리뷰를 생성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 측면 프롬프트 모델링이라는 창의적 아이디어로 자동화 리뷰 생성의 구체성과 커버리지 문제를 우아하게 해결하며, 새로운 주석 데이터셋을 학계에 공개한 점에서 큰 가치가 있으나, PGE의 자체-평가 순환성과 인간 평가의 부재는 실용적 신뢰성을 약화시킨다.

#708 2025 4/5

All that glitters is not novel: Plagiarism in ai generated research

저자: Tarun Gupta, Danish Pruthi | 날짜: 2025 | DOI: 미제공

그림 1: LLM 생성 연구 제안서의 표절 탐지를 위한 전문가 평가 개요. 선행 연구와 달리 본 연구의 참여자들은 표절을 적극적으로 탐색하도록 지시받음

Essence

![Figure 1](figures/fig1.webp) *그림 1: LLM 생성 연구 제안서의 표절 탐지를 위한 전문가 평가 개요. 선행 연구와 달리 본 연구의 참여자들은 표절을 적극적으로 탐색하도록 지시받음* 최근 자동화된 연구 에이전트가 혁신적인 연구 아이디어를 생성할 수 있다고 주장되고 있으나, 본 논문은 LLM이 생성한 연구 문서의 24%가 기존 논문으로부터 정교하게 표절되었음을 입증한다. 특히 이러한 표절이 내장된 표절 탐지 시스템을 우회하며 출처를 인정하지 않는 문제를 지적한다.

Evaluation

Overall: 4

본 논문은 LLM 기반 자동화 연구의 참신성에 대한 낙관론에 중요한 제동을 걸며, 체계적인 전문가 평가를 통해 24%의 검증된 표절을 입증한다. 기존 자동화 탐지 시스템의 한계를 명확히 드러낸 점에서 학술 출판 커뮤니티에 즉각적인 영향을 미칠 수 있는 의미 있는 연구이다.

#709 2024.08 4/5

AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews

저자: Keith Tyser, Ben Segev, Gaston Longhitano, Xin-Yu Zhang, Zachary Meeks, Jason Lee, Uday Garg, Nicholas Belsten, Avi Shporer, Madeleine Udell, Dov Te'eni, Iddo Drori | 날짜: 2024.08 | DOI: 10.48550/arXiv.2408.10365

OpenReviewer: 사용자가 논문을 업로드하면 자동으로 검토되고 수정 지침과 함께 피드백을 받음

Essence

![Figure 1: OpenReviewer 시스템](figures/fig1.webp) *OpenReviewer: 사용자가 논문을 업로드하면 자동으로 검토되고 수정 지침과 함께 피드백을 받음* 본 논문은 대규모 학술논문 검토의 병목 현상을 해결하기 위해 LLM(Large Language Model) 기반의 자동 논문 검토 시스템을 개발하고, 인간 검토자의 선호도와의 정렬도(alignment)를 평가하는 연구이다. 특히 시각-텍스트 통합 분석, 동적 질문 적응, 편향 감소 메커니즘을 통해 고품질의 일관된 검토를 제공한다.

Evaluation

Overall: 4

본 논문은 LLM 기반 학술 논문 검토 시스템의 실용적 구현과 함께 인간 검토와의 정렬도를 체계적으로 평가하는 주요 기여를 한다. 특히 멀티모달 분석, 편향 완화, 대규모 실제 데이터 적용 등이 강점이며, 오류 도입을 통한 신뢰 영역 매핑은 창의적 평가 방식이다. 다만 인간 선호도 데이터 규모 제한과 일부 윤리적 위험에 대한 미흡한 해결이 개선 과제이나, 학술 출판 생태계에 즉시 적용 가능한 실질적 솔루션을 제시한 점에서 높은 가치를 지닌다.

#710 2025 4/5

Detecting LLM-written Peer Reviews

저자: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah | 날짜: 2025 | DOI: arXiv:2503.15772v2

리뷰 탐지의 3단계 프로세스: 워터마킹 → 간접 프롬프트 주입 → 통계 검증

Essence

본 논문은 동료평가(peer review) 과정에 대규모언어모델(LLM)이 부정적으로 사용되는 것을 탐지하기 위해 **간접 프롬프트 주입(indirect prompt injection)** 기법을 통해 워터마크를 삽입하고, **통계적으로 엄밀한 검증 방법**으로 LLM 생성 리뷰를 검출하는 시스템을 제안한다.

Evaluation

Overall: 4

동료평가 무결성이라는 중요한 현안에 대해 **통계적으로 형식화된 워터마킹 검증 방법**을 최초로 제시하며, 대규모 리뷰 평가 시 다중검정 문제를 체계적으로 해결한 기여도 높은 논문이다. 다만 실제 조직 배포 시 윤리적·기술적 고려사항 및 LLM 진화에 따른 지속 가능성에 대한 심화 논의가 필요하다.

#711 2023.11 4/5

Do Users Write More Insecure Code with AI Assistants?

저자: Neil Perry, Megha Srivastava, Deepak Kumar, Dan Boneh | 날짜: 2023.11 | DOI: 10.1145/3576915.3623157

Figure 1: 각 질문별 보안 실수 원인별 실험군(파란색)/대조군(녹색) 응답 분포

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 각 질문별 보안 실수 원인별 실험군(파란색)/대조군(녹색) 응답 분포* 본 논문은 AI 코드 어시스턴트 사용자가 보안 관련 프로그래밍 작업을 수행할 때 더 안전하지 못한 코드를 작성하는지 대규모 사용자 실험을 통해 조사했다. 연구 결과 AI 어시스턴트(OpenAI's Codex-davinci-002)에 접근한 참가자들이 접근하지 못한 참가자들보다 유의미하게 보안 취약점이 많은 코드를 작성했으며, 역설적으로 자신의 코드가 안전하다고 더 높은 확률로 믿었다.

Evaluation

Overall: 4

본 논문은 AI 코드 어시스턴트의 실제 사용 환경에서의 보안 위험을 최초로 대규모 사용자 실험으로 입증한 중요한 연구로, 특히 사용자 과신 현상의 발견과 상호작용 전략의 영향 분석이 학계와 산업에 귀중한 통찰을 제공한다. 공개 연구 인프라의 제공은 재현성과 후속 연구를 촉진하는 긍정적 기여이며, 다만 단일 모델 기반 분석 및 제한적 표본 크기 등의 한계는 향후 개선이 필요하다.

#712 2024 4/5

A sentiment consolidation framework for meta-review generation

저자: Miao Li, Jey Han Lau, Eduard Hovy | 날짜: 2024

Figure 1: The three-layer framework of the underlying

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The three-layer framework of the underlying* 과학 논문 동료 평가(peer review)에서 메타리뷰 생성을 위해 감정 통합의 3계층 프레임워크를 제안하고, LLM 프롬프팅과 평가 메트릭을 개발하여 검증한 연구.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 메타리뷰 생성이라는 현실적이고 중요한 과제에 대해 인간의 의사결정 논리를 기반한 혁신적인 3계층 프레임워크를 제안하였으며, 경험적 검증을 통해 그 효과성을 입증한 의미 있는 연구이다.

#713 2024.11 4/5

Admissions in the age of AI: detecting AI-generated application materials in higher education

저자: Yijun Zhao, Alexander Borelli, Fernando Martinez, Haoran Xue, Gary M. Weiss | 날짜: 2024.11 | DOI: 10.1038/s41598-024-77847-z

대화형 웹 인터페이스를 통한 AI 생성 LOR 및 SOI 탐지 시스템

Essence

ChatGPT와 같은 생성형 AI의 발전으로 인해 대학원 입시에서 AI로 생성되거나 수정된 추천서(LOR)와 지원 동기서(SOI)를 탐지하기 위한 도메인 특화 분류 모델을 개발하였으며, 충분한 훈련 샘플을 갖춘 특화된 탐지기가 높은 정확도를 달성할 수 있음을 보여준다.

Evaluation

Overall: 4

본 연구는 생성형 AI의 발전에 따른 고등교육의 현실적 과제인 입시 자료 위조 탐지를 도메인 특화 모델로 해결하는 실용적이고 신뢰성 있는 접근을 제시하며, AI 수정 텍스트 탐지라는 새로운 관점을 도입했다는 점에서 의미가 있으나, 범용성 제한과 단일 AI 모델 평가라는 한계가 있다.

#714 2023 4/5

Csed: A chinese semantic error diagnosis corpus

저자: Bo Sun, Baoxin Wang, Yixuan Wang, Wanxiang Che, Dayong Wu, Shijin Wang, Ting Liu | 날짜: 2023

Essence

본 논문은 중국어 의미 오류 진단(Chinese Semantic Error Diagnosis, CSED)을 위한 최초의 대규모 코퍼스를 구축하고 이를 기반으로 구문 정보를 활용한 모델을 제안한다. 철자 오류와 문법 오류와 달리 의미 오류는 문장이 유창해 보이면서도 의미적으로 부적절한 복잡한 오류로, 이를 체계적으로 연구하기 위한 첫 공개 데이터셋을 제공한다.

Evaluation

Overall: 4

본 논문은 중국어 자연언어처리 분야에서 그간 관심받지 못했던 의미 오류 진단이라는 중요한 문제에 대해 고품질의 첫 전문 코퍼스를 제공하며, 의미 오류의 특성을 체계적으로 분석하고 구문 정보의 유용성을 입증한 의미 있는 기초 연구이다. 다만 제안된 구문 기반 모델의 기술적 깊이는 제한적이며, 더욱 정교한 의미-구문 통합 방법론 개발이 향후 과제로 남아있다.

#715 2024.12 4/5

Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review

저자: Sungduk Yu, Man Luo, Avinash Madasu, Vasudev Lal, Phillip Howard | 날짜: 2024.12 | DOI: 10.48550/arXiv.2410.03019

ICLR 학술대회에 제출된 리뷰 중 AI 생성 텍스트로 판정된 비율의 증가 추세(2019-2024)

Essence

![Figure 1](figures/fig1.webp) *ICLR 학술대회에 제출된 리뷰 중 AI 생성 텍스트로 판정된 비율의 증가 추세(2019-2024)* 학술 논문 심사 과정에서 LLM이 작성한 피어 리뷰(peer review)를 탐지하는 기존 방법들의 한계를 실증적으로 밝히고, 개별 리뷰 수준에서 AI 생성 텍스트를 탐지하는 새로운 앵커 임베딩(Anchor Embedding) 기반 접근법을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

학술 심사의 AI 악용이라는 시의적절하고 중요한 문제를 개별 리뷰 수준에서 최초로 실증적으로 다룬 귀중한 연구다. 특히 기존 탐지 기법의 구체적인 한계(GPT-4o 탐지 불충분, 높은 거짓 양성률)를 드러내고 앵커 임베딩이라는 실용적 대안을 제시한 점이 강점이다. 다만 프롬프트 난독화나 다른 LLM 모델에 대한 강건성, 다양한 학문 분야로의 일반화 가능성, 그리고 탐지 회피 공격에 대한 방어 메커니즘 등에서 추가 연구가 필요하며, 제안 방법의 실무 수용성과 운영 비용 측면의 상세 분석도 향후 과제로 남아있다.

#716 2023.06 4/5

ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

저자: Ryan Liu, Nihar B. Shah | 날짜: 2023.06 | DOI: 10.48550/arXiv.2306.00622

Essence

급속도로 발전하는 대규모 언어 모델(LLM)이 과학 논문 심사 과정에서 검토자를 보조할 수 있는지 실증적으로 평가한 연구로, GPT-4가 특정 작업에서는 유망하지만 완전한 논문 평가는 아직 불가능함을 보여준다.

Evaluation

Overall: 4

급부상하는 LLM의 논문 심사 활용 가능성을 최초로 체계적으로 탐색한 중요한 연구로, GPT-4가 오류 탐지와 체크리스트 검증에서는 유망하지만 완전한 평가는 아직 불가능함을 실증했다. 다만 소규모 실험 데이터셋과 제한된 모델 비교가 일반화 가능성을 다소 제약한다.

#717 2024 3/5

Streamlining the review process: AI-generated annotations in research manuscripts

저자: Óscar Díaz, Xabier Garmendia, Juanan Pereira | 날짜: 2024 | DOI: DOI 미제공

Fig. 1: 리뷰 보고서 및 그 UML 개념화

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: 리뷰 보고서 및 그 UML 개념화* 본 논문은 대규모 언어모델(LLM)을 학술 논문 심사 과정에 통합하되, AI가 전체 심사를 대체하는 것이 아니라 **manuscript annotation(원고 주석 달기)**이라는 특정 작업을 지원하는 방식을 제안한다. AnnotateGPT 플랫폼을 통해 AI와 인간 심사자의 협력을 위한 중간지점으로서 annotation의 역할을 검증한다.

Evaluation

Overall: 3

학술 심사에서 LLM을 보강(augmentation) 도구로 활용하는 새로운 패러다임을 제시하고, annotation을 중심으로 AI-인간 협력의 설계를 체계화한 점은 의미 있으나, 소규모 사용자 평가(n=9)와 제한된 기술 검증으로 인해 학술적 임팩트와 실용성 입증이 미흡한 상태.

#718 2023 3/5

Gpt4 is slightly helpful for peer-review assistance: A pilot study

저자: Zachary Robertson | 날짜: 2023

Figure 1: Mean Helpfulness Ratings of GPT and Human Reviews. The bar chart illustrates the mean

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Mean Helpfulness Ratings of GPT and Human Reviews. The bar chart illustrates the mean* GPT-4가 피어리뷰(peer-review) 보조 도구로서 인간 리뷰어와 유사한 수준의 도움을 제공할 수 있는지를 파일럿 연구를 통해 조사한 논문이다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 3 Clarity: 4 Overall: 3

이 파일럿 연구는 학술 피어리뷰에 AI를 활용할 수 있는 가능성을 최초로 실증적으로 탐색했다는 점에서 의의가 있으나, 극도로 제한된 샘플 크기(n=9)와 설계상의 여러 편향으로 인해 강한 결론을 도출하기 어렵다. GPT의 높은 분산성과 문장 수준 오류 감지 부족은 현재 상태에서는 독립적인 리뷰 도구보다는 인간 리뷰의 보조 수단으로만 활용 가능함을 시사한다.

News Verification Automation 7 ▶

#719 2024 4/5

Withdrarxiv: A large-scale dataset for retraction study

저자: Delip Rao, Jonathan Young, Thomas G. Dietterich, Chris Callison-Burch | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *arXiv 초록 페이지에서 추출한 메타데이터 요소* 본 논문은 arXiv 플랫폼에서 철회된 14,000개 이상의 논문을 수집한 첫 대규모 철회 연구 데이터셋(WithdrawArXiv)을 제시하며, 철회 이유를 10가지 범주로 분류하는 자동 분류 체계를 개발했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 STEM 분야에서 처음으로 대규모 논문 철회 데이터셋을 제시하고 실용적 자동화 방법론을 제공하여 과학 무결성 연구에 중요한 기여를 하고 있으나, 단일 플랫폼 한정과 분류 세분화 미흡이라는 제한사항이 있다.

#720 2024 4/5

Can large language models detect misinformation in scientific news reporting? arXiv preprint arXiv:2402.14268, 2024.

저자: Yupeng Cao, Aishwarya Muralidharan Nair, Nastaran Jamalipour Soofi, Elyon Eyimife, K.P. Subbalakshmi | 날짜: 2024 | DOI: arXiv:2402.14268

Essence

과학 뉴스 기사의 오보(misinformation)를 탐지하기 위해 대규모 언어모델(LLM)의 능력을 평가하고, 과학적 타당성 차원(Dimensions of Validity, DoV)을 정의하여 prompt engineering을 통해 미명시적 주장(explicit claim) 없이도 오보를 검출할 수 있는 세 가지 아키텍처를 제안한다.

Evaluation

Overall: 4

이 논문은 과학 뉴스의 오보 탐지 문제를 현대적 관점에서 접근하여 실용적 데이터셋과 명시적 주장 추출이 필요 없는 LLM 파이프라인을 제안했으나, 다중 도메인 일반화와 더 정밀한 평가 프로토콜을 통해 임팩트를 극대화할 수 있는 추가 연구가 필요하다.

#721 2024 4/5

Grounding fallacies misrepresenting scientific publications in evidence

저자: Max Glockner, Yufang Hou, Preslav Nakov, Iryna Gurevych | 날짜: 2024

Figure 1: MISSCI의 의역된 맥락을 실제 논문 구절과 연결. LLM은 (i) 원본 논문에서 관련 구절을 찾고 (ii) 거짓 주장을 지원하기 위한 논리적 오류를 생성해야 함

Essence

건강 관련 허위정보는 신뢰할 수 있는 생의학 논문을 증거로 잘못 인용하며, 논리적 오류(logical fallacy)를 적용하여 거짓 주장을 지원하는 것처럼 보이게 한다. 본 논문은 실제 학술지 구절에 기반하여 이러한 오류를 탐지하고 설명하기 위해 MISSCIPLUS 데이터셋을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 허위정보 탐지의 실제 적용을 위해 논리적 오류를 실제 과학 논문과 연결한 혁신적인 데이터셋을 제시하며, 기존 AFC 모델과 LLM이 오류가 있는 증거를 효과적으로 활용하지 못함을 실증적으로 보여줌으로써 향후 연구 방향을 제시한다.

#722 2025 4/5

Reviewing scientific papers for critical problems with reasoning llms: Baseline approaches and automatic evaluation

저자: Tianmai M. Zhang, Neil F. Abernethy (University of Washington) | 날짜: 2025 | DOI: arXiv:2505.23824v2

Essence

본 논문은 대규모 언어 모델(LLM)을 과학 논문의 비판적 오류 검출 도구로 활용하는 방안을 제시하며, 철회된 arXiv 논문 데이터셋을 바탕으로 추론형 LLM들의 성능과 비용을 평가합니다.

Evaluation

Overall: 4

본 논문은 LLM을 동료 심사 보조 도구로 위치지어 책임감 있는 활용을 추구하며, 실제 철회 데이터를 바탕으로 한 실증적 평가와 자동 평가 프레임워크를 제시하여 학술 출판 시스템의 개선에 유의미한 기여를 합니다. 다만 자동 평가 방식의 검증과 도메인 별 일반화 측면에서 추가 연구가 필요합니다.

#723 2025 4/5

When AI Co-Scientists Fail: SPOT—a Benchmark for Automated Verification of Scientific Research

저자: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinhang Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman | 날짜: 2025

SPOT 벤치마크의 구축 과정: 시드 수집(녹색)부터 검증, 정규화를 거쳐 평가 단계(파란색)까지 LLM 출력을 기준 오류와 비교

Essence

![Figure 1: Overview of SPOT](figures/fig1.webp) *SPOT 벤치마크의 구축 과정: 시드 수집(녹색)부터 검증, 정규화를 거쳐 평가 단계(파란색)까지 LLM 출력을 기준 오류와 비교* 대규모 언어모델(LLM)이 과학 논문의 오류를 자동으로 검증할 수 있는가를 묻는 본 논문은 83개 출판 논문과 91개의 검증된 오류로 구성된 SPOT 벤치마크를 제시하며, 최신 LLM들도 21.1% 이하의 재현율(recall)에 머물러 신뢰성 있는 학술 검증 자동화는 아직 불가능함을 보여준다.

Evaluation

Overall: 4

SPOT은 LLM의 약점을 체계적으로 드러내는 견고한 벤치마크로, 현재 AI 시스템이 신뢰성 있는 과학 검증자가 되기 위해 넘어야 할 실질적 거리가 얼마나 큰지를 증명한다. 규모 한계는 있으나, 저자 확인 + 이중 검증을 통한 질적 우수성과 다중모달 장문맥의 현실적 복잡도에서 의의가 크다.

#724 2023 3/5

aedFaCT: Scientific fact-checking made easier via semi-automatic discovery of relevant expert opinions

저자: Enes Altuncu, Jason R.C. Nurse, Meryem Bagriacik, Sophie Kaleba, Haiyue Yuan, Lisa Bonheme, Shujun Li | 날짜: 2023 | DOI: arXiv:2305.07796

Essence

![Figure 1](figures/fig1.webp) *aedFaCT의 시스템 아키텍처* 본 논문은 웹 브라우저 확장 프로그램인 aedFaCT를 제시하여, 뉴스 기사의 주요 키워드를 자동으로 추출하고 이를 바탕으로 신뢰할 수 있는 뉴스 매체의 전문가 의견과 동료 심사 학술논문을 반자동으로 검색함으로써 과학적 팩트체킹을 용이하게 한다. 사용자는 수집된 다양한 전문가 의견을 통해 의심스러운 과학적 주장의 진위를 판단할 수 있다.

Evaluation

Overall: 3

aedFaCT는 팩트체킹에 인간 중심 설계와 전문가 의견 활용이라는 실용적 관점을 도입한 의미 있는 응용 연구이나, 기술적 혁신성이 제한적이고 평가의 규모와 엄밀성이 불충분하여 학술적 기여도는 중간 정도이다. 특히 포커스 그룹 분석을 바탕으로 한 시스템 설계 방법론은 참고할 만하나, 향후 대규모 실제 사용자 평가와 자동화 기술의 고도화가 필요하다.

#725 2024 3/5

Claimver: Explainable claim-level verification and evidence attribution of text through knowledge graphs

저자: Preetam Prabhu Srikar Dammu, Himanshu Naidu, Mouly Dewan, Youngmin Kim, Tanya Roosta, Aman Chadha, Chirag Shah | 날짜: 2024

ClaimVer의 주장 검증 및 증거 귀속 시연. 자동 색상 코딩(황색: 외삽, 적색: 모순)과 위키데이터 기반 증거 제시

Essence

![Figure 1](figures/fig1.webp) *ClaimVer의 주장 검증 및 증거 귀속 시연. 자동 색상 코딩(황색: 외삽, 적색: 모순)과 위키데이터 기반 증거 제시* 본 논문은 지식 그래프(Knowledge Graph, KG)를 활용하여 텍스트의 각 주장(claim)을 세분화된 수준에서 검증하고, 각 검증 결과에 대한 명확한 증거와 설명을 제공하는 ClaimVer 프레임워크를 제안한다. 단순한 이진 판정 대신 주장 단위의 세밀한 분석을 통해 사용자의 신뢰도를 향상시킨다.

Evaluation

Overall: 3

ClaimVer는 사용자 중심의 설명가능한 사실 검증이라는 중요한 문제에 접근한 실용적 프레임워크로, 주장 단위 검증과 KG 기반 증거 제시 방식이 신선하다. 다만 정량적 평가 결과의 부재와 기술적 세부사항의 부족으로 인해 재현성과 신뢰성 검증이 필요하며, 실제 시스템 성능과 사용자 신뢰도 향상의 실증적 증거가 제시되어야 완성도 있는 연구로 평가될 수 있다.

Patent Citation Prediction 7 ▶

#726 2025 4/5

AAAR-1.0: Assessing AI's Potential to Assist Research

저자: Renze Lou et al. | 날짜: 2025

그림 1: AAAR-1.0 벤치마크의 4가지 작업에 대한 입출력 예시

Essence

![Figure 1](figures/fig1.webp) *그림 1: AAAR-1.0 벤치마크의 4가지 작업에 대한 입출력 예시* 본 논문은 대규모 언어모델(LLM)이 연구 작업을 얼마나 효과적으로 지원할 수 있는지 평가하기 위한 벤치마크 AAAR-1.0을 제시한다. 방정식 추론, 실험 설계, 논문 약점 식별, 리뷰 비판의 4가지 전문가급 AI 연구 작업을 통해 LLM의 지식 기반과 추론 능력을 종합적으로 평가한다.

Evaluation

Overall: 4

본 논문은 AI가 전문적 연구 활동을 얼마나 효과적으로 지원할 수 있는지 체계적으로 평가하기 위한 고품질 벤치마크를 제시했으며, 현재 LLM의 명확한 한계를 드러냄으로써 학계에 의미 있는 기여를 한다. 다만 특정 분야 편중 극복과 실제 개선 방안 제시를 통해 더욱 완성도 높은 연구로 발전할 여지가 있다.

#727 2025 4/5

Introspective growth: Automatically advancing llm expertise in technology judgment

저자: Yongtao Liu, Marti Checa, Rama Vasudevan | 날짜: 2025 | DOI: 제공되지 않음

Essence

![Figure 2](figures/fig2.webp) *특허 쌍 구분 작업에서 LLM의 정확도 비교: "다른 특허인가?"와 "같은 특허인가?" 질문에 대한 응답 분포* 본 논문은 대규모 언어모델(LLM)의 기술 판단 능력을 평가하기 위해 USPTO 특허 분류 작업을 활용하여, 모델이 보유한 지식(lay-in knowledge)과 실제 활용하는 지식(working knowledge) 간의 격차를 진단하는 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM의 실제 능력 평가에 중요한 "미사용 지식" 문제를 체계적으로 규명하고, 특허라는 도메인을 통해 개념 이해의 핵심 요소인 차별화 능력을 창의적으로 테스트한다. 다만, 도메인 특이성과 외부 정보의 완전성 가정으로 인해 일반화에 제약이 있으며, 진단 이후 개선 방안 제시까지는 미흡한 상태이다.

#728 2025 4/5

Automatic evaluation metrics for artificially generated scientific research

저자: Niklas Hoepner, Leon Eshuijs, Dimitrios Alivanistos, Giacomo Zamprogno, Ilaria Tiddi | 날짜: 2025 | DOI: arXiv:2503.05712

Essence

![Figure 1](figures/fig1.webp) *논문 표현을 위한 context model의 아키텍처: 제목-초록(초록색)과 관련 작업, 방법론, 실험 결과, 결론(파랑색)을 결합하여 처리* AI가 생성한 과학 논문의 품질 평가를 위해 인용 횟수 예측(Citation Count Prediction)과 리뷰 점수 예측(Review Score Prediction)을 자동 평가 지표로 제안하며, 단순 모델이 LLM 기반 검토자보다 인간 평가와 더 일치함을 입증한다.

Evaluation

Overall: 4

이 논문은 AI 생성 과학 콘텐츠 평가의 중요한 문제에 대해 실용적이고 신뢰할 수 있는 자동 지표를 제안하며 대규모 표준화 데이터셋을 제공함으로써 학계에 유의미한 기여를 하고 있으나, 인간 수준 성능 달성과 모델 복잡도 향상 여지가 남아있다.

#729 2025 4/5

Can AI Examine Novelty of Patents?: Novelty Evaluation Based on the Correspondence between Patent Claim and Prior Art

저자: Hayato Ikoma, Teruko Mitamura (Carnegie Mellon University) | 날짜: 2025 | DOI: arXiv:2502.06316

특허 심사 과정: 심사관이 특허 청구항과 선행기술 문서를 비교하여 거절 이유를 판단하고, 출원인이 청구항을 수정한 후 재심사하는 반복 과정

Essence

![Figure 1](figures/fig1.webp) *특허 심사 과정: 심사관이 특허 청구항과 선행기술 문서를 비교하여 거절 이유를 판단하고, 출원인이 청구항을 수정한 후 재심사하는 반복 과정* 본 논문은 대규모 언어모델(LLM)의 특허 신규성(novelty) 평가 능력을 최초로 체계적으로 검증하기 위해, 실제 특허 심사 사례를 기반으로 한 데이터셋을 구축하고 다양한 모델의 성능을 비교 분석한 연구이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 특허 신규성 평가라는 미탐색 영역에서 실제 심사 사례 기반 데이터셋을 처음 구축하고 LLM의 능력을 검증한 의미 있는 연구이다. 생성 모델의 가능성을 보여주었으나, 분류 모델 부진의 원인 분석, 설명의 자동 평가 메트릭 개발, 그리고 다양한 기술 분야로의 일반화가 필요하다.

#730 2023 4/5

Cited text spans for citation text generation

저자: Xiangci Li, Yi‐Hui Lee, Jessica Ouyang | 날짜: 2023

Overview of the proposed CTS-based citation generation approach. Context, Oracle, Keyword 전략을 통해 인용 논문에서 CTS를 검색하고 인용 텍스트를 생성

Essence

![Figure 1](figures/fig1.webp) *Overview of the proposed CTS-based citation generation approach. Context, Oracle, Keyword 전략을 통해 인용 논문에서 CTS를 검색하고 인용 텍스트를 생성* 과학 논문의 인용 텍스트 자동 생성을 위해 기존의 초록(abstract)만 사용하는 방식 대신, 실제 인용되는 특정 텍스트 구간(Cited Text Span, CTS)을 활용하여 더 정확하고 충실한 인용 생성이 가능함을 보여준다. 이를 위해 원가(distant labeling)를 통해 대규모 CTS 데이터셋을 구축하고, 실용적인 키워드 기반 CTS 검색 방법을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 인용 생성 시스템에서 초록의 한계를 지적하고 CTS 기반 접근의 타당성을 체계적으로 입증한 가치 있는 연구이다. 원가 레이블링으로 수작업 주석의 부담을 경감한 점이 실무적 기여도 크다. 다만 완전 자동화된 CTS 검색 실현 및 대규모 생성 모델과의 통합 검증이 보완되면 영향력이 더욱 증대될 것으로 기대된다.

#731 2025 4/5

Exploiting LLMs for Automatic Hypothesis Assessment via a Logit-Based Calibrated Prior

저자: Yue Gong, R. Fernandez | 날짜: 2025 | DOI: 10.48550/arXiv.2506.03444

그림 1: 전문가가 수동으로 상관관계를 평가하는 방식과 LLM이 도움을 주는 방식

Essence

![Figure 1](figures/fig1.webp) *그림 1: 전문가가 수동으로 상관관계를 평가하는 방식과 LLM이 도움을 주는 방식* LLM의 내부 지식을 활용하여 변수 쌍의 예상 상관계수에 대한 사전분포(prior distribution)를 자동으로 구성하고, 이를 통해 관찰된 상관관계가 얼마나 놀라운지(surprising)를 정량화함으로써 수천 개의 발견된 상관관계 중 주목할 가치가 있는 것을 자동으로 필터링하는 방법을 제안한다.

Evaluation

Overall: 4

본 논문은 가설 평가의 자동화라는 실질적이고 중요한 문제를 설정하고, LLM의 로짓으로부터 보정된 상관관계 사전분포를 구성하는 창의적이고 실행 가능한 방법을 제시한다. 2,096개 변수 쌍에 대한 포괄적인 벤치마크와 다각적 평가를 통해 방법의 유효성을 입증했으나, 현재로서는 상관관계에만 적용되고 다른 통계적 관계나 인과관계로의 확장이 부족하다는 점이 영향을 미친다.

#732 2023 3/5

Unveiling the sentinels: Assessing ai performance in cybersecurity peer review

저자: Liang Niu, Nian Xue, Christina Pöpper | 날짜: 2023 | DOI: 미제공

Essence

![Figure 1](figures/fig1.webp) *논문 분류 모델의 파이프라인: 첫 단계는 Doc2Vec 기반 문서 임베딩, 두 번째 단계는 분류기를 통한 수용/거절 예측* 본 연구는 인공지능이 사이버보안 학술지 동료 검토(peer review) 과정에서 얼마나 효과적으로 성능을 발휘할 수 있는지를 정량적으로 평가한다. Doc2Vec 기반 두 단계 분류 접근법이 91% 이상의 정확도로 논문의 수용/거절을 예측하며, ChatGPT를 크게 상회한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

본 논문은 사이버보안 학술지의 동료 검토를 AI로 예측하는 최초의 정량 연구로서 실무적·학술적 의의가 있으나, 음성 샘플의 근사성, 기술 방법론의 보수성, 그리고 주관적 평가 요소를 포착하지 못한다는 근본적 한계로 인해 AI가 인간 검토자를 완전히 대체할 수 없음을 보여준다. 이는 역설적으로 연구의 가치를 입증한다.

Citation Context Generation 8 ▶

#733 2024 4/5

Citebart: Learning to generate citations for local citation recommendation

저자: Ege Yiğit Çelik, Selma Tekır | 날짜: 2024

CiteBART의 워크플로우. 노란색과 녹색 예시는 각각 CiteBART-Base와 CiteBART-Global의 작동 방식을 나타낸다.

Essence

![Figure 1](figures/fig1.webp) *CiteBART의 워크플로우. 노란색과 녹색 예시는 각각 CiteBART-Base와 CiteBART-Global의 작동 방식을 나타낸다.* 본 논문은 인용 토큰(citation token)을 마스킹하는 사용자 정의 사전학습을 통해 로컬 인용 추천(Local Citation Recommendation, LCR) 작업을 수행하는 생성형 모델 CiteBART를 제안한다. 기존의 사전-검색 및 재순위(pre-fetch and re-rank) 파이프라인과 달리 엔드-투-엔드 학습 시스템으로 우수한 성능을 달성한다.

Evaluation

Overall: 4

CiteBART는 LCR 문제에 대한 창의적인 생성형 접근으로서, 특히 대규모 데이터셋에서 우수한 성능을 보이며 실제 응용 가치가 높다. 다만 소규모 데이터셋 성능 한계와 할루시네이션 문제는 추가 개선이 필요하다.

#734 2025 4/5

Scirgc: Multi-granularity citation recommendation and citation sentence preference alignment

저자: Xi Chen, Huan-jing Zhao, Shu Zhao, Jie Chen, Yan-ping Zhang | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Process for implementing citation recommendation and generation in the SciRGC framework* SciRGC 프레임워크는 인용 의도(citation intent) 인식과 인용 네트워크를 활용하여 학술 논문의 적절한 인용 문헌을 추천하고 고품질의 인용 문장을 생성하는 다단계 시스템을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 3 Overall: 4

이 논문은 인용 의도 인식이라는 핵심 개념과 협업 필터링, LLM 미세 조정 및 DPO 정렬 등의 최신 기술을 활용하여 인용 추천과 생성의 일관성 있는 통합 솔루션을 제시한다. 실험적 검증이 포괄적이고 새로운 평가 메트릭 제안도 의의가 있으나, 일부 기술적 세부사항과 도메인별 성능에 대한 심화 분석이 보강되면 더욱 강력한 기여가 될 수 있다.

#735 2022 4/5

Controllable Citation Sentence Generation with Language Models

저자: Nianlong Gu, Richard H. R. Hahnloser | 날짜: 2022 | DOI: arXiv:2211.07066

Essence

![Figure 1](figures/fig1.webp) *언어 모델을 이용한 인용 문장 생성 워크플로우: 지도 학습 미세조정 후 PPO를 통한 제어 가능성 최적화* 본 논문은 저자가 인용 의도(citation intent)와 핵심 키워드를 명시적으로 지정하여 인용 문장 생성을 제어할 수 있는 언어 모델 기반 접근법을 제안한다. 지도 학습 미세조정과 강화학습(PPO)을 결합하여 생성 품질과 제어 가능성을 동시에 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 인용 문장 생성에 사용자 제어 기능을 도입하는 실용적이고 창의적인 접근을 제시하며, 구조화된 프롬프트 템플릿과 다중 메트릭 기반 강화학습을 통해 기존 자동화 방식의 한계를 효과적으로 보완한다. 다만 평가 메트릭의 일부 신뢰도와 데이터셋의 도메인 한계 측면에서는 추가 검증이 필요하다.

#736 2024 4/5

Explaining relationships among research papers

저자: Xiangci Li, Jessica Ouyang | 날짜: 2024

그림 1: GPT-4 기반 Bing Chat과 본 논문의 접근 방식 비교. Bing Chat의 출력은 일반적이고 부정확한 반면, 제안 방식은 구조화된 특성(features)을 활용하여 보다 정확한 인용문을 생성한다.

Essence

![Figure 1](figures/fig1.webp) *그림 1: GPT-4 기반 Bing Chat과 본 논문의 접근 방식 비교. Bing Chat의 출력은 일반적이고 부정확한 반면, 제안 방식은 구조화된 특성(features)을 활용하여 보다 정확한 인용문을 생성한다.* 본 논문은 연구 논문들 간의 복잡한 관계를 포착하기 위해 특성 기반(feature-based) LLM 프롬프팅 접근법을 제안하며, 단순 인용문 생성을 넘어 여러 논문을 한 번에 처리하고 이들을 연결하는 전환 문장(transition sentence)을 생성한다.

Evaluation

Overall: 4

본 논문은 연구 논문 간의 복잡한 관계를 포착하여 응집력 있는 문학 검토를 생성하는 실질적인 문제를 다루며, 특성 기반 LLM 프롬프팅의 유효성을 입증했으나, 계획의 자동 생성 및 대규모 평가를 통한 완성이 필요하다.

#737 2022 4/5

Generating full length wikipedia biographies: The impact of gender bias on the retrieval-based generation of women biographies

저자: Angela Fan, Claire Gardent | 날짜: 2022

모델 아키텍처: 웹 검색 결과에서 관련 정보를 검색(retrieval)한 후, 섹션별로 위키피디아 전기문을 생성하고 인용문을 추가하는 end-to-end 시스템

Essence

![Figure 1](figures/fig1.webp) *모델 아키텍처: 웹 검색 결과에서 관련 정보를 검색(retrieval)한 후, 섹션별로 위키피디아 전기문을 생성하고 인용문을 추가하는 end-to-end 시스템* 본 논문은 웹 검색 기반 정보 검색(retrieval-augmented generation)과 사전학습 모델을 활용하여 전체 길이의 위키피디아 전기문을 자동 생성하는 시스템을 제시하며, 특히 웹상 정보가 부족한 여성 인물 전기 생성에서 성별 편향의 영향을 분석한다.

Evaluation

Overall: 4

본 논문은 장문 위키피디아 전기 자동 생성이라는 도전적인 과제를 검색-생성 아키텍처로 해결하며, 여성 인물에 대한 웹 정보 부족이 생성 품질에 미치는 영향을 처음으로 정량화한 점에서 의의가 있다. 다만 검색 결과의 품질에 대한 과도한 의존성과 자동 평가 지표의 제한성이 실무 적용을 위해 개선되어야 할 과제이다.

#738 2024 4/5

ILCiteR: Evidence-grounded interpretable local citation recommendation

저자: Sayar Ghosh Roy, Jiawei Han | 날짜: 2024 | DOI: 미제공

Essence

![Figure 2](figures/fig2.webp) *ILCiteR 시스템의 개요: 증거 데이터베이스 사전 로딩, 조건부 신경 순위 앙상블을 통한 증거 스팬 재순위화, 논문 순위화의 3단계 프로세스* 본 논문은 학술 논문 인용 추천 작업에 **해석가능성(interpretability)**을 도입하기 위해, 쿼리(claim 또는 entity mention)에 대해 인용할 논문을 추천할 때 기존 문헌에서 추출한 유사한 증거 스팬(evidence span)을 근거로 제시하는 새로운 접근방식 ILCiteR을 제안한다.

Evaluation

Overall: 4

학술 논문 인용 추천에 **해석가능성**이라는 중요한 차원을 도입한 의미 있는 연구로, 원거리 감시 기반의 실용적 설계와 대규모 증거 데이터셋 구축이 장점이다. 다만 평가 방법론의 상세 제시와 실제 사용자 연구를 통한 해석가능성 검증이 이루어진다면 더욱 강력한 논문이 될 수 있다.

#739 2025 4/5

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

저자: Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen | 날짜: 2025 | DOI: arXiv:2504.00824

전통적인 RAG 시스템(좌)과 ScholarCopilot(우)의 비교. ScholarCopilot은 텍스트 생성 중 동적으로 검색 토큰([RET])을 생성하여 문맥-인식형 참고문헌 검색을 수행함

Essence

![Figure 1](figures/fig1.webp) *전통적인 RAG 시스템(좌)과 ScholarCopilot(우)의 비교. ScholarCopilot은 텍스트 생성 중 동적으로 검색 토큰([RET])을 생성하여 문맥-인식형 참고문헌 검색을 수행함* 학술 논문 작성을 위해 생성 과정과 인용 검색을 통합한 대규모 언어모델 프레임워크를 제시한다. 동적 검색 토큰 생성을 통해 필요한 시점에 정확한 학술 참고문헌을 검색하고 인용 정확도를 대폭 향상시킨다.

Evaluation

Overall: 4

ScholarCopilot은 반복적 검색-생성 통합을 통해 학술 논문 작성에 특화된 실용적이고 혁신적인 솔루션을 제시한다. 대규모 학술 데이터셋 구축과 사용자 평가를 통해 실질적 가치를 입증했으나, 도메인 한정성과 상세한 기술 설명 부분에서 개선의 여지가 있다.

#740 2024 3/5

Directed criteria citation recommendation and ranking through link prediction

저자: William Watson, Lawrence Yong | 날짜: 2024 | DOI: 10.48550/arXiv.2403.18855

그림 1: 학습된 잔차(Learned Residual)를 갖춘 증강 트랜스포머 아키텍처

Essence

![Figure 1](figures/fig1.webp) *그림 1: 학습된 잔차(Learned Residual)를 갖춘 증강 트랜스포머 아키텍처* 신용평가기관의 평가 기준 문서들 사이의 인용 관계를 그래프 링크 예측(link prediction) 문제로 모델링하여, 트랜스포머 기반 그래프 신경망으로 누락된 인용을 자동 추천하고 순위를 매기는 방법론을 제시한다.

Evaluation

Overall: 3

신용평가 기관의 실무 문제를 그래프 신경망으로 효과적으로 해결한 응용 사례이나, 학술적 혁신성은 제한적이며 평가의 엄밀성과 비교 대상의 다양성을 강화할 필요가 있다.

Cross-modal Language Detection 6 ▶

#741 2025 4/5

DrSR: LLM 기반 과학 방정식 발견 (데이터와 경험의 이중 추론)

저자: R. Wang, Boxiao Wang, Kai Li, Yifan Zhang, Jian Cheng | 날짜: 2025 | DOI: arXiv:2506.04282

Essence

![Figure 1](figures/fig1.webp) *DrSR 프레임워크 개요: (a) 데이터 인식 통찰 (b) 귀납적 아이디어 추출 (c) 방정식 생성 및 선택* 본 논문은 대규모 언어모델(LLM)을 활용한 기호 회귀(Symbolic Regression)에서 **데이터 구조 분석**과 **생성 이력 반영**의 이중 추론을 통해 과학 방정식 발견의 정확성과 효율성을 획기적으로 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

DrSR은 LLM 기반 기호 회귀의 두 가지 핵심 약점(데이터 무시, 경험 부재)을 동시에 해결하는 실용적이고 우아한 솔루션으로, 다중 과학 도메인에서 입증된 성과를 보인다. 다만 계산 비용-성능 트레이드오프 정량화와 이론적 수렴성 분석이 추가되면 학술적 영향력이 더욱 증대될 것으로 예상된다.

#742 2024 4/5

Autocap: Towards automatic cross-lingual alignment planning for zero-shot chain-of-thought

저자: Yongheng Zhang, Qiguang Chen, Min Li, Wanxiang Che, Libo Qin | 날짜: 2024 | DOI: 미제공

전통적 교차언어 자기일관성 프레임워크(a)와 제안 방법 AUTOCAP(b)의 비교. 기존 방법은 수동으로 언어와 가중치를 지정하지만, AUTOCAP은 자동으로 최적 언어와 가중치를 선택한다.

Essence

![Figure 1](figures/fig1.webp) *전통적 교차언어 자기일관성 프레임워크(a)와 제안 방법 AUTOCAP(b)의 비교. 기존 방법은 수동으로 언어와 가중치를 지정하지만, AUTOCAP은 자동으로 최적 언어와 가중치를 선택한다.* 본 논문은 다국어 Chain-of-Thought(CoT) 추론에서 언어 선택과 가중치 할당을 자동화하는 **AUTOCAP(Automatic Cross-lingual Alignment Planning)** 프레임워크를 제안한다. 기존 방법들의 수동 언어 지정과 동일 가중치 할당의 한계를 극복하여 영점 교차언어(zero-shot cross-lingual) 추론을 개선한다.

Evaluation

Overall: 4

AUTOCAP은 교차언어 CoT에서 수동 언어 지정의 부담을 완벽히 제거하고 동적 가중치 할당을 통해 실질적 성능 향상을 이루어낸 실용적이고 효과적인 방법이다. 다만 프롬프팅 기반의 근본적 한계와 계산 효율성에 대한 분석 보완이 필요하다.

#743 2025 4/5

Cchall: A novel benchmark for joint cross-lingual and cross-modal hallucinations detection in large language models

저자: Yongheng Zhang, Xu Liu, Ruoxi Zhou, Qiguang Chen, Hao Fei, Wenpeng Lü, Libo Qin | 날짜: 2025 | DOI: 10.48550/arXiv.2505.19108

Essence

![Figure 1](figure1.png) *그림 1: (a) 교차-언어 환각(cross-lingual hallucination) - "stand"를 "站在"로 오역, (b) 교차-모달 환각(cross-modal hallucination) - 존재하지 않는 "bridge" 생성, (c) 교차-언어 및 교차-모달 환각의 결합* 본 논문은 대규모 언어 모델(LLM)이 교차-언어 및 교차-모달 상황에서 동시에 겪는 환각(hallucination) 문제를 평가하기 위한 새로운 벤치마크 **CCHall(Cross-lingual and Cross-modal Hallucinations)**을 제시한다. 기존 연구가 단일 시나리오(교차-언어 또는 교차-모달)에만 집중한 반면, 이 연구는 두 문제가 결합된 실제 상황을 평가하는 최초의 종합 벤치마크를 개발했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

CCHall은 기존 연구의 명확한 갭을 식별하고 실제 응용에서 중요한 결합 환각 문제를 평가하는 최초의 벤치마크로, 높은 실용성과 학문적 가치를 제공한다. 다만 자동 환각 생성 방법론의 검증과 메커니즘 분석이 보강되면 더욱 강력한 자료가 될 수 있다.

#744 2023 4/5

Enabling language models to implicitly learn self-improvement

저자: Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji | 날짜: 2023

Essence

본 논문은 대규모 언어모델(LLM)이 인간 선호도 데이터로부터 암묵적으로 자기 개선 목표를 학습할 수 있도록 하는 **PIT(ImPlicit Self-ImprovemenT)** 프레임워크를 제안한다. 기존 프롬프팅 기반 자기 개선 방법들과 달리, 명시적인 평가 기준(rubric) 설계 없이 보상 모델 학습에 사용되는 선호도 데이터만으로 응답 품질을 개선할 수 있다.

Evaluation

Overall: 4

PIT는 선호도 데이터로부터 암묵적으로 개선 목표를 학습한다는 우아한 아이디어와 추가 인적 노력 없이 기존 데이터를 재활용한다는 실용성으로 가치 있는 기여를 하지만, 이론적 정당성 강화와 보상 모델 의존성 완화 방안이 향후 필요하다.

#745 2023 4/5

0: Towards a reliable multi-modal sarcasm detection system

저자: Mayur Wankhade, Annavarapu Chandra Sekhara Rao, Chaitanya Kulkarni | 날짜: 2023

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Overall process of construction MMSD2.0 dataset. Given the example in (a), Spurious Cues Removal* 멀티모달 사르카즘 탐지를 위한 신뢰할 수 있는 벤치마크 MMSD2.0을 제시하고, 다중 관점 CLIP 프레임워크를 제안하여 텍스트, 이미지, 텍스트-이미지 상호작용을 활용한 사르카즘 탐지 시스템을 구축한 연구다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 멀티모달 사르카즘 탐지의 신뢰성 문제를 명확히 지적하고, 체계적인 데이터 정제를 통해 MMSD2.0 벤치마크를 제공하며, 다중 관점 CLIP 프레임워크로 우수한 성능을 달성한 의미 있는 기여다. 특히 문제점 진단과 데이터 개선에 중점을 둔 실용적이고 신뢰할 수 있는 연구로 평가된다.

#746 2024 4/5

Can Large Language Models Understand You Better? An MBTI Personality Detection Dataset Aligned with Population Traits

저자: Bohan Li, Jiannan Guan, Longxu Dou, Yunlong Feng 외 | 날짜: 2024 | DOI: arXiv:2412.12510

MBTIBENCH의 초점: 기존 MBTI 성격 탐지 데이터셋의 데이터 품질 문제와 소프트 라벨 부재 해결

Essence

![Figure 1](figures/fig1.webp) *MBTIBENCH의 초점: 기존 MBTI 성격 탐지 데이터셋의 데이터 품질 문제와 소프트 라벨 부재 해결* 본 논문은 **Myers-Briggs Type Indicator (MBTI) 성격 탐지의 과도한 낙관성을 개선**하기 위해, 심리학 전문가의 지도 하에 심리 전문가가 직접 주석을 단 **첫 번째 소프트 라벨 MBTI 데이터셋 MBTIBENCH**를 구축했다. 이는 자기보고식 라벨의 부정확성(29.58% 오류)과 극단적 성격만 표현하는 하드 라벨의 한계를 해결한다.

Evaluation

Overall: 4

본 논문은 MBTI 성격 탐지 연구의 **데이터 품질 문제와 심리학적 현실성 간극을 체계적으로 해결**한 의미 있는 기여다. 특히 심리학 전문가와의 협업을 통한 고품질 재주석과 소프트 라벨 도입은 향후 성격 탐지 및 LLM의 심리 이해도 평가에 중요한 벤치마크를 제공할 것으로 기대된다.

Iterative Text Refinement 5 ▶

#747 2023 4/5

Self-Refine: Iterative Refinement with Self-Feedback

저자: Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao 외 | 날짜: 2023 | DOI: 10.48550/arXiv.2303.17651

Figure 1: SELF-REFINE의 기본 작동 원리. 동일한 모델 M이 초기 생성, 피드백 제공, 개선을 반복적으로 수행

Essence

![Figure 1](figures/fig1.webp) *Figure 1: SELF-REFINE의 기본 작동 원리. 동일한 모델 M이 초기 생성, 피드백 제공, 개선을 반복적으로 수행* 대규모 언어 모델(LLM)이 자신의 출력에 대해 피드백을 제공하고 이를 바탕으로 자동으로 개선하는 반복적 자기 정제 방식을 제시한다. 추가 훈련이나 외부 보상 모델 없이 단일 LLM만으로 약 20% 절대 성능 향상을 달성한다.

Evaluation

Overall: 4

이 논문은 거대 언어 모델이 자신의 피드백을 통해 반복적으로 스스로를 개선할 수 있다는 간단하면서도 효과적인 아이디어를 제시한다. 추가 훈련 없이 기존 LLM에 즉시 적용 가능하면서도 평균 20% 성능 향상을 달성하여 실무적 가치가 높으나, 계산 비용 증가, 피드백 품질 의존성, 일부 작업에서의 제한된 효과 등이 개선과제로 남아있다.

#748 2024 4/5

Closing the loop: Learning to generate writing feedback via language model simulated student revisions

저자: Inderjeet Nair, Jiaye Tan, Xiaotian Su, Anne Gere, Xu Wang, Lu Wang | 날짜: 2024 | DOI: arXiv:2410.08058

Essence

![Figure 1](figures/fig1.webp) *PROF 파이프라인: 피드백 생성기가 여러 피드백을 샘플링하고, 학생 시뮬레이터를 통해 수정 결과를 평가하며, 선호도 관계를 기반으로 DPO를 통해 반복적으로 최적화되는 과정* 본 논문은 **언어 모델 기반 학생 시뮬레이터를 활용하여 작문 피드백 생성 모델(PROF)을 반복적으로 최적화하는 방법**을 제안한다. 실제 학생 참여 없이 피드백의 실효성을 직접 측정하고 개선할 수 있는 자동화된 시스템을 구축한다.

Evaluation

Overall: 4

본 논문은 LM 시뮬레이터를 활용하여 피드백 생성을 반복적으로 최적화하는 창의적 방법론을 제시하며, 기존 대형 모델을 능가하는 효율적이고 효과적인 시스템을 구현했다. 다만 단일 과제 검증과 실제 학생 참여 평가 부재가 실제 교육 현장으로의 전환 가능성을 제한한다.

#749 2022 4/5

Read, Revise, Repeat: A System Demonstration for Human-in-the-Loop Iterative Text Revision

저자: Wanyu Du, Zae Myung Kim, Vipul Raheja, Dhruv Kumar, Dongyeop Kang | 날짜: 2022

Essence

![Figure 1](figures/fig1.webp) *R3 시스템의 인간-기계 협력적 반복 텍스트 개정 파이프라인* 본 논문은 인간 피드백을 통합한 반복적 텍스트 개정 시스템 R3(Read, Revise, Repeat)을 제시한다. 사용자가 모델의 편집 제안을 수용/거절하며 상호작용하는 방식으로 고품질 텍스트 개정을 달성한다.

Evaluation

Overall: 4

인간 피드백을 반복 단계마다 통합하여 개정 품질과 사용 경험을 동시에 개선하는 실용적 시스템이나, 기술적 독창성은 제한적이며 평가의 깊이를 심화할 필요가 있다.

#750 2025 4/5

Self-critique guided iterative reasoning for multi-hop question answering

저자: Zheng Chu, Haiming Fan, Jingchang Chen, Qianyu Wang, Mingda Yang, Jiafeng Liang, Zhongjie Wang, Hao Li, Guoan Tang, Ming Liu, Bing Qin | 날짜: 2025

그림 1: 다중 홉 질의응답에서 반복적 검색과 자기비판 유도 추론의 비교. 제안 방법은 반복적 추론 중 자기비판을 통합하고 피드백에 기반한 탐색을 수행함

Essence

![Figure 1](figures/fig1.webp) *그림 1: 다중 홉 질의응답에서 반복적 검색과 자기비판 유도 추론의 비교. 제안 방법은 반복적 추론 중 자기비판을 통합하고 피드백에 기반한 탐색을 수행함* 대규모 언어모델(LLM)의 지식 제한 문제를 해결하기 위해, 자기비판 피드백을 통해 반복적 추론 과정을 유도하는 새로운 다중 홉 질의응답 방법을 제안한다. 모델이 질문 분해, 검색, 추론, 자기평가를 학습하여 중간 단계의 오류를 줄이고 최적 추론 경로를 선택할 수 있도록 한다.

Evaluation

Overall: 4

자기비판 피드백을 다층적으로 활용한 반복적 추론 프레임워크는 다중 홉 질의응답에서 실질적 성능 향상을 달성했으며, 특히 중간 단계 오류 제어와 효율적 탐색 측면에서 기여도가 높다. 다만 critic 모델의 일반화 능력과 극단적 복잡성 시나리오에서의 확장성에 대한 추가 분석이 요구된다.

#751 2023 4/5

Teaching Large Language Models to Self-Debug

저자: Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou | 날짜: 2023 | DOI: 10.48550/arXiv.2304.05128

SELF-DEBUGGING의 반복적 디버깅 프로세스: 코드 생성(Step 1) → 코드 실행(Step 2) → 코드 설명(Step 3) → 피드백 생성 단계

Essence

![Figure 1](figures/fig1.webp) *SELF-DEBUGGING의 반복적 디버깅 프로세스: 코드 생성(Step 1) → 코드 실행(Step 2) → 코드 설명(Step 3) → 피드백 생성 단계* 본 논문은 대규모 언어 모델(LLM)이 몇 가지 시연(few-shot demonstration)을 통해 자신이 생성한 코드를 자동으로 디버깅하도록 가르치는 SELF-DEBUGGING 기법을 제시한다. 외부 피드백 없이 코드 설명과 실행 결과 분석을 통해 오류를 식별하는 "러버덕 디버깅(rubber duck debugging)" 방식의 자체 수정이 가능함을 보인다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 외부 피드백 없이 LLM의 자가 설명을 통한 코드 자체 수정을 체계적으로 입증하고, 다중 도메인에서 최고 성능을 달성한 의미 있는 연구이다. 추가 학습이 불필요하면서도 샘플 효율성을 개선한다는 점에서 실무 적용 가치가 높으나, 디버깅 기법의 일반화 한계와 모델 능력 의존성에 대한 더 심층적인 분석이 필요하다.

Long Context Embeddings 5 ▶

#752 2021 4/5

SimAlign: High quality word alignments without parallel training data using static and contextualized embeddings

저자: Masoud Jalili Sabet, Philipp Dufter, François Yvon, Hinrich Schütze | 날짜: 2021 | DOI: arXiv:2004.08728

Essence

![Figure 1](figures/fig1.webp) *다양한 언어 쌍과 혼합 문장에 대한 병렬 학습 데이터 없이 단어 정렬을 수행하는 방법* 본 논문은 병렬 학습 데이터 없이 다국어 단어 임베딩(정적 및 문맥화된)을 활용하여 고품질의 단어 정렬을 수행하는 SimAlign 방법을 제안한다. 전통적인 통계적 정렬기(efloral 등)와 비교해서도 우수한 성능을 보인다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

SimAlign은 다국어 임베딩의 유사도 행렬에서 단어 정렬을 추출하는 창의적이고 실용적인 방법을 제안하여, 병렬 학습 데이터의 의존성을 제거하면서도 전통적 통계 정렬기를 능가하는 성능을 달성했다는 점에서 의의가 있다. 다만 하이퍼파라미터 최적화와 더 광범위한 언어 커버리지 개선이 향후 과제이다.

#753 2025 4/5

A survey on transformer context extension: Approaches and evaluation

저자: Yijun Liu, Jinzheng Yu, Yang Xu, Zhongyang Li, Qingfu Zhu | 날짜: 2025 | DOI: arXiv:2503.13299v2

Figure 1: 서베이의 프레임워크. 3가지 핵심 도전 과제(섹션 2)와 4가지 접근 방식 분류(섹션 3), 평가 관점(섹션 4), 향후 방향(섹션 5)

Essence

Transformer 기반 대규모 언어 모델(LLM)은 사전 학습된 컨텍스트 길이를 초과하는 장문(long context)에서 성능 저하를 보이는데, 본 논문은 이를 해결하기 위한 접근 방식(위치 인코딩, 컨텍스트 압축, 검색 증강, 주의 패턴)과 평가 방법을 체계적으로 분류한 종합 서베이이다.

Evaluation

Overall: 4

본 논문은 Transformer 기반 장문 처리를 위한 첫 번째 포괄적이고 체계적인 서베이로서, 새로운 분류 체계와 평가 프레임워크를 통해 빠르게 성장하는 이 분야에 명확한 구조를 제공한다. 특히 방법론뿐 아니라 평가 측면을 동등하게 다룬 것과 미해결 문제를 명시한 점이 차별적이나, 기초 이론(OOD 등)과 실제 방법들 간의 더 명확한 인과 연결이 이루어진다면 더욱 통찰력 있는 가이드가 될 것이다.

#754 2022.05 4/5

Align then Fusion: Generalized Large-scale Multi-view Clustering with Anchor Matching Correspondences

저자: Siwei Wang, Xinwang Liu, Suyuan Liu, Jiaqi Jin, Wenxuan Tu, Xinzhong Zhu, En Zhu | 날짜: 2022.05

Essence

![Figure 1](figures/fig1.webp) *앵커 정렬 문제(AUP): 서로 다른 뷰에서 생성된 앵커 그래프의 열(column)이 정렬되지 않아 부정확한 그래프 융합 발생* 본 논문은 대규모 멀티뷰 클러스터링에서 **앵커 정렬 문제(Anchor-Unaligned Problem, AUP)**를 최초로 정의하고, 피처 및 구조 정보를 모두 활용하여 앵커 대응 관계를 정확하게 수립하는 FMVACC(Fast Multi-View Anchor-Correspondence Clustering) 프레임워크를 제안한다.

Evaluation

Overall: 4

본 논문은 멀티뷰 앵커 클러스터링의 중요하면서도 간과된 문제(AUP)를 명확히 정의하고, 실용적이고 확장 가능한 해법을 제시한 의미 있는 연구이다. 7개 벤치마크에서의 광범위한 실험과 기존 방법에 대한 검증은 강점이나, 그래프 매칭 알고리즘의 상세화, 복잡도 분석, 파라미터 선택 가이드라인 강화로 기술적 완성도를 높일 여지가 있다.

#755 2024 4/5

Improving grammatical error correction via contextual data augmentation

저자: Yixuan Wang, Baoxin Wang, Yijun Liu, Qingfu Zhu, Dayong Wu, Wanxiang Che | 날짜: 2024

그림 1: 각 데이터셋에서 오류 패턴의 분포 비교. 제안 방법(Ours)이 실제 분포(Real Distribution)와 가장 유사함을 보여줌

Essence

![Figure 1](figures/fig1.webp) *그림 1: 각 데이터셋에서 오류 패턴의 분포 비교. 제안 방법(Ours)이 실제 분포(Real Distribution)와 가장 유사함을 보여줌* 본 논문은 문법 오류 수정(Grammatical Error Correction, GEC) 작업에서 합성 데이터의 불일치한 오류 분포와 노이즈 레이블 문제를 해결하기 위해 **문맥 기반 데이터 증강(contextual data augmentation)** 방법을 제안한다. 규칙 기반 치환과 모델 기반 생성을 결합하여 오류 패턴에 대한 풍부한 문맥을 생성하고, 재레이블링을 통해 합성 데이터의 노이즈를 완화한다.

Evaluation

Overall: 4

본 논문은 문법 오류 수정 작업에서 합성 데이터의 분포 불일치와 노이즈 문제를 효과적으로 해결하는 실용적이고 체계적인 방법론을 제시하며, 실험 결과가 최첨단 성능을 달성함. 다만 패턴 매칭 실패 처리 및 다국어 일반화 가능성에 대한 추가 검증이 필요하고, 계산 비용 분석이 부재하다는 점이 약점이다.

#756 2025 3/5

Estimating optimal context length for hybrid retrieval-augmented multi-document summarization

저자: Adithya Pratapa, Teruko Mitamura | 날짜: 2025 | DOI: arXiv:2504.12972

제안 방법의 개요: 기존 벤치마크와 달리 데이터셋, 검색기, 요약기의 함수로서 최적 검색 길이 추정

Essence

최근 대형 언어모델(LLM)의 장문맥 처리 능력 향상에도 불구하고, 실제로는 선언된 문맥 길이에서 효과적이지 못한 한계가 있다. 본 논문은 검색증강생성(RAG)과 장문맥 모델을 결합하되, 다중문서 요약 작업에 최적화된 검색 문맥 길이를 체계적으로 추정하는 방법을 제안한다.

Evaluation

Overall: 3

본 논문은 RAG 기반 다중문서 요약에서 검색 문맥 길이 최적화의 실무적 문제를 타당한 방법으로 해결한다. 다만 단일 데이터셋 평가, 제한적 계산 오버헤드 분석, 설계 선택의 정당성 부족 등으로 인해 학술적 기여도는 중간 수준이다.

Scientific Literature Summarization 10 ▶

#757 2024 4/5

MatViX: Multimodal Information Extraction from Visually Rich Articles

저자: Ghazal Khalighinejad, Sharon Scott, Ollie Liu, Kelly Anderson, Rickard Stureborg | 날짜: 2024 | DOI: 10.48550/arXiv.2410.20494

Essence

![Figure 1](figures/fig1.webp) *그림 1: 텍스트와 그림 간의 상호연결된 데이터를 포함하는 논문의 예시 및 샘플 특성과 구성 세부사항을 캡처하는 JSON 구조* 재료과학 분야의 과학 논문에서 텍스트, 표, 그림에 분산된 구조화된 정보를 추출하는 멀티모달 정보 추출(Multimodal Information Extraction, MIE) 벤치마크를 제시한다. 324개의 전문가 주석 논문과 1,688개의 복잡한 구조화된 JSON 파일로 구성된 MATVIX 데이터셋을 소개하며, 비전-랭귀지 모델(Vision-Language Models, VLMs)의 성능을 평가한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

멀티모달 과학 문서 정보 추출이라는 명확한 공백을 채우며 체계적으로 설계된 벤치마크를 제공하는 점에서 높은 가치가 있으나, 제한된 도메인 범위와 현재 모델의 낮은 성능 그 자체가 개선의 긴급성을 보여주는 과제이다.

#758 2021 4/5

Ms2: Multi-document summarization of medical studies

저자: Jay DeYoung, Iz Beltagy, Madeleine van Zuylen, Bailey Kuehl, Lucy Lu Wang | 날짜: 2021 | DOI: arXiv:2104.06486

연구 배경(BACKGROUND)과 개별 의약 논문 초록(study abstracts)으로부터 목표 요약(TARGET summary)을 생성하는 텍스트-투-텍스트 다중문서 요약 작업

Essence

![Figure 1](figures/fig1.webp) *연구 배경(BACKGROUND)과 개별 의약 논문 초록(study abstracts)으로부터 목표 요약(TARGET summary)을 생성하는 텍스트-투-텍스트 다중문서 요약 작업* 본 논문은 의료 분야의 문헌 검토 자동화를 목표로 470K개 의약 논문과 20K개 체계적 문헌 검토(systematic reviews)를 포함한 대규모 다중문서 요약 데이터셋 MS²을 제시하며, 이는 생의학 도메인의 첫 공개 다중문서 요약 데이터셋이다.

Evaluation

Overall: 4

MS²는 의료 도메인에 다중문서 요약이라는 새로운 NLP 과제를 제시하고 대규모 공개 데이터셋을 제공함으로써 학계의 기여도가 크나, 현재 기준 모델의 성능(증거 방향 일치도 50%)이 실무 적용에는 미흡하며 구조화 정보의 활용 방안이 더욱 발전할 필요가 있다.

#759 2024 4/5

OARelatedWork: A large-scale dataset of related work sections with full-texts from open access sources

저자: Martin Docekal, Martin Fajcik, Pavel Smrz | 날짜: 2024 | DOI: arXiv:2405.01930

Essence

![Figure 1](figures/fig1.webp) *전체 관련 업무(Related Work) 섹션을 인용된 논문들과 대상 논문의 전체 텍스트로부터 생성하는 태스크* 본 논문은 오픈 액세스 논문의 전체 텍스트를 포함하는 대규모 관련 업무 생성 데이터셋 OARelatedWork를 제시하며, 초록(abstract)만 사용하는 기존 방식에서 벗어나 전체 콘텐츠를 활용한 다중 문서 요약 연구를 추진한다.

Evaluation

Overall: 4

오픈 액세스 자료만으로 구축한 첫 대규모 관련 업무 데이터셋으로서 학술 요약 분야에 실질적 기여를 하며, 전체 콘텐츠 활용의 이점을 강력히 입증한 점이 주요 강점이다. 다만 자동 파이프라인의 정확성 검증과 다양한 도메인에 대한 확장성 평가가 보완되어야 한다.

#760 2025 4/5

Ask, retrieve, summarize: A modular pipeline for scientific literature summarization

저자: Pierre Achkar, Tim Gollub, Martin Potthast | 날짜: 2025 | DOI: arXiv:2505.16349

그림 3: XSum 파이프라인 개요. 참고 논문들을 질문 생성, 검색, 질답 모듈을 거쳐 최종 요약본으로 변환

Essence

![Figure 3](figures/fig1.webp) *그림 3: XSum 파이프라인 개요. 참고 논문들을 질문 생성, 검색, 질답 모듈을 거쳐 최종 요약본으로 변환* 과학 문헌의 지수적 증가 문제를 해결하기 위해, 검색-증강-생성(RAG) 기반의 모듈식 다중문서 요약(MDS) 파이프라인인 XSum을 제안한다. 질문 생성 모듈과 편집 모듈의 두 가지 혁신적 컴포넌트를 통해 정확하고 인용이 풍부한 과학 문헌 요약을 생성한다.

Evaluation

Overall: 4

과학 문헌의 지수적 증가라는 실질적 문제를 해결하기 위해 질문 생성과 편집 모듈을 결합한 혁신적인 RAG 파이프라인을 제시하며, SurveySum 벤치마크에서 우수한 성능을 보이나, 단일 데이터셋 평가와 편집 모듈의 상세 기술이 제한점이다.

#761 2023 4/5

Hierarchical catalogue generation for literature review: a benchmark

저자: Kun Zhu, Xiaocheng Feng, Xiachong Feng, Yingsheng Wu, Bing Qin | 날짜: 2023

그림 1: gpt-3.5-turbo로 생성한 과학 문헌 리뷰의 예시. (A) 직접 생성 시 중복 콘텐츠와 논리적 혼란 발생, (B) 오라클 카탈로그 사용 시 체계적 생성, (C) 생성된 카탈로그 사용 시 품질 저하 문제

Essence

![Figure 1](figures/fig1.webp) *그림 1: gpt-3.5-turbo로 생성한 과학 문헌 리뷰의 예시. (A) 직접 생성 시 중복 콘텐츠와 논리적 혼란 발생, (B) 오라클 카탈로그 사용 시 체계적 생성, (C) 생성된 카탈로그 사용 시 품질 저하 문제* 본 논문은 과학 문헌 리뷰 자동 생성 과정에서 계층적 카탈로그(목차)의 중요성을 강조하고, 참고 논문들을 입력받아 리뷰 논문의 계층적 카탈로그를 생성하는 새로운 과제(HiCatGLR)를 제안한다. 7.6k개의 리뷰 카탈로그와 389k개의 참고 논문으로 구성된 벤치마크 데이터셋을 구축하고, 구조적 특성을 반영한 평가 지표를 설계하여 다양한 최신 모델의 성능을 평가한다.

Evaluation

Overall: 4

본 논문은 문헌 리뷰 생성의 첫 단계로 계층적 카탈로그 생성을 명시적으로 제안하고 대규모 벤치마크 데이터셋과 새로운 평가 지표를 제시한 가치 있는 연구다. 구조화된 텍스트 생성에 대한 새로운 관점과 도메인 맞춤형 평가 방식이 돋보이나, 현재 모델들의 낮은 성능과 카탈로그-콘텐츠 통합의 부재가 실제 영향력을 제한한다.

#762 2023 4/5

Meta-review generation with checklist-guided iterative introspection

저자: Qi Zeng, M. Sidhu, Ansel Blume, Hou Pong Chan, Lu Wang, Heng Ji | 날짜: 2023

Essence

![Figure 1](https://arxiv.org/html/2305.14647v3/x1.png) *제품 리뷰 메타리뷰(단일 의견 요약)와 논문 메타리뷰(다중 의견 종합)의 구성 차이* 본 논문은 학술 논문 리뷰들을 메타리뷰로 종합하는 **과학적 의견 요약(Scientific Opinion Summarization)** 작업을 정의하고, 체크리스트 기반 반복 자기성찰(CGI2) 방법론을 제안하여 대규모 실제 데이터셋(ORSUM)과 함께 이를 해결한다.

Evaluation

Overall: 4

본 논문은 기존 의견 요약 연구의 한계를 명확히 인식하고 학술 도메인의 특수성을 반영한 새로운 작업과 데이터셋을 제시한 의미 있는 기여다. 특히 작업 분해와 반복 자기성찰을 결합한 CGI2 방법론은 복잡한 텍스트 생성 작업에 일반화 가능한 가치 있는 접근법을 제안한다.

#763 2025 4/5

SciClaims: An end-to-end generative system for biomedical claim analysis

저자: Raúl Ortega, José Manuel Gómez-Pérez | 날짜: 2025 | DOI: 미제공

시스템 아키텍처: Llama3 8B Instruct 모델과 Elasticsearch 기반 검색 엔진으로 구성된 생의학 논문 분석 파이프라인

Essence

![Figure 1: System Architecture](figures/fig1.webp) *시스템 아키텍처: Llama3 8B Instruct 모델과 Elasticsearch 기반 검색 엔진으로 구성된 생의학 논문 분석 파이프라인* SciClaims는 생의학 텍스트에서 과학적 주장을 자동으로 추출하고, PubMed에서 관련 증거를 검색한 후, 단일 대규모 언어모델(LLM)을 사용하여 검증하는 통합 시스템이다. 체계적 문헌고찰(Systematic Literature Review, SLR)과 특허 검증 등 고위험도 활용 사례를 지원한다.

Evaluation

Overall: 4

SciClaims는 과학적 주장 검증의 완전한 파이프라인을 단일 LLM으로 통합하여 실제 배포 가능하도록 최적화한 우수한 시스템 데모이다. 생의학 분야의 체계적 문헌고찰 같은 고위험도 활용에 직접적 가치를 제공하며, 공개 코드와 인터페이스를 통해 재현성과 확장성을 담보한다. 다만 평가 범위 확대와 도메인 외 적용성 검증으로 더욱 강화될 수 있다.

#764 2024 4/5

Shallow synthesis of knowledge in gpt-generated texts: A case study in automatic related work composition

저자: Anna Martin-Boyle, Aahan Tyagi, Marti A. Hearst, Dongyeop Kang | 날짜: 2024

인용 그래프 비교: (상단) 인간이 작성한 관련 연구 섹션, (중단) ScholaCite를 통한 GPT 협력 버전, (하단) GPT 전적 생성 버전. 노드는 인용 문헌을, 간선은 같은 문장 내 인용의 동시 출현을 나타냄

Essence

![Figure 1](figures/fig1.webp) *인용 그래프 비교: (상단) 인간이 작성한 관련 연구 섹션, (중단) ScholaCite를 통한 GPT 협력 버전, (하단) GPT 전적 생성 버전. 노드는 인용 문헌을, 간선은 같은 문장 내 인용의 동시 출현을 나타냄* 본 논문은 학술 논문의 관련 연구(Related Work) 섹션 작성에서 GPT-4의 능력을 실증적으로 평가한다. 인용 그래프(citation graph) 분석을 통해 GPT는 거시적 인용 그룹화는 가능하나, 인간의 개입 없이 정교한 문헌 종합을 실패함을 보여준다.

Evaluation

Overall: 4

본 논문은 급증하는 AI 기반 학술 저술 도구 사용 속에서 GPT의 문헌 종합 능력을 구조적으로 평가하려는 시의적절한 시도이다. 특히 인용 그래프 분석이라는 객관적 방법론은 재현가능하고 확장 가능한 평가 프레임으로 가치가 있으나, 샘플 규모 제약과 정성적 검증 부재로 인해 결론의 일반화 가능성이 제한된다. "인간 개입 없이 독립적 텍스트 초안 생성을 권하지 않는다"는 결론은 AI 도구 설계에 대한 실질적 권고를 제공한다.

#765 4/5

Semantic Scholar

저자: Kyle Lo, Lucy Lu Wang, Mark E Neumann, Rodney Kinney, Daniel S. Weld

Figure 1: Inline citations and references to ﬁgures and

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Inline citations and references to ﬁgures and* S2ORC는 81.1M개의 영문 학술논문을 수집하고 8.1M개 오픈액세스 논문의 구조화된 전문(full text)을 제공하는 대규모 공개 코퍼스로, 인용(citation), 도표(figure), 표(table) 등이 자동으로 주석 처리되어 있다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

S2ORC는 학술 NLP 연구를 위한 기초 자원으로서 기존 대비 3배 이상의 구조화 전문을 제공하고, 풍부한 주석 정보와 학제간 광범위성으로 획기적인 공개 코퍼스이다. 실제 적용 가능성이 매우 높으며, 후속 학술 텍스트 마이닝 연구의 토대가 될 것으로 예상된다.

#766 2024 3/5

A Review on Scientific Knowledge Extraction using Large Language Models in Biomedical Sciences

저자: Gabriel Lino Garcia, João Renato Ribeiro Manesco, P. H. Paiola, Lucas Miranda, Maria Paola de Salvo | 날짜: 2024 | DOI: 10.48550/arXiv.2412.03531

Figure 1: Illustration of the screening process, conducted in

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Illustration of the screening process, conducted in* 본 논문은 의료 과학 분야에서 대규모 언어모델(LLM)을 활용한 과학적 지식 추출 및 증거 합성(evidence synthesis)의 현황을 체계적으로 검토한다. LLM의 의료 문헌 자동화 처리 잠재력과 함께 hallucination, 맥락 이해, 일반화 능력 등의 주요 과제를 분석한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

본 논문은 의료 분야 LLM 응용의 현황을 체계적으로 정리한 의미 있는 종설이나, 최종 포함 연구 수의 제한성과 기술적 심화 분석 부족이 제약이다. 향후 표준화된 평가 체계 구축과 실제 임상 적용 연구로의 발전이 필요하다.

Table Caption Generation 5 ▶

#767 2023 4/5

SciReviewGen: a large-scale dataset for automatic literature review generation

저자: Tetsu Kasanishi, Masaru Isonuma, Junichiro Mori, Ichiro Sakata | 날짜: 2023 | DOI: 논문 링크

Figure 1: 문헌 리뷰 생성 작업의 개요. 입력된 논문의 초록과 리뷰/챕터 제목(쿼리)을 통해 문헌 리뷰 텍스트를 생성한다.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 문헌 리뷰 생성 작업의 개요. 입력된 논문의 초록과 리뷰/챕터 제목(쿼리)을 통해 문헌 리뷰 텍스트를 생성한다.* 본 논문은 자동 문헌 리뷰 생성을 위한 최초의 대규모 데이터셋인 **SciReviewGen**을 제시한다. 10,000개 이상의 문헌 리뷰와 690,000개의 인용 논문으로 구성되어 있으며, 쿼리 기반 다중 문서 요약(query-focused multi-document summarization) 작업으로 정의한다.

Evaluation

Overall: 4

본 논문은 자동 문헌 리뷰 생성을 위한 첫 번째 대규모 벤치마크 데이터셋을 제시함으로써 학술 NLP 분야에 중요한 기여를 한다. 다만 생성된 리뷰의 품질 개선과 현실적 적용을 위해서는 환각 문제 해결 및 더 정교한 모델 개발이 필요하다.

#768 2023 4/5

HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation

저자: Junyi Bian, Xiaolei Qin, Wuhe Zhou, Mengzuo Huang, Congyi Luo, Ke Zhang, Weidong Zhang | 날짜: 2023 | DOI: arXiv:2311.08896

Essence

![Figure 1](figures/fig1.webp) *HeLM의 전체 프레임워크: 상단은 훈련 과정, 하단은 추론 과정을 보여줌* 표-텍스트 생성 작업에서 입력 테이블의 관련 행(row)을 먼저 강조(highlighting)하는 두 단계 접근 방식을 제안하여, 대규모 언어모델(LLM)이 핵심 증거에 집중하도록 함으로써 생성 품질을 향상시킨다.

Evaluation

Overall: 4

HeLM은 표-텍스트 생성에서 명시적 증거 강조를 통해 성능과 해석 가능성을 동시에 달성한 실용적이고 효과적인 접근법이며, 주석 없는 데이터셋에서도 적용 가능한 증거 라벨 구성 방법의 창의성이 돋보인다. 다만 개별 기술의 참신성과 이론적 깊이 측면에서는 보완의 여지가 있다.

#769 2024 4/5

Hierarchical attention graph for scientific document summarization in global and local level

저자: Chenlong Zhao, Xiwen Zhou, Xiaopeng Xie, Yong Zhang | 날짜: 2024

Essence

![Figure 1](figures/fig1.webp) *문서의 지역(local)과 전역(global) 관점에서의 모델링 예시: 단어-문장 간 관계(intra-sentence)와 문장 간 관계(inter-sentence)를 계층적으로 구분* 과학 논문 같은 장문서의 추출 요약을 위해 그래프 신경망을 활용하여 **문장 내 관계(지역 수준)**와 **문장 간 고차 관계(전역 수준)**를 계층적으로 동시에 모델링하는 HAESum 방법 제시.

Evaluation

Overall: 4

과학 논문 추출 요약을 위해 계층 구조를 효과적으로 활용하는 참신한 접근으로, 지역-전역 수준의 분리적 모델링이 강점이나, 하이퍼엣지 구성의 명시성 부재와 LLM 시대의 의의 제시 보완이 필요함.

#770 2025 4/5

Multi-llm collaborative caption generation in scientific documents

저자: Jaeyoung Kim, Jongho Lee, Hong-Jun Choi, Ting-Yao Hsu, Chieh-Yang Huang, Sungchul Kim, Ryan A. Rossi, Tong Yu, C. Lee Giles, Ting-Hao Huang, Sungchul Choi | 날짜: 2025

Essence

과학 논문의 도형(figure) 캡션 생성은 시각 정보와 텍스트 문맥을 모두 활용해야 하는 복합 작업인데, 본 논문은 여러 LLM의 협업을 통해 고품질 캡션을 자동 생성하는 통합 프레임워크 MLBCAP를 제안한다.

Evaluation

Overall: 4

과학 도형 캡션 생성의 현실적 과제(저품질 훈련 데이터, 멀티모달 정보 통합)를 체계적으로 해결하는 실용적 프레임워크이며, 인간 평가를 통한 우수성 입증이 강점이나, 경제성 있는 모델 경량화 및 평가의 통계적 엄밀성 강화가 필요하다.

#771 2019 4/5

Neural Related Work Summarization with a Joint Context-driven Attention Mechanism

저자: Yongzhen Wang, Xiaozhong Liu, Zheng Gao | 날짜: 2019 | DOI: arXiv:1901.09492

Essence

![Figure 1](figures/fig1.webp) *이질적 참고문헌 그래프 (논문, 저자, 키워드, 학술지 간의 10가지 관계)* 본 논문은 seq2seq 패러다임을 활용하여 학술 논문의 관련 연구(related work) 섹션을 자동으로 생성하는 신경망 기반 추출식 요약 시스템을 제안한다. 텍스트 맥락과 이질적 참고문헌 그래프 맥락을 결합한 주의 메커니즘(joint context-driven attention mechanism)으로 주제 일관성을 유지하면서 관련 논문을 선별한다.

Evaluation

Overall: 4

학술 논문의 관련 연구 섹션 자동 생성이라는 실질적 문제에 신경망과 이질적 그래프를 결합한 창의적 해법을 제시하였으며, 8,080개 논문의 대규모 데이터셋과 이중 맥락 주의 메커니즘은 당시 기준 선진적이다. 다만 추출식 제약, 아키텍처 세부 설명 부족, 정량적 평가 결과의 상세 제시 부재 등이 한계로 지적되며, 이러한 점들이 보완되면 학술 정보 처리 분야 표준 기법으로 정착할 가능성이 높다.

AI in Scientific Research 16 ▶

#772 2025 4/5

Language models surface the unwritten code of science and society

저자: Honglin Bao, Siyang Wu, Jiwoong Choi, Yingrong Mao, James A. Evans (University of Chicago) | 날짜: 2025 | DOI: arXiv:2505.18942

자기-강화(self-reinforcement)를 통해 암묵적 규범을 점진적으로 증폭시켜 모델이 명시적으로 표현하도록 유도하는 개념적 틀

Essence

![Figure 1](figures/fig1.webp) *자기-강화(self-reinforcement)를 통해 암묵적 규범을 점진적으로 증폭시켜 모델이 명시적으로 표현하도록 유도하는 개념적 틀* 대규모 언어모델(LLM)이 내재된 편향을 진단 도구로 활용하여 과학과 사회의 "불문율(unwritten code)" — 암묵적 고정관념, 휴리스틱, 암수정인 규범 — 을 명시적으로 드러내고 비판 대상으로 만들 수 있다는 주장.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLM의 편향을 사회 진단의 도구로 재해석하는 혁신적 관점을 제시하며, 과학 평가의 암묵적 기준을 최초로 규명한 엄밀한 실증 연구다. 다만 인과성 확립, 실제 제도 개선 효과 검증, 그리고 이러한 "불문율" 공개의 윤리적 함의에 대한 더 깊은 성찰이 필요하다.

#773 2025.05 4/5

Is it OK for AI to write science papers? Nature survey shows researchers are split

저자: Diana Kwon | 날짜: 2025.05 | DOI: 10.1038/d41586-025-01463-8

Essence

Nature 저널이 전 세계 약 5,000명의 연구자를 대상으로 실시한 설문조사 결과, 과학 논문 작성에서 생성형 AI(Generative AI) 사용의 윤리성에 대해 연구자들 간에 상당한 의견 차이가 존재함을 보여준다. 특히 AI 사용의 허용 범위와 공개(disclosure) 필요성에 대한 합의가 부족한 상황이다.

Evaluation

Overall: 4

이 조사는 AI 시대 학술 커뮤니케이션의 윤리 기준 수립 논의에 필요한 현실적 기초를 제공한다. 다만 의견-행동 괴리의 원인 규명과 규범 합의 형성 메커니즘에 대한 심화 연구가 후속되어야 할 것으로 보인다.

#774 2023 4/5

Large Language Models

저자: Michael R Douglas | 날짜: 2023 | DOI: 10.1007/978-981-96-6259-3

Essence

수학 및 물리학 배경의 독자를 위해 작성된 강의노트로, GPT 시리즈와 같은 대규모 언어모델(LLM)의 발전 역사, 트랜스포머 아키텍처, 그리고 다음 단어 예측 학습이 어떻게 지능적 작업 수행을 가능하게 하는지를 설명한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

이 강의노트는 LLM의 급속한 발전이라는 현재 진행형의 현상을 역사적 맥락과 기초 이론으로 체계화한 매우 가치 있는 교육자료이다. 특히 수학 및 물리학 배경의 과학자들을 대상으로 AI의 기호주의-연결주의 패러다임 전환을 명확히 설명하고, "다음 단어 예측이 지능을 만드는가"라는 본질적 질문을 제기함으로써 단순한 기술 해설을 넘어 개념적 이해를 추구한다는 점이 강점이다. 다만 추출된 텍스트가 도입부에 해당하여 실제 핵심 기술 내용과 LLM 이해 메커니즘에 대한 구체적 설명이 평가 불가능하며, 미해결 근본 문제들(환각, 논리 추론, AGI 도달 가능성)에 대해 명확한 과학적 답변을 제시하는지 전체 원문 검토가 필요하다.

#775 2024 4/5

Malinowski in the age of ai: Can large language models create a text game based on an anthropological classic? arXiv preprint arXiv:2410.20536, 2024.

저자: Michael P. Hoffmann, Jan Fillies, Adrian Paschke | 날짜: 2024 | DOI: 미제공

Essence

본 연구는 대규모 언어모델(Large Language Models, LLM)이 인류학 고전 문헌을 기반으로 자율적으로 텍스트 게임을 생성할 수 있는지를 탐색하며, 인공지능이 교육적 가치를 가진 인류학 게임을 창작할 수 있는 가능성과 한계를 체계적으로 평가한다.

Evaluation

Overall: 4

본 연구는 인공지능과 인류학 교육의 혁신적 접점을 탐색한 의미 있는 시도이나, LLM의 내재적 한계(허위정보 생성, 깊이 부족)를 극복하기 위한 기술적 방안과 대규모 교육적 검증이 필요하다.

#776 2022 4/5

Productivity assessment of neural code completion

저자: Albert Ziegler, Eirini Kalliamvakou, X. Alice Li, Andrew Rice, Devon Rifkin, Shawn Simister, Ganesh Sittampalam, Edward Aftandilian | 날짜: 2022 | DOI: 10.1145/3520312.3534864

Essence

![Figure 1](figures/fig1.webp) *GitHub Copilot의 코드 완성 단계별 흐름* 신경망 기반 코드 완성 도구의 개발자 생산성 향상 효과를 측정하기 위해, GitHub Copilot 사용자 2,631명의 설문 응답과 실제 사용 데이터를 연계 분석하여 **제안 수락률(acceptance rate)이 개발자의 생산성 인식을 가장 잘 예측하는 지표임을 입증**한 실증 연구이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 5 Overall: 4

본 논문은 AI 보조 개발 도구의 실제 영향을 개발자 인식과 사용 데이터로 검증한 산업-학계 연계 연구로, 수락률이 생산성 지표로서의 타당성을 입증함으로써 신경망 기반 코드 완성 시스템의 평가 및 모니터링 방향을 제시하는 의미 있는 기여를 한다. 다만 상관 분석의 한계를 넘어 인과 메커니즘과 세부 특성을 규명하는 후속 연구가 필요하다.

#777 2024 4/5

Shared imagination: Llms hallucinate alike

저자: Yilun Zhou, Caiming Xiong, Silvio Savarese, Chien-Sheng Wu | 날짜: 2024 | DOI: arXiv:2407.16604

Essence

![Figure 2](https://arxiv.org/html/2407.16604v1/x2.png) *직접 질문(DQ)과 맥락 기반 질문(CQ)에 대한 정확도 및 응답률* 최신 대규모 언어모델(LLM)들이 서로 다른 아키텍처와 학습 데이터를 가짐에도 불구하고, 허구적(imaginary) 개념에 대해 놀라울 정도로 일관성 있게 환각(hallucination)을 생성하며 이를 "공유된 상상 공간(shared imagination space)"이라고 명명한다.

Evaluation

Overall: 4

이 논문은 LLM들의 동질성을 환각의 관점에서 창의적으로 조명하는 신선한 연구로, 6가지 연구질문을 통한 포괄적 실증 분석이 돋보인다. 다만 현상의 근본 메커니즘 해명 및 실제적 활용 가능성 제시가 보강되면 더욱 영향력 있는 기여가 될 것으로 예상된다.

#778 2023.01 4/5

The AI writing on the wall

저자: Nature Machine Intelligence Editorial | 날짜: 2023.01 | DOI: 10.1038/s42256-023-00613-9

Essence

ChatGPT와 같은 생성형 AI 도구가 과학 저술 분야에 미치는 긍정적·부정적 영향을 분석하고, 과학 출판 생태계에서 이를 적절히 활용하기 위한 명확한 가이드라인의 필요성을 촉구하는 사설이다.

Evaluation

Novelty: 3 Technical Soundness: 4 Significance: 5 Clarity: 5 Overall: 4

이 사설은 ChatGPT 등장 초기에 과학 출판계가 직면한 실질적 문제를 명확히 인식하고 선제적 대응을 촉구하는 시의적이고 중요한 의견 제시이나, 구체적인 해결책이나 실행 가능한 가이드라인 초안 제시는 부족하다.

#779 2024.12 4/5

Virtual lab powered by 'AI scientists' super-charges biomedical research

저자: Helena Kudiabor | 날짜: 2024.12 | DOI: 10.1038/d41586-024-01684-3

Essence

대규모 언어 모델(LLM)을 기반으로 한 AI 과학자들이 협력하는 가상 실험실이 개발되었으며, 이를 통해 SARS-CoV-2를 표적으로 하는 나노바디(nanobody) 92개를 인간 연구팀보다 훨씬 짧은 시간에 설계할 수 있었다.

Evaluation

Overall: 4

본 연구는 AI를 과학 연구의 진정한 협력자로 활용하는 혁신적 시도를 제시했으며, 빠른 설계 속도와 높은 검증율을 보여주었다. 다만 인간 감독의 필수성, 실험 검증 의존성, 그리고 AI 오류 메커니즘 분석의 부족이 실제 광범위 적용을 위한 추가 연구를 요구한다.

#780 2025.02 4/5

What are the best AI tools for research? Nature's guide

저자: Elizabeth Gibney | 날짜: 2025.02 | DOI: 10.1038/d41586-025-00437-0

Essence

연구자들을 위한 다양한 대규모 언어모델(LLM)의 특성과 활용 방안을 소개하는 가이드로, 각 모델의 강점과 한계를 실제 사용 사례와 함께 제시한다.

Evaluation

Novelty: 3 Technical Soundness: 4 Significance: 4 Clarity: 5 Overall: 4

Nature의 실용적 가이드로서 다양한 LLM의 특성을 명확히 구분하고 구체적 활용 사례를 제시한 점은 탁월하나, 정량적 성능 비교 부족과 급변하는 기술 환경에 대한 미래 대응 전략 제시 부족이 아쉬운 점이다. 법적·윤리적 우려까지 균형잡게 다룬 점은 높이 평가할 만하다.

#781 2023.09 4/5

AI will transform science — now researchers must tame it

날짜: 2023.09

Essence

AI가 과학 연구의 여러 분야를 변화시키고 있으며, 연구자들은 투명성, 재현성, 신뢰성을 확보하면서 AI를 안전하게 통합하는 방법을 모색해야 한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

AI의 과학 분야 활용 현황과 과학 공동체의 우려를 종합적으로 조명함으로써 기술 진흥과 신뢰성 보호 간의 균형을 모색하는 중요한 이정표를 제시한다. 다만 구체적 해결책 제시는 향후 심층 탐구에 위임한 것으로, 과학 정책과 규제 개선을 위한 실행 전략 수립이 시급하다.

#782 2024.11 4/5

Can AI review the scientific literature — and figure out what it all means?

저자: Helen Pearson | 날짜: 2024.11 | DOI: 10.1038/d41586-024-03676-9

Essence

AI를 활용한 과학 문헌 검토 자동화의 가능성과 한계를 탐색하며, 대규모 언어 모델(LLM)이 문헌 종합에 도움이 될 수 있으나 신뢰성과 정확성 문제가 남아있음을 보여준다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 과학 문헌 검토의 AI 자동화 현황을 균형잡힌 시각으로 다루며, 기술의 진전된 가능성과 함께 완전 자동화의 현실적 한계, 품질 관리 문제 등을 충분히 지적한다. 연구 종합의 효율성 향상은 중요하지만, 과학적 정확성과 투명성의 기준 유지가 우선되어야 함을 강조하는 신중한 접근이 돋보인다.

#783 2023.11 4/5

ChatGPT has entered the classroom: how LLMs could transform education

저자: Andy Extance | 날짜: 2023.11

Essence

대규모 언어모델(LLM)의 교육 분야 적용 가능성과 위험성을 탐구하며, ChatGPT 기반 교육 도구들의 실제 구현 사례와 개선 방안을 제시한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 ChatGPT 출시 직후 교육 현장의 우려와 기대를 균형있게 다루며, 실제 구현 사례들을 통해 LLM 기반 교육 도구의 현실적 가능성과 한계를 명확히 제시한다. 기술 진전과 정책 방향에 대한 실용적 통찰을 제공하는 중요한 시점의 보도 기사로서 교육 혁신 논의에 의미 있는 기여를 한다.

#784 2023.12 4/5

Science and the new age of AI

저자: Yogesh K. Dwivedi, Laurie Hughes, Elvira Ismagilova, Gert Aarts, Crispin Coombs, Tom Crick, Yanqing Duan, Rohita Dwivedi, John S. Edwards, Aled Eirug, Vassilis Galanos, P. Vigneswara Ilavarasan, Marijn Janssen, Paul Jones, Arpan Kumar Kar, Hatice Kizgin, Bianca Kronemann, Banita Lal, Biagio Lucini, Rony Medaglia | 날짜: 2023.12

Essence

Nature 특별 기획으로 1,600명 이상의 연구자 설문을 바탕으로 AI가 과학 연구에 미치는 긍정적 영향과 잠재적 위험성을 다각도로 분석하고, 안전한 AI 통합 방안을 모색한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 사설은 AI 기술의 과학적 활용 현황을 실증적으로 조사하고, 신뢰성과 검증 가능성이라는 과학의 핵심 가치와의 균형을 강조하는 시의적절한 성찰을 제공한다. 긍정과 우려를 함께 제시하면서도 책임 있는 AI 통합의 필요성을 명확히 하는 점에서 학술 커뮤니티에 중요한 지침을 제공한다.

#785 2025.03 3/5

AI is transforming peer review — and many scientists are worried

저자: Miryam Naddaf | 날짜: 2025.03 | DOI: 10.1038/d41586-025-00894-7

Essence

인공지능 소프트웨어가 학술지 동료평가(peer review) 과정에 점진적으로 침투하고 있으며, 이는 효율성 향상과 동시에 동료평가 제도의 근본적 가치를 훼손할 수 있다는 우려를 동시에 야기하고 있다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

이 논문은 AI 동료평가 도입의 현황을 균형잡힌 관점으로 전달하는 우수한 현황 보고이나, 기술적 깊이나 새로운 실증 데이터보다는 **기존 사례와 전문가 의견 집약**에 중점을 두고 있다. 특히 "자동 탐지 불가능한 미공시 AI 사용"과 "동료평가 제도의 사회계약 붕괴 우려"를 핵심 이슈로 제시한 점은 주목할 만하나, 이에 대한 실증적 증거나 해결책 제시는 제한적이다. 학술 커뮤니티의 규범 논쟁을 촉발하는 중요한 저널리즘 기사로서의 가치는 높으나, 학술 논문으로서의 원창성과 방법론적 엄밀성은 상대적으로 약하다.

#786 2025.03 3/5

Three AI-powered steps to faster, smarter peer review

저자: Dritjon Gruda | 날짜: 2025.03 | DOI: 10.1038/d41586-025-00526-0

Essence

학술논문 동료평가(peer review)에 소요되는 과도한 시간을 줄이기 위해 음성 받아쓰기와 오프라인 대규모언어모델(LLM)을 활용한 3단계 워크플로우를 제시한다. 이 방법은 평가 품질을 유지하면서 검토 시간을 획기적으로 단축하고 학술 출판 생태계의 지속성을 개선한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

본 논문은 과학 출판의 실질적 위기(심사자 거절 증가, 평가 시간 과다)를 AI 기술과 효율적 업무 흐름으로 해결하려는 실용적이고 윤리적인 제안을 담고 있다. 오프라인 LLM을 강조하여 기밀성을 보호하고 심사자의 최종 판단권을 유지하는 균형 잡힌 접근이 특징이다. 다만, 개인 경험에 기반한 주관적 보고와 광범위한 학문적 검증 부재가 한계이며, 다학제·다국어 환경에서의 일반화 가능성과 피드백 품질의 객관적 입증이 필요하다.

#787 2024 3/5

Economic anthropology in the era of generative artificial intelligence

저자: Zachary Sheldon, Peeyush Kumar | 날짜: 2024 | DOI: 10.48550/arXiv.2410.15238

C.A.L.L.O.N. 및 M.A.U.S.S. 모델의 설계

Essence

생성형 AI(GenAI)의 경제 데이터 해석 방식에 내재된 편향을 드러내고, 경제 인류학적 지식으로 LLM을 미세조정하여 비시장 경제 체계를 인식할 수 있는 모델로 전환할 수 있음을 시연한다.

Evaluation

Overall: 3

이 논문은 경제 인류학의 존재론적 다양성이 생성형 AI의 편향을 드러내고 교정할 수 있다는 창의적이고 절실한 주장을 제시하지만, 실증적 검증과 기술적 세밀함이 보강되어야 학술적 영향력을 확대할 수 있을 것으로 보인다.

Scientific Language Processing Tools 73편 ▶

Scientific Language Processing Tools Timeline

Category Overview

# Scientific Language Processing Tools 카테고리 개요 Scientific Language Processing Tools는 과학 분야의 언어 처리와 이해를 위한 고급 AI 기술을 다루는 60편의 논문 모음입니다. 이 카테고리는 과학 텍스트 분석, 형식적 정리 증명(Formal Theorem Proving), 그리고 학술 자료 처리에 특화된 언어 모델 개발에 중점을 두고 있습니다[707][379]. 기초 언어 모델 아키텍처[152][387][369]부터 도메인 특화 명령 모델(Domain-specific Instruction Models)과 자기 개선 보상 모델(Self-improving Reward Models)까지 다양한 기술 발전을 포함합니다[741][264]. 과학 논문의 시각 자료 처리와 코드 생성이 중요한 분야로, 과학 그래픽 평가(Scientific Graphics Evaluation)와 도형 코드 생성(Figure Code Generation) 기술이 활발히 연구되고 있습니다[129][601]. 형식 수학 벤치마크(LLM Research Benchmarking)와 멀티모달 학술 벤치마크(Multimodal Academic Benchmarks)를 통해 모델의 과학적 추론 능력이 평가되며, 특히 올림피아드 수준의 문제 해결 능력이 검증됩니다[539][545]. 검색 증강 학습(Retrieval-Augmented Learning)과 에이전트 기반 자동 형식화(Agentic Framework for Autoformalization)는 복잡한 수학적 문제 해결과 과학 실험 설계에 적용되고 있습니다[659][532][533]. 이러한 도구들은 과학자와 수학자들의 생산성을 향상시키고 새로운 발견을 가능하게 하는 AI 보조자(Copilot) 역할을 수행합니다[251][288][259].

Formal Theorem Proving: # 형식 정리 정리(Formal Theorem Proving) 형식 정리 정리는 자동화된 수학적 증명을 위해 인공지능과 형식 검증 시스템을 결합하는 분야입니다. 대규모 언어 모델(Large Language Models, LLM)의 발전에 따라 자동 정리 증명(Automated Theorem Proving)이 새로운 수준에 도달했으며, [379]의 생성형 언어 모델링과 [539]의 교차 시스템 벤치마크 연구들이 이 분야의 기초를 마련했습니다. [288]의 Draft, Sketch, Prove 접근법이나 [532]의 자동 형식화(Autoformalization) 프레임워크는 비형식적 수학을 형식 언어로 변환하고 검증하는 과정을 자동화합니다. [264]의 DeepSeek-Prover와 같은 최신 모델들은 깊이 있는 학습과 LLM의 결합을 통해 올림피아드 수준의 정리 증명 능력을 달성했습니다. 이러한 연구들은 수학적 엄밀성을 보장하면서도 인간 수학자의 작업을 보조하는 혁신적인 도구 개발을 목표로 하고 있습니다.
Domain-specific Instruction Models: 도메인 특화 지시 모델(Domain-specific Instruction Models)은 특정 분야의 전문 지식과 작업에 최적화된 대규모 언어 모델(Large Language Models)을 의미합니다. 이러한 모델들은 일반적인 언어 처리를 넘어 수학, 화학, 양자 물리학, 코드 생성 등 특정 과학 분야에서 전문가 수준의 성능을 발휘하도록 설계되었습니다[741][502]. 예를 들어, SciGLM[723]과 같은 모델은 자기 반사(self-reflection) 메커니즘을 통해 과학적 추론 능력을 강화하고, 화학 분야 전문 모델[837]은 화학식 이해와 반응 예측에 특화되어 있습니다. 또한 이러한 모델들은 수학 문제 해결[251]이나 데이터 분석[259]과 같은 복잡한 작업에서 에이전트(agentic) 능력을 발휘하여 자율적으로 문제를 해결할 수 있습니다. 도메인 특화 지시 모델의 발전은 과학 연구와 소프트웨어 개발 분야에서 AI 코파일럿(AI Copilot)의 실용성을 크게 향상시키고 있습니다.
Self-improving Reward Models: # Self-improving Reward Models Self-improving Reward Models는 대규모 언어 모델(Large Language Models)의 성능을 향상시키기 위해 자체적으로 개선되는 보상 모델에 관한 연구 분야입니다. 이 분야는 모델이 학습 과정에서 자신의 판단 기준을 지속적으로 개선하고, 편향(bias)을 제거하며, 더 나은 일반화 능력(generalization)을 갖추도록 하는 기술들을 다룹니다. [538]와 [751]의 연구에서 보듯이, 감독 학습(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)을 비교 분석하여 모델의 자기 개선 메커니즘을 파악하려는 노력이 이루어지고 있습니다. 또한 [158]과 [148]의 추론 시점 편향 제거(inference-time debiasing) 및 자기 디바이싱(self-debiasing) 기법들은 모델이 스스로 불공정한 출력을 인식하고 보정하도록 돕습니다. 이러한 기술들은 특화된 도메인 모델의 성능 향상[1092]과 함께 모델의 신뢰성과 공정성을 동시에 증진시키는 데 기여하고 있습니다.
Scientific Figure Captioning: Scientific Figure Captioning은 과학 논문과 특허 문서의 도표, 그래프, 이미지에 대한 설명 문장을 자동으로 생성하는 기술입니다. 이 분야는 대규모 멀티모달 모델(Large Multimodal Models)의 성능을 평가하기 위한 벤치마크 구축 [722]과 figure-to-caption 생성 프레임워크 개발 [336]을 통해 발전해왔습니다. 과학 도표의 복잡한 시각적 정보를 자연어로 정확하게 변환하는 것은 SciCap [708], SciCap+ [709] 같은 전문 데이터셋 구축으로 강화되었으며, 이는 지식 증강(Knowledge Augmented) 기법을 활용하여 설명의 정확성을 높입니다. 최근에는 텍스트-도표 쌍방향 변환 기술인 Figgen [337]과 patent figure 캡셔닝 [605] 같은 응용 분야로 확장되고 있습니다. 이러한 기술들은 과학 논문 검색, 접근성 향상, 자동 문서화 등 다양한 학술 정보 활용 분야에 활용될 수 있습니다.
LLM Research Benchmarking: LLM 연구 벤치마킹(LLM Research Benchmarking)은 대규모 언어 모델(Large Language Models)의 성능을 평가하고 측정하기 위한 체계적인 평가 방법론입니다. 이 분야의 연구들은 기계 학습(Machine Learning) 연구 과제를 수행하는 AI 에이전트(AI agents)의 능력을 다양한 벤치마크를 통해 검증합니다. [545]와 [542]에서 제시된 MLE-bench와 MLAgentBench는 기계 학습 관련 태스크에서 언어 모델 에이전트의 성능을 평가하는 구체적인 벤치마크입니다. [477]과 [672]의 연구들은 튜링 테스트(Turing test)와 실제 환경(Real-World)에서의 성능 평가를 통해 언어 모델의 지능 수준을 측정합니다. 인터랙티브 피드백(Interactive feedback) 메커니즘과 머신러닝 리서치 문제 해결(Machine Learning Research problem-solving) 능력 평가를 포함한 이러한 벤치마킹 도구들은 LLM 기반 에이전트의 실제 활용 가능성을 검증하는 데 중요한 역할을 합니다.
Scientific Graphics Evaluation: 과학 그래픽 평가(Scientific Graphics Evaluation)는 AI 기반의 학술 논문 삽화 자동화 및 과학적 시각화 생성 기술을 다루는 분야입니다. [601]에서는 학술 논문의 학술 삽화(academic illustration)를 자동으로 생성하는 PaperBanana 시스템을 제시하며, [129]의 AutomaTikZ는 텍스트 기반의 과학 벡터 그래픽(vector graphics) 합성 방법론을 제안합니다. [780]의 Surveyforge와 [811]의 TikZero는 각각 아웃라인 휴리스틱(outline heuristics)과 제로샷(zero-shot) 텍스트 가이드 기반의 그래픽 프로그램 합성(graphics program synthesis) 기술을 개발하였습니다. [773]에서는 크리에이터의 작업 흐름(creator's workflow)을 모방하는 에이전트 기반 프레임워크(agentic framework)를 제안하여, 과학 그래픽 생성의 자동화와 효율성을 극대화합니다. 이러한 연구들은 자연언어 처리(Natural Language Processing, NLP)와 컴퓨터 비전(computer vision) 기술을 통합하여 학술 커뮤니케이션의 품질을 향상시킵니다.
Scientific Language Models: 과학 언어 모델(Scientific Language Models)은 과학 논문, 학술 자료, 기술 문서 등 전문적인 과학 텍스트를 처리하기 위해 특화된 대규모 언어 모델들입니다. [707]의 SciBERT는 과학 논문 데이터로 사전학습된 모델로서 학술 텍스트 분류, 개체명 인식(Named Entity Recognition), 관계 추출(Relation Extraction) 등의 과학 NLP 작업에서 우수한 성능을 보여줍니다. [152]의 BERT는 양방향 트랜스포머(Bidirectional Transformer) 아키텍처를 통해 깊은 문맥 이해를 가능하게 하여 이러한 과학 언어 모델들의 기초가 되었습니다. 현대의 고성능 언어 모델들은 검색 증강 학습(Retrieval-Augmented Learning) 기법을 도입하고 있으며, [659]의 REALM은 이러한 접근 방식의 선도적 사례입니다. [370]의 Gemma 2와 같은 최신 모델들은 실용적인 규모(practical size)에서도 뛰어난 성능을 유지하면서 과학 분야의 다양한 응용에 활용될 수 있습니다. 이러한 과학 언어 모델들은 학술 논문 분석, 과학 정보 추출, 연구 문헌 검색 등 과학 커뮤니티의 생산성 향상에 중요한 역할을 합니다.
Figure Code Generation: 과학 논문의 그림과 차트를 자동으로 생성하고 해석하는 기술을 다루는 Figure Code Generation 분야는 멀티모달 대규모 언어 모델(Multimodal Large Language Model)의 발전과 밀접한 관련이 있습니다. [197]의 Chartcoder와 [204]의 ChartVLM은 자연어 설명으로부터 데이터 시각화(Data Visualization)를 생성하는 기능을 향상시킨 연구들입니다. [196]의 ChartAssistant는 차트 이해와 생성을 통합하는 범용 멀티모달 언어 모델로, 다양한 차트 유형에 대한 포괄적 지원을 제공합니다. [783]의 Synchart는 언어 모델의 출력으로부터 시각적 차트를 합성(Synthesizing)하는 방식을 제안하며, [338]의 연구는 텍스트 참조를 활용하여 과학 논문의 그림에 대한 캡션을 자동 생성합니다. 이러한 기술들은 과학 문서의 자동 분석과 생성을 가능하게 하며, 연구자들의 논문 작성 효율성을 크게 향상시킵니다.
Scientific Language Translation: # Scientific Language Translation 과학 문헌의 다국어 처리 및 번역은 국제 학술 커뮤니티의 지식 공유를 촉진하는 핵심 기술 분야입니다. 최근 대규모 언어모델(Large Language Models, LLM)의 발전에 따라 신경망 기반 번역(Neural Machine Translation)과 LLM 기반 역번역(Back-translation) 기법들이 과학 문서의 정확한 번역을 가능하게 하고 있습니다[690]. Phi-4, Llama 3, Qwen2.5 같은 최신 언어모델들은 다언어 교차 언어 능력(Crosslingual Capabilities)을 갖추고 있어 과학 용어의 정확한 번역과 맥락 이해를 동시에 제공합니다[245][617][801]. 이러한 모델들의 지식 장벽(Knowledge Barriers) 극복 노력은 저자원 언어(Low-resource Languages)로의 과학 문헌 번역 확대를 가능하게 하고 있습니다[649]. 과학 논문 번역 기술의 발전은 전 지구적 과학 협력 확대와 연구 성과의 민주화에 크게 기여하고 있습니다.
Multimodal Academic Benchmarks: 멀티모달 학술 벤치마크(Multimodal Academic Benchmarks)는 텍스트, 이미지, 수식 등 다양한 형태의 학술 자료를 처리할 수 있는 인공지능 모델의 성능을 종합적으로 평가하는 도구입니다. [369]의 Gemini와 [387]의 GPT-4는 멀티모달 학습 능력을 입증하면서 학술 문제 해결에서 높은 성능을 보여주었습니다. 특히 [125]의 수식 인식 연구와 [368]의 Gemini 1.5는 수학적 표기법과 복잡한 학술 콘텐츠 이해의 중요성을 강조합니다. 이러한 벤치마크들은 자동 LaTeX 코드 생성(automated LaTeX code generation)부터 장문 문맥 이해(long-context understanding)까지 다양한 학술 작업을 평가 대상으로 포함합니다. 멀티모달 모델들의 학술적 응용 가능성을 체계적으로 검증함으로써, 향후 더욱 정교한 학술 언어 처리 도구 개발의 기초를 제공합니다.

Scientific Language Models 5 ▶

#788 2018 4/5

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

저자: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova | 날짜: 2018 | DOI: 10.48550/ARXIV.1810.04805

Essence

![Figure 1](BERT_architecture.png) *그림 1: BERT의 전체 사전학습 및 파인튜닝 절차. 동일한 아키텍처가 사전학습과 파인튜닝에 사용되며, 특수 토큰 [CLS]와 [SEP]를 통해 다양한 NLP 작업 처리* BERT는 양방향(Bidirectional) 자기주의(Self-Attention)를 활용하여 마스크된 토큰 예측(Masked Language Model, MLM) 목표로 사전학습한 심층 트랜스포머 인코더로, 최소한의 파인튜닝만으로 11개 NLP 작업에서 최고 성능을 달성한 혁신적인 언어 표현 모델이다.

Evaluation

Overall: 4

BERT는 MLM이라는 우아한 아이디어로 양방향 심층 사전학습을 달성하고 최소한의 아키텍처 수정으로 다양한 NLP 작업에서 최고 성능을 보임으로써, 현대 NLP의 기초를 마련한 획기적 연구이다. 높은 계산 비용과 일부 설계 선택(NSP)의 유효성 재검토 여지는 있으나, 학문적 영향력과 실무 적용성 측면에서 최상의 기여를 했다.

#789 2024 4/5

Deepseek-v3 technical report

저자: DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bowen Wu, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fengze Dai, Fuli Luo | 날짜: 2024 | DOI: arXiv:2412.19437v2

그림 1: DeepSeek-V3와 동종 모델들의 벤치마크 성능 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1: DeepSeek-V3와 동종 모델들의 벤치마크 성능 비교* 671B 매개변수를 가진 혼합 전문가(Mixture-of-Experts, MoE) 언어 모델 DeepSeek-V3를 제시하며, 토큰당 37B만 활성화되어 효율적 추론을 실현한다. 보조 손실 없는 부하 균형 전략과 다중 토큰 예측(Multi-Token Prediction, MTP) 목표를 도입하여 뛰어난 성능을 달성하면서도 2.788M H800 GPU 시간이라는 경제적 훈련 비용으로 완성했다.

Evaluation

Overall: 4

DeepSeek-V3는 아키텍처 혁신(보조 손실 제거, 다중 토큰 예측), 훈련 최적화(FP8, DualPipe, 계산-통신 중첩), 사후 훈련 고도화(R1 증류)를 통해 개방형 모델의 성능 한계를 획기적으로 상향 조정하면서도 훈련 비용을 대폭 절감한 획기적 기여를 달성했다. 다만 데이터 구성 세부 정보 공개 부재와 하드웨어 특화 최적화의 이식성 문제가 향후 과제로 남아있다.

#790 2020 4/5

REALM: Retrieval-Augmented Language Model Pre-Training

저자: Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang | 날짜: 2020 | DOI: arXiv:2002.08909

Essence

![Figure 1](figures/fig1.webp) *REALM은 언어 모델 사전학습에 신경망 기반 지식 검색기(neural knowledge retriever)를 통합하여, 백엔드에서 수백만 개의 문서를 고려하는 검색 단계를 통해 학습 신호를 역전파한다.* REALM은 지식을 신경망 파라미터에 암묵적으로 저장하는 대신, 학습 가능한 텍스트 검색 모듈을 통해 명시적으로 외부 코퍼스(예: Wikipedia)에서 관련 문서를 동적으로 검색하고 활용하는 검색증강 언어 모델 사전학습 프레임워크다. 비지도 마스크된 언어 모델(MLM) 목표 신호를 통해 검색기를 end-to-end로 학습할 수 있다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

REALM은 검색 메커니즘을 신경망 사전학습 단계에 최초로 통합하여 규모 있는 비지도 학습을 달성한 획기적 연구다. 명시적 지식 접근을 통해 해석 가능성과 모듈화를 확보하면서도 Open-QA에서 기존 모든 방법을 능가하는 성능을 보여줬다. 다만 대규모 검색의 계산 비용 및 문서 표현 업데이트의 지연성은 실무 적용 시 고려할 점이며, 향후 더 정교한 retrieval 전략과의 결합으로 한계를 극복할 여지가 있다.

#791 2019 4/5

SciBERT: A Pretrained Language Model for Scientific Text

저자: Iz Beltagy, Kyle Lo, Arman Cohan | 날짜: 2019 | DOI: 10.48550/ARXIV.1903.10676

Essence

과학 논문의 NLP 작업을 위해 BERT를 과학 텍스트 코퍼스에서 재학습시킨 도메인 특화 언어 모델 SciBERT를 제안하며, 여러 과학 NLP 태스크에서 기존 BERT를 능가하는 성능을 달성했다.

Evaluation

Overall: 4

SciBERT는 과학 텍스트에 특화된 언어 모델로서 실용성이 높고 널리 채택되었으나, 기술적 혁신보다는 도메인 특화 적용이 주요 기여이며, 이후 도메인 특화 사전학습 모델 개발의 중요한 선례를 제시했다.

#792 2024 4/5

Gemma 2: Improving open language models at a practical size

저자: Gemma Team Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, L'eonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, P. Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard | 날짜: 2024 | DOI: -

Essence

Google DeepMind이 공개한 Gemma 2는 2B, 9B, 27B 매개변수 규모의 경량 오픈 언어모델 계열로, 지식 증류(Knowledge Distillation) 기반 학습과 Transformer 아키텍처 개선을 통해 같은 규모 모델 대비 최고 성능을 달성하고 2-3배 큰 모델과 경쟁 가능한 수준의 성능을 제공한다.

Evaluation

Overall: 4

Gemma 2는 지식 증류를 활용한 소규모 모델 성능 개선의 실증적 성공 사례로, 경량 모델의 실용적 가치를 극대화한 의미 있는 기여다. 다만 다국어/멀티모달 확장과 교사 모델 선정 기준의 깊이 있는 분석이 추가되면 더욱 강화될 것으로 예상된다.

LLM Research Benchmarking 7 ▶

#793 2024 4/5

MLE-bench: Evaluating machine learning agents on machine learning engineering

저자: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry | 날짜: 2024

Essence

![Figure 1](https://arxiv.org/html/2410.07095v6/figures/1.webp) *MLE-bench: AI 에이전트를 위한 오프라인 Kaggle 경쟁 환경. 각 경쟁은 설명, 데이터셋, 등급 코드 및 리더보드로 구성됨* 본 논문은 AI 에이전트의 머신러닝 엔지니어링(MLE) 능력을 평가하기 위해 Kaggle의 75개 경쟁 문제로 구성된 벤치마크 MLE-bench를 소개한다. 최고 성능 모델(o1-preview with AIDE 스캐폴딩)이 16.9%의 경쟁에서 Kaggle 동메달 이상 수준을 달성했으며, 자원 스케일링과 사전학습 데이터 오염의 영향을 광범위하게 분석했다.

Evaluation

Overall: 4

본 논문은 실제 Kaggle 경쟁 75개를 정교하게 선별하여 AI 에이전트의 현실적 ML 엔지니어링 능력을 평가하는 첫 종합 벤치마크를 제시했으며, 광범위한 실험과 부정행위 방지 메커니즘으로 벤치마크의 신뢰성과 재현성을 확보했다. 다만 현재 에이전트와 최고 수준 Kaggler 간의 큰 성능 격차, 그리고 디버깅과 오류 복구 능력의 한계는 자율적 ML 엔지니어링의 실현화를

#794 2025 4/5

Large language models pass the turing test

저자: Cameron R. Jones, Benjamin K. Bergen | 날짜: 2025

Essence

![Figure 2](figures/fig2.webp) *각 AI 증인의 승률(interrogator가 AI 시스템을 인간으로 판단한 비율). 오차막대는 95% 부트스트랩 신뢰구간을 나타냄* 본 논문은 현대 대규모 언어모델(LLM)이 튜링 테스트(Turing test)의 세 명 참가자 버전을 최초로 통과했음을 보여주는 실증적 증거를 제시한다. GPT-4.5가 적절한 페르소나(persona) 프롬프트 하에서 73%의 확률로 인간으로 판단되었으며, 이는 실제 인간 참가자보다 유의미하게 높은 비율이다.

Evaluation

Overall: 4

본 논문은 현대 LLM이 75년간의 도전 과제였던 튜링 테스트를 통과했음을 처음으로 실증적으로 입증한 획기적 연구이며, 엄격한 실험 설계와 통계 방법론을 갖추었으나, 더욱 다양한 표본과 심층적 메커니즘 분석으로 보완될 여지가 있다.

#795 2026.02 4/5

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

저자: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan | 날짜: 2026.02

그림 1: ResearchGym은 아이디어 제시와 실험 수행을 결합하여 LLM 에이전트를 객관적 점수로 평가

Essence

![Figure 1](figures/fig1.webp) *그림 1: ResearchGym은 아이디어 제시와 실험 수행을 결합하여 LLM 에이전트를 객관적 점수로 평가* 본 논문은 실제 AI 연구 논문의 저장소를 기반으로 엔드-투-엔드 연구 루프를 평가하는 벤치마크 ResearchGym을 제시한다. GPT-5 기반 에이전트가 인상적인 성능을 보이기도 하지만 신뢰성이 매우 낮다는 "능력-신뢰성 격차(capability-reliability gap)"를 실증적으로 입증한다.

Evaluation

Overall: 4

본 논문은 AI 에이전트의 실제 연구 수행 능력 평가를 위한 첫 번째 체계적 벤치마크를 제시함으로써 학계에 중요한 기여를 한다. 특히 객관적 실행 기반 평가, 오염 인식 설계, 접근성 있는 인프라 제공은 우수하나, 제한된 작업 규모와 현상적 실패 분석 수준은 향후 보완이 필요하다. 최신 LLM이 가끔 SOTA 성능에 도달하지만 대체로 신뢰할 수 없다는 발견은 에이전트 개발 커뮤니티에 중대한 경종을 울린다.

#796 2025 4/5

InterFeedback: Unveiling interactive intelligence of large multimodal models via human feedback

저자: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou | 날짜: 2025

그림 1: 대화형 피드백 시나리오 예시. 모델이 잘못된 응답을 생성할 때 인간 사용자가 관련 피드백을 제공하여 답변을 상호작용적으로 개선함

Essence

![Figure 1](figures/fig1.webp) *그림 1: 대화형 피드백 시나리오 예시. 모델이 잘못된 응답을 생성할 때 인간 사용자가 관련 피드백을 제공하여 답변을 상호작용적으로 개선함* 대형 다중모달 모델(LMM)이 인간의 피드백을 통해 자신의 응답을 개선할 수 있는 상호작용 능력을 평가하는 최초의 벤치마크를 제시한다. 기존 벤치마크들이 정적 평가에 집중한 반면, 본 연구는 대화형 인간-AI 상호작용 시나리오에서의 모델 성능을 측정한다.

Evaluation

Overall: 4

본 논문은 LMM의 상호작용 지능을 평가하는 중요하면서도 미개척된 영역에 최초로 접근하며, 자동화된 벤치마크와 인간 평가를 결합한 포괄적 평가 방법론을 제시한다. 다만, 현재 모든 모델의 낮은 성능과 피드백 제공자의 완벽성 미달 문제는 벤치마크의 실용성을 다소 제한하며, 후속 연구에서 모델 개선 방법론이 함께 제시되어야 할 것으로 판단된다.

#797 2023 4/5

MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation

저자: Qian Huang, Jian Vora, Percy Liang, Jure Leskovec | 날짜: 2023 | DOI: arXiv:2310.03302

Essence

![Figure 1](figures/fig1.webp) *MLAgentBench의 개요. 각 환경은 작업 설명, 시작 파일, 평가기를 포함하며, 에이전트는 파일을 읽고/쓰고 Python 코드를 반복적으로 실행하여 최종 제출 파일을 생성* 본 논문은 **머신러닝 실험을 자동으로 수행할 수 있는 언어 모델 기반 에이전트를 평가하기 위한 벤치마크(MLAgentBench)**를 제안한다. 13개의 다양한 ML 작업을 통해 최신 언어 모델들의 ML 실험 수행 능력을 체계적으로 평가한다.

Evaluation

Overall: 4

본 논문은 **언어 모델 기반 ML 자동화의 가능성과 한계를 체계적으로 평가하는 첫 종합 벤치마크**를 제시하여 학계에 중요한 기준점을 제공한다. 다양한 작업 범위와 포괄적 모델 비교는 강점이나, 37.5%의 제한적 성공률과 시간 외삽 과제의 대규모 실패는 현재 언어 모델 에이전트의 신뢰성에 대한 현실적인 인식을 제시한다. 향후 계획 수립 및 재계획 메커니즘 연구에 방향성을 제시하는 가치 있는 기초 연구이다.

#798 2025 4/5

MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

저자: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Ying He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi | 날짜: 2025

Essence

![Figure 1](https://arxiv.org/html/2505.19955v3/x1.png) *MLR-Bench 프레임워크의 개요: 단계별 평가(stepwise evaluation)와 종단간 평가(end-to-end evaluation)로 구성* 본 논문은 AI 에이전트의 오픈엔디드 머신러닝 연구 수행 능력을 평가하기 위한 포괄적 벤치마크인 MLR-Bench를 제시한다. 201개의 실제 연구 과제, 자동화된 평가 프레임워크(MLR-Judge), 그리고 모듈식 에이전트 구조(MLR-Agent)를 통해 아이디어 생성부터 논문 작성까지의 전 과정을 평가한다.

Evaluation

Overall: 4

MLR-Bench는 AI 연구 에이전트 평가를 위한 포괄적이고 체계적인 벤치마크를 제공하며, 특히 코딩 에이전트의 결과 조작 문제라는 핵심 실패 양식을 규명한 점이 가치 있으나, 실험 평가 범위의 제한성과 다양한 과학 분야로의 확장성 개선이 필요하다.

#799 2025 4/5

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

저자: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang | 날짜: 2025 | DOI: 10.48550/arXiv.2504.09702

MLRC-BENCH는 ML 학회 경쟁을 에이전트-무관(agent-agnostic) 프레임워크로 표준화하며, 계산 제약 하에서 저장소 수준 코드 실행과 객관적 메트릭 기반 평가를 제공한다.

Essence

본 논문은 기계학습(ML) 연구 경쟁 문제를 해결하는 언어 에이전트(language agent)의 능력을 평가하기 위한 동적 벤치마크 MLRC-BENCH를 제안한다. 기존 연구와 달리 LLM 판사(LLM-as-a-judge)에 의존하지 않고 객관적 메트릭을 통해 새로운 방법론의 제안과 구현을 엄밀하게 평가한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 ML 연구 에이전트의 진정한 혁신 능력을 평가하기 위한 객관적이고 동적인 벤치마크를 제시하며, 기존 주관적 평가 방식의 문제점을 실증적으로 규명함으로써 이 분야에 의미 있는 기여를 한다. 다만 작업 수 확대와 다양한 모델군 포함으로 벤치마크 완성도를 높일 필요가 있다.

Figure Code Generation 7 ▶

#800 2025 4/5

AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists

저자: Li, Yifei*, Moussa, Hanane Nour*, Chen, Ziru, Chen, Shijie, Yu, Botao et al. (The Ohio State University, Cisco Research, University of Wisconsin–Madison) | 날짜: 2025 | DOI: arXiv:2506.08140

Essence

![Figure 1](https://img-placeholder.png) *AutoSDT-Coder-32B가 ScienceAgentBench에서 GPT-4o와 동등한 성능(7.8% SR) 달성* LLM의 코딩 능력을 활용하여 자동으로 고품질 데이터 주도형 발견(data-driven discovery) 태스크 5,404개를 수집한 AutoSDT 파이프라인을 제시하고, 이를 통해 구축한 데이터셋으로 미세조정한 모델이 기존 오픈 가중치 모델 대비 대폭 성능 향상을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

AutoSDT는 LLM 자동화로 고품질 과학 태스크 데이터의 수집 병목을 혁신적으로 해결하고, 구축한 데이터셋으로 오픈 가중치 모델이 폐쇄형 모델 수준 성능 도달을 실증함으로써 개방적 AI 과학자 시대의 물적 토대를 마련한 의미 있는 연구이다.

#801 2024.04 4/5

MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning

저자: Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song, Sangwoo Cho, Yaser Yacoob, Dong Yu | 날짜: 2024.04 | DOI: 10.48550/arXiv.2311.10774

Essence

![Figure 1](figures/fig1.webp) *MMC의 9가지 구별되는 작업, 다양한 주제(비즈니스, 건강, 생물학 등), 다양한 차트 유형(막대, 히스토그램, 선형, 산점도, 히트맵 등)으로 구성된 인간 주석 데이터셋* 대규모 멀티모달 차트 명령어 튜닝(600k 인스턴스)을 통해 차트 이해에 특화된 LMM(대규모 멀티모달 모델)을 개발하고, 9가지 하위 작업으로 구성된 포괄적 벤치마크를 제시하는 연구이다.

Evaluation

Overall: 4

본 논문은 차트 이해라는 중요한 하위 도메인에서 대규모 고품질 데이터셋과 포괄적 벤치마크를 제시함으로써 멀티모달 AI의 실제 응용 확대에 기여하는 의미 있는 작업이다. 기술적 혁신보다는 데이터셋/평가 자산의 가치가 높으며, GPT-4V 포함 광범위한 실증을 통해 현재 모델들의 한계를 명확히 드러낸 점이 강점이다.

#802 2025 4/5

Chartcoder: Advancing multimodal large language model for chart-to-code generation

저자: Xuanle Zhao, Xianzhen Luo, Qi Shi, Chi Chen, Shuo Wang, Zhiyuan Liu, Maosong Sun | 날짜: 2025 | DOI: arXiv:2501.06598v3

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 기존 MLLM과 ChartCoder의 성능 비교. 차트-코드 생성 작업에서 기존 오픈소스 MLLM은 차트 타입 불일치와 크기 오류를 범하지만, ChartCoder는 정확한 코드를 생성한다.* 본 논문은 차트 이미지를 코드로 변환하는 전문화된 멀티모달 대형언어모델(MLLM)인 ChartCoder를 제안하며, 이를 위해 대규모 차트-코드 데이터셋(Chart2Code-160k)과 단계적 생각(Snippet-of-Thought, SoT) 방법론을 소개한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

ChartCoder는 차트-코드 생성이라는 미개척 영역을 개척하면서 Code LLM 백본과 대규모 데이터셋, SoT 방법론을 통해 실제 성능 개선을 달성한 의미 있는 연구이다. 다만 방법론의 이론적 깊이와 응용 범위 확대에서 추가 개선의 여지가 있다.

#803 2024 4/5

Chartx & chartvlm: A versatile benchmark and foundation model for complicated chart reasoning

저자: Renqiu Xia, Bo Zhang, Hancheng Ye, Xiangchao Yan, Qi Liu, Hongbin Zhou, Zijun Chen, Min Dou, Botian Shi, Junchi Yan, Yu Qiao | 날짜: 2024

Figure 1: ChartX 평가 데이터셋과 ChartVLM 모델의 개요. ChartX는 22개 분야, 18개 차트 유형, 7개 작업을 포함하며, ChartVLM은 instruction adapter를 통해 작업을 동적으로 선택하고 인식 작업 결과를 추론 작업에 통합하여 해석가능성을 향상시킨다.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: ChartX 평가 데이터셋과 ChartVLM 모델의 개요. ChartX는 22개 분야, 18개 차트 유형, 7개 작업을 포함하며, ChartVLM은 instruction adapter를 통해 작업을 동적으로 선택하고 인식 작업 결과를 추론 작업에 통합하여 해석가능성을 향상시킨다.* 본 논문은 다중모달 대형언어모델(MLLM)의 차트 이해 능력을 종합적으로 평가하기 위해 ChartX 벤치마크와 ChartVLM 기초모델을 제시한다. 특히 차트 데이터 추출과 복잡한 추론을 포함하는 다단계 작업에서 모델의 해석가능성을 강화하는 새로운 접근방식을 제안한다.

Evaluation

Overall: 4

ChartX & ChartVLM은 차트 이해 벤치마킹과 모델 개발에 있어 중요한 이정표를 제시한다. 특히 해석가능성을 강조하는 설계 철학과 공개 데이터셋의 규모는 해당 분야의 향후 연구 방향을 형성할 가능성이 높다. 다만 실제 자연 차트 데이터 통합과 모델 스케일링 측면에서 추가 개선이 필요하다.

#804 2024 4/5

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning

저자: Fanqing Meng, Wenqi Shao, Quanfeng Lu, Peng Gao, Kaipeng Zhang | 날짜: 2024 | DOI: 10.48550/arXiv.2401.02384

기존 차트 모델과 ChartAssistant의 학습 파이프라인 비교

Essence

차트-테이블 사전학습(pre-training)과 다중작업 명령어 튜닝(instruction tuning)을 통해 다양한 차트 이해 작업을 단일 모델로 수행할 수 있는 보편적 차트 멀티모달 언어모델을 제안한다. 기존 모델의 차트-텍스트 정렬 부족과 제한된 데이터를 극복하기 위해 39M 규모의 대규모 ChartSFT 데이터셋과 2단계 학습 전략을 도입했다.

Evaluation

Overall: 4

ChartAssistant는 체계적인 데이터셋 구축과 2단계 학습 전략으로 차트 이해 모델의 일반화 성능을 크게 향상시킨 실용적이고 견고한 연구이다. 대규모 데이터셋 구축과 다양한 차트 유형 지원이 주요 강점이나, 개별 기술 혁신 측면에서는 기존 기법의 효과적 조합에 가까우며, 절제된 실험을 통한 각 구성요소의 기여도 상세 분석이 추가되면 더욱 강화될 것으로 판단된다.

#805 2024 4/5

Synchart: Synthesizing charts from language models

저자: Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao, Yunsheng Li | 날짜: 2024 | DOI: 미공개

ChartQA 정확도 비교: 다양한 모델과 성분의 기여도 시각화

Essence

![Figure 2](figures/fig2.webp) *Data generation pipeline: Stage 1 데이터 생성, Stage 2 차트 생성, Stage 3 QA 쌍 생성* LLM(Large Language Model)만을 활용하여 약 400만 개의 다양한 차트 이미지와 7,500만 개 이상의 밀집 주석(데이터 테이블, 코드, 설명, QA)으로 구성된 대규모 합성 차트 데이터셋 SynChart를 구축하고, 이를 통해 4.2B 매개변수의 차트 전문가 모델을 학습하여 ChartQA 벤치마크에서 GPT-4O에 근접하면서도 GPT-4V를 능가하는 성능을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

SynChart는 LLM을 활용한 대규모 합성 데이터 구축의 실제 성공 사례로, 데이터 수집 방식에 대한 명

#806 2024 3/5

Figuring out figures: Using textual references to caption scientific figures

저자: Stanley Cao, K. Liu | 날짜: 2024 | DOI: arXiv:2407.11008

Essence

과학 논문의 그래프 및 도형에 대한 자동 캡션 생성을 위해 CLIP+GPT-2 모델에 논문의 메타데이터(제목, 초록, 참고문헌 인용 텍스트)를 SciBERT를 통해 통합한 멀티모달 접근법을 제시한다. 특히 텍스트 정보만 사용한 SciBERT+GPT-2 모델이 BLEU 6.71을 달성하며 기존 CNN+LSTM 기반선(BLEU 2.59)을 크게 상회했다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 3 Clarity: 4 Overall: 3

과학 도형 캡셔닝에서 텍스트 메타데이터의 중요성을 명확히 입증한 실용적 연구이나, 멀티모달 모델의 설계 결함(이미지 기여도 역설)을 노출함으로써 향후 보다 근본적인 아키텍처 혁신이 필요함을 시사한다.

Scientific Language Translation 11 ▶

#807 2024 4/5

Deepseek-coder: When the large language model meets programming–the rise of code intelligence

저자: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang | 날짜: 2024 | DOI: -

Essence

![Figure 1](figures/fig1.webp) *DeepSeek-Coder의 성능 비교* 본 논문은 1.3B에서 33B 규모의 오픈소스 코드 전문 대규모 언어모델(LLM) 시리즈를 제시하며, 폐쇄형 모델인 Codex와 GPT-3.5를 능가하는 성능을 달성했다. 2조 개의 토큰으로 학습된 이 모델들은 저작권 제약 없이 상용 사용 가능한 오픈소스로 제공된다.

Evaluation

Overall: 4

DeepSeek-Coder는 저장소 수준 의존성 분석이라는 신선한 접근과 철저한 데이터 관리를 통해 오픈소스 코드 모델의 새로운 기준을 수립했으며, GPT-3.5 추월 성과는 코드 AI의 민주화에 중대한 기여를 한다. 다만 의존성 추출의 정확성 검증과 언어 편향 완화가 후속 과제이다.

#808 2025 4/5

ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code

저자: Tianyu Hua, Harper Hua, Violet Xiang, Benjamin Klieger, Sang T. Truong, Weixin Liang, Fan-Yun Sun, Nick Haber (Stanford University) | 날짜: 2025 | DOI: arXiv:2506.02314v1

ResearchCodeBench 작업 설정 개요. LLM은 연구 논문, TODO 마커가 포함된 목표 코드 스니펫, 동일 프로젝트의 주변 컨텍스트 코드에 접근하여 누락된 코드를 작성한다.

Essence

![Figure 1](figures/fig1.webp) *ResearchCodeBench 작업 설정 개요. LLM은 연구 논문, TODO 마커가 포함된 목표 코드 스니펫, 동일 프로젝트의 주변 컨텍스트 코드에 접근하여 누락된 코드를 작성한다.* 최신 기계학습 연구 논문에서 제시된 새로운 아이디어를 실행 가능한 코드로 변환하는 LLM의 능력을 평가하는 벤치마크로, 2024-2025년 상위 학회(NeurIPS, ICLR, CVPR) 논문 20개로부터 구성된 212개의 코딩 챌린지를 통해 현재 최고 성능 LLM도 40% 미만의 성공률을 보임을 입증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

ResearchCodeBench는 LLM의 진정한 혁신 코드 구현 능력을 평가하는 시간-민감하고 객관적인 벤치마크를 제시함으로써, AI 보조 과학 연구의 현실적 한계를 규명하고 향후 LLM 개선 방향의 기준점을 제공하는 가치 있는 기여이다.

#809 2024 4/5

Crosslingual capabilities and knowledge barriers in multilingual large language models

저자: Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Amer Sinha, Chulin Xie, Chiyuan Zhang | 날짜: 2024 | DOI: arXiv:2406.16135

그림 1: 다국어 LLM은 기계번역과 같은 명시적 작업에서는 강한 교차언어 능력을 보이나, 모델 가중치에 암묵적으로 저장된 지식을 활용하는 지식 집약적 작업에서는 언어 간 격차를 해소하지 못함을 보여줌.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 다국어 LLM은 기계번역과 같은 명시적 작업에서는 강한 교차언어 능력을 보이나, 모델 가중치에 암묵적으로 저장된 지식을 활용하는 지식 집약적 작업에서는 언어 간 격차를 해소하지 못함을 보여줌.* 본 논문은 다국어 대규모 언어 모델(LLM)이 명시적 교차언어 작업(기계번역)에서는 우수한 성능을 보이나, 매개변수 지식의 암묵적 교차언어 활용에서는 심각한 성능 저하를 경험하는 '교차언어 지식 장벽(crosslingual knowledge barrier)'을 처음으로 체계적으로 규명하는 연구이다.

Evaluation

Overall: 4

본 논문은 다국어 LLM이 표면적 교차언어 능력은 갖추었으나 깊이 있는 지식 활용에서는 현저한 장벽을 경험한다는 중요한 발견을 체계적으로 입증하며, 혼합언어 미세조정을 통한 실질적 완화 방안을 제시한 의미 있는 연구이다. 다만 저자원 언어 확대와 신경망 수준의 해석 분석이 후속 과제로 남아있다.

#810 2022.11 4/5

Galactica: A Large Language Model for Science

저자: Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic | 날짜: 2022.11 | DOI: 10.48550/arXiv.2211.09085

표 1: 과학 데이터의 토큰화 - 텍스트, LaTeX, 코드, SMILES, 아미노산 서열, DNA 서열 등을 통합

Essence

Galactica는 48백만 편의 논문과 과학 자료로 학습된 대규모 언어모델(LLM)로, 과학 지식을 저장·조합·추론하여 정보 과잉 시대의 과학 연구를 지원하는 새로운 인터페이스를 제시한다. 일반 LLM과 달리 엄격히 선별된 과학 코퍼스를 활용하여 LaTeX 방정식, 화학식(SMILES), 단백질 서열 등 다양한 양식을 처리할 수 있다.

Evaluation

Overall: 4

Galactica는 과학 지식 처리를 위해 큐레이션된 데이터와 특화된 인터페이스를 결합한 야심 찬 프로젝트로, 과학 LLM의 가능성을 실질적으로 입증했다. 특히 일반 LLM 대비 기술 지식에서의 우수성과 미리 학습된 프롬프트를 통한 조합 능력은 주목할 만하나, 추론 절대 성능의 한계와 할루시네이션 위험이 실제 과학 커뮤니티 채택의 걸림돌이 될 수 있다. 추후 검색 증강 및 신뢰도 검증 메커니즘과의 결합이 필수적이다.

#811 2024 4/5

Phi-4 technical report

저자: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael R. Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio César Teodorio Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim | 날짜: 2024 | DOI: arXiv:2412.08905

Figure 1: 2024년 11월 AMC-10/12 시험에서 다양한 모델의 평균 성능 비교

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 2024년 11월 AMC-10/12 시험에서 다양한 모델의 평균 성능 비교* Phi-4는 140억 개 파라미터의 언어 모델로, 고품질 합성 데이터 중심의 학습 레시피를 통해 개발되었으며, 교사 모델인 GPT-4o를 STEM 기반 질의응답 벤치마크에서 능가하는 성능을 달성했다. 특히 추론 관련 작업에서 훨씬 큰 모델들과 비슷하거나 우수한 성능을 보인다.

Evaluation

Overall: 4

Phi-4는 고품질 합성 데이터 중심의 전략적 학습 설계를 통해 소규모 모델의 성능 한계를 획기적으로 극복한 우수한 사례이다. 특히 신선한 경시대회 데이터에서의 검증과 교사 모델 능가의 결과는 데이터 품질의 중요성을 명확히 보여주며, 향후 효율적인 언어 모델 개발의 중요한 방향성을 제시한다. 다만 생성 방법론의 완전한 자동화, 다양한 도메인으로의 확대 적용, 그리고 이론적 기초에 대한 심화 연구가 후속 과제로 남아 있다.

#812 2023.10 4/5

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

저자: Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun | 날짜: 2023.10 | DOI: 10.48550/arXiv.2307.16789

ToolBench 구축의 세 단계와 API 리트리버 및 ToolLLaMA 학습 파이프라인

Essence

오픈소스 LLM들의 API 활용 능력을 대폭 향상시키기 위해 16,464개의 실제 REST API를 포함한 대규모 도구 사용 지시튜닝 데이터셋(ToolBench)과 깊이 우선 탐색 기반 의사결정 트리(DFSDT) 알고리즘을 제시하며, ChatGPT와 비슷한 성능의 ToolLLaMA를 개발했다.

Evaluation

Overall: 4

ToolLLM은 오픈소스 LLM의 대규모 실제 API 활용 능력을 체계적으로 확보한 중요한 연구로, 포괄적인 데이터셋, 강화된 추론 알고리즘, 자동 평가 프레임워크를 통해 도구 학습 분야에 실질적 기여를 제시한다. ChatGPT 수준의 성능 달성과 강력한 일반화 능력은 실무 적용 가능성을 높이나, 데이터 구축의 ChatGPT 의존도와 이론적 분석 깊이에서는 개선 여지가 있다.

#813 2023 4/5

Codegen: An open large language model for code with multi-turn program synthesis

저자: Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong | 날짜: 2023 | DOI: arXiv:2203.13474

Essence

본 논문은 프로그램 합성(program synthesis) 작업에 최적화된 16.1B 파라미터 규모의 대규모 언어 모델 CodeGen 계열을 제시하고, 사용자가 자연어로 단계적 명령을 제공하는 **다중 턴 프로그램 합성(multi-turn program synthesis)** 패러다임을 도입하여 단일 턴 방식 대비 명확한 성능 향상을 입증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

CodeGen은 프로그램 합성의 민주화를 위한 첫 고품질 오픈소스 모델로서, 다중 턴 패러다임 도입과 전용 벤치마크 제시를 통해 학술 기여도를 확보했으나, 성능 경쟁력과 다중 턴 성능 향상의 원인에 대한 깊이 있는 분석이 더 강화될 필요가 있다.

#814 2024 4/5

LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction

저자: Yixuan Wang, Baoxin Wang, Yijun Liu, Dayong Wu, Wanxiang Che | 날짜: 2024 | DOI: 미제공

Essence

중국어 문법 오류 수정(CGEC) 시스템의 과도한 수정(over-correction) 문제를 해결하기 위해, 기존 GEC 시스템의 출력을 입력받아 직접 재작성하는 경량의 언어모델 기반 필터링 모델을 제안한다.

Evaluation

Overall: 4

과도한 수정 문제를 효과적으로 해결하기 위해 재작성 모델이라는 실용적인 접근을 제시하며, K-fold 교차 추론이라는 창의적 데이터 구성 방법으로 인해 학술적 가치가 있다. 다만 평가 범위의 확대와 더 엄밀한 일반화 검증이 필요하다.

#815 2024 4/5

Rule-based, neural and llm back-translation: Comparative insights from a variant of ladin

저자: Samuel Frontull, Georg Moser | 날짜: 2024

Essence

저자원(low-resource) 언어인 라딘어(Ladin)의 Val Badia 방언에 대해 규칙 기반(RBMT), 신경망(NMT), 대규모 언어모델(LLM) 기반의 세 가지 역번역(back-translation) 기법을 비교 분석하여, 저자원 시나리오에서는 역번역 모델 선택이 최종 성능에 유의미한 영향을 미치지 않음을 실증했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 3 Clarity: 4 Overall: 4

본 논문은 라딘어라는 미개척 저자원 언어에 대해 규칙, 신경망, LLM 세 가지 역번역 기법을 처음으로 비교 분석하여 흥미로운 실증 결과를 제공했으며, 공개 자원과 벤치마크를 통해 향후 연구 기반을 마련한 점에서 의의가 있으나, 제한된 데이터와 단일 언어 쌍에 대한 초기 탐색 연구로서 일반화 가능성은 아직 미지수다.

#816 2024 4/5

The Llama 3 Herd of Models

저자: Grattafiori, Aaron, Dubey, Abhimanyu, Jauhri, Abhinav 외 다수 (Meta AI) | 날짜: 2024 | DOI: arXiv:2407.21783

*사전학습 (Pre-training)

Essence

Meta가 발표한 Llama 3는 8B, 70B, 405B 파라미터 규모의 대규모 언어모델 계열로, 15T 다국어 토큰으로 사전학습되었으며 128K 토큰 컨텍스트 윈도우를 지원하는 고성능 기반모델(foundation model)이다. GPT-4 수준의 성능을 달성하면서 다국어, 코딩, 추론, 도구 사용 능력을 기본적으로 지원한다.

Evaluation

Novelty: 3 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Llama 3는 데이터 품질 개선과 대규모 투자를 통해 GPT-4 수준의 성능을 달성한 중요한 오픈소스 기반모델이지만, 멀티모달 통합의 미흡함과 기술적 세부사항의 제한된 공개는 완전히 새로운 방법론보다는 기존 기법의 정교한 조합과 규모화의 측면에서 가치를 갖는다.

#817 2024 N/A

Qwen2.5 technical report

저자: Qwen An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxin Yang, Jingren Zhou, Junyang Lin, Kai Dang | 날짜: 2024 | DOI: 아직 미정

Qwen 시리즈의 반복적 개발 과정에서 데이터 스케일링의 중요성을 시각화. Qwen2.5는 18조 토큰으로 사전학습되어 수학, MBPP, BBH, MMLU 벤치마크에서 우수한 성능을 보임.

Essence

![Figure 1](figures/fig1.webp) *Qwen 시리즈의 반복적 개발 과정에서 데이터 스케일링의 중요성을 시각화. Qwen2.5는 18조 토큰으로 사전학습되어 수학, MBPP, BBH, MMLU 벤치마크에서 우수한 성능을 보임.* 본 논문은 Qwen2.5 대규모 언어 모델(LLM) 시리즈를 소개하며, 사전학습 데이터를 7조에서 18조 토큰으로 확대하고, 감독 미세조정(SFT), 직접 선호도 최적화(DPO), 그룹 상대 정책 최적화(GRPO) 등 고도화된 후학습 기법을 적용하여 이전 버전 대비 대폭 향상된 성능을 달성했다.

Multimodal Academic Benchmarks 5 ▶

#818 2023 4/5

Gemini: a family of highly capable multimodal models

저자: Gemini Robotics Team, Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M. Dai, Anja Hauth, Katie Millican, David M. Silver, Melvin Johnson, Ioannis Antonoglou, Julian Schrittwieser, Amelia Glaese, Jilin Chen, Emily Pitler, Timothy Lillicrap, Angeliki Lazaridou, Orhan Fırat | 날짜: 2023

Gemini 모델이 학생의 물리 문제 풀이를 검증하는 예시로, 필기 인식, 문제 이해, LaTeX 생성 능력을 보여준다.

Essence

![Figure 2](figures/fig2.webp) *Gemini 모델은 텍스트, 이미지, 오디오, 비디오의 인터리빙된 시퀀스를 입력으로 받아 텍스트와 이미지가 섞인 응답을 생성할 수 있다.* Google이 개발한 Gemini는 이미지, 오디오, 비디오, 텍스트를 네이티브하게 처리하는 멀티모달 대규모 언어 모델 패밀리로, Ultra, Pro, Nano 세 가지 크기로 제공되며 30개의 32개 벤치마크 중에서 최첨단 성능을 달성한다.

Evaluation

Overall: 4

Gemini는 텍스트, 이미지, 오디오, 비디오를 통합적으로 처리하는 진정한 멀티모달 모델로서, MMLU 인간 전문가 수준 달성 및 30/32 벤치마크 최첨단 성능 기록을 통해 멀티모달 AI의 새로운 기준을 제시하며, 대규모 훈련 인프라 혁신(97% goodput)은 향후 초대형 모델 개발의 모범 사례가 될 것으로 기대된다.

#819 2023 4/5

GPT-4 Technical Report

저자: OpenAI | 날짜: 2023

그림 1: GPT-4 및 소규모 모델의 성능. 내부 코드베이스 데이터셋에서의 최종 손실값(bits per word). 소규모 모델로부터의 전력 법칙 적합이 GPT-4의 최종 손실을 정확히 예측.

Essence

GPT-4는 이미지와 텍스트를 입력받아 텍스트를 출력하는 멀티모달 대규모 언어 모델로, 법학시험(Bar Exam) 상위 10% 수준의 성능을 달성하며 인간 수준의 전문가 및 학업 벤치마크 성능을 보여준다. 특히 훈련 규모 확장 시 성능 변화를 정확히 예측할 수 있는 인프라 구축을 핵심으로 한다.

Evaluation

Overall: 4

#820 1145 4/5

If in a Crowdsourced Data Annotation Pipeline, a GPT-4 | Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems

저자: Zeyu He, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Shaurya Rohatgi, Ting-Hao Kenneth Huang | 날짜: 1145 | DOI: 10.1145/3613904.3642834

Essence

![Figure 4](figures/fig4.webp) *Figure 4: Aggregation Methods for All Workers, Exclude-By-Worker, and Exclude-By-Batch. Among the various models and* GPT-4와 최적화된 크라우드소싱 파이프라인의 데이터 라벨링 능력을 비교한 연구로, GPT-4가 개별 성능에서 우수하지만 라벨 집계(Label Aggregation)를 통해 크라우드 라벨과 결합하면 더 높은 정확도를 달성할 수 있음을 보여줌.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 기존 GPT-4 vs 크라우드 워커 비교 연구의 방법론적 문제점을 충실히 해결하면서, 최적화된 크라우드소싱 파이프라인의 정확성을 검증하고 GPT-4와의 하이브리드 접근이 더 나은 성능을 제공할 수 있음을 입증했다는 점에서 높은 학술적 가치를 가짐. 특히 LLM 시대 크라우드소싱의 새로운 역할을 제시한 중요한 연구임.

#821 2024 3/5

Automated latex code generation from handwritten math expressions using vision transformer

저자: Jayaprakash Sundararaj, Akhil Vyas, Benjamin Gonzalez-Maldonado | 날짜: 2024

Figure 1: LaTeX 수식의 길이별 분포 (1~150 심볼 범위)

Essence

필기 수학식 이미지를 LaTeX 코드로 변환하는 작업에서 Vision Transformer (ViT) 기반 인코더-디코더 아키텍처가 기존 CNN-LSTM 기준 모델을 능가하는 성능을 달성했다. 이 연구는 컴퓨터 비전과 자연어 처리를 결합한 이미지-투-시퀀스 문제에서 트랜스포머의 우월성을 입증한다.

Evaluation

Overall: 3

이 논문은 Vision Transformer를 필기 수학식 인식 작업에 체계적으로 적용하고 기존 CNN-RNN 기준 모델과 비교한 실용적 연구이다. 아키텍처 설계와 구현은 견고하며 오픈 소스 공개로 재현성을 확보했다. 그러나 완성되지 않은 결과 분석 섹션, 정량적 성능 수치의 부재, 그리고 아키텍처 혁신보다는 기존 기법의 응용에 머물러 있다는 점이 학술적 기여도를 제한한다. 추가적으로 더 높은 해상도 입력과 실제 필기 데이터 실험이 필요하며, 오류 사례 분석을 통한 통찰력 제공이 논문의 가치를 크게 높일 수 있을 것으로 예상된다.

#822 2024 N/A

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

저자: Machel Reid, N. Savinov, Denis Teplyashin, Dmitry Lepikhin, T. Lillicrap, Jean-Baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew M. Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola | 날짜: 2024 | DOI: arXiv:2403.05530v5

Essence

![Figure 1](https://arxiv.org/html/2403.05530v5/x1.png) *Gemini 1.5 Pro는 모든 모달리티(텍스트, 비디오, 오디오)에서 1M 토큰까지 99.7% 이상의 "needle" recall을 달성하며, 텍스트 모달리티에서는 10M 토큰까지 성능을 유지함* Gemini 1.5는 최대 1,000만 토큰의 컨텍스트를 처리할 수 있는 멀티모달 대규모 언어 모델로, 기존 모델들(Claude 3.0의 20만 토큰, GPT-4 Turbo의 12.8만 토큰)보다 획기적으로 확장된 컨텍스트 윈도우를 구현했다. Gemini 1.5 Pro와 Flash 두 가지 변형은 긴 문서, 영상, 오디오에 대한 검색 및 추론 능력에서 최첨단 성능을 달성하면서도 계산 효율성을 유지한다.

Formal Theorem Proving 10 ▶

#823 2020 4/5

Generative language modeling for automated theorem proving

저자: Stanislas Polu, I. Sutskever | 날짜: 2020 | DOI: arXiv:2009.03393

Essence

트랜스포머 기반 생성 언어 모델을 자동 정리 증명(automated theorem proving)에 적용하여, 신경망이 형식 수학 추론 작업을 수행할 수 있음을 최초로 입증한 연구이다. GPT-f 시스템은 Metamath 라이브러리에 채택된 새로운 증명들을 생성함으로써, 딥러닝 기반 시스템이 공식 수학 커뮤니티에 기여한 첫 사례가 되었다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

신경망 기반 정리 증명 연구에 있어 획기적인 논문으로, 트랜스포머의 형식 추론 능력을 실증했으며 실제 수학 커뮤니티 기여까지 달성했다. 다만 Metamath 선택으로 인한 저수준 특성과 다른 형식 시스템으로의 일반화 가능성 검증이 향후 과제이다.

#824 2021 4/5

Minif2f: a cross-system benchmark for formal olympiad-level mathematics

저자: Kunhao Zheng, Jesse Michael Han, Stanislas Polu | 날짜: 2021

Figure 1: miniF2F에서 성공적으로 증명된 명제의 개수 비교. 초록색 막대는 Lean GPT-f의 결과

Essence

본 논문은 신경 정리 증명(neural theorem proving) 분야를 위한 최초의 통합 크로스 시스템 벤치마크인 miniF2F를 제시한다. 이는 488개의 올림피아드 수준 수학 문제(IMO, AIME, AMC)를 Metamath, Lean, Isabelle, HOL Light 등 다양한 형식 시스템에서 표준화된 형식으로 제공함으로써, 신경 정리 증명 시스템의 수학적 추론 능력을 공정하게 비교할 수 있는 공통 자원을 제공한다.

Evaluation

Overall: 4

본 논문은 신경 정리 증명 커뮤니티의 오랫동안의 필요를 충족시키는 첫 번째 통합 벤치마크를 제공함으로써, 시스템 간 공정한 비교와 지속 가능한 연구 생태계 구축에 매우 큰 의의가 있는 작업이다.

#825 2022 4/5

Draft, sketch, and prove: Guiding formal theorem provers with informal proofs

저자: Albert Q. Jiang, Sean Welleck, Jin Zhou, Wenda Li, Jiacheng Liu, Mateja Jamnik, Timothée Lacroix, Yuhuai Wu, Guillaume Lample | 날짜: 2022 | DOI: 미기재

Draft, Sketch, and Prove 프레임워크. 비형식적 명제에서 형식적 증명까지 도달하는 3단계 과정

Essence

![Figure 1](figures/fig1.webp) *Draft, Sketch, and Prove 프레임워크. 비형식적 명제에서 형식적 증명까지 도달하는 3단계 과정* 본 논문은 **비형식적 증명(informal proofs)을 형식적 증명 스케치(formal proof sketches)로 변환하여 자동 정리 증명기(automated theorem prover)를 유도하는 혁신적 방법론**을 제시한다. 이는 풍부한 수학 텍스트 데이터를 활용하면서도 형식 시스템의 논리적 엄밀성을 보장한다.

Evaluation

Overall: 4

본 논문은 비형식적 증명의 풍부한 자료를 형식 시스템의 엄밀성과 결합하는 **실용적이고 혁신적인 접근법**을 제시하며, miniF2F에서 약 2배의 성능 향상을 달성하였다. 특히 LLM의 생성 능력과 자동 증명기의 검증 능력을 효과적으로 활용한 점이 돋보이지만, 생성된 증명의 정확성 평가와 더 대규모 데이터셋으로의 확장이 필요하다.

#826 2026.02 4/5

MerLean: An Agentic Framework for Autoformalization in Quantum Computation

저자: Yuanjie Ren, Jinzheng Li, Yidi Qi | 날짜: 2026.02 | DOI: 미제공

MerLean 아키텍처: LaTeX 논문에서 명제를 추출하고 Lean 4로 형식화한 후 다시 LaTeX로 변환하는 양방향 자동형식화 프레임워크

Essence

![Figure 1](figures/fig1.webp) *MerLean 아키텍처: LaTeX 논문에서 명제를 추출하고 Lean 4로 형식화한 후 다시 LaTeX로 변환하는 양방향 자동형식화 프레임워크* 본 논문은 양자계산 이론 논문을 자동으로 기계검증 가능한 Lean 4 코드로 변환하는 완전 자동화 에이전트 프레임워크 MerLean을 제시한다. 3개 양자계산 논문에서 114개 명제로부터 2,050개 Lean 선언을 생성하며 전체 논문의 자동형식화에 성공했다.

Evaluation

Overall: 4

MerLean은 LLM 에이전트가 인간 개입 없이 실제 연구 논문을 대규모로 형식화할 수 있음을 최초로 입증한 주목할 만한 연구다. 양방향 설계로 기계검증과 인간검증을 결합하는 실용적 접근이 인상적이며, 양자계산을 넘어 수학·물리 전반으로의 확장 가능성도 높다. 다만 새로운 정의/공리의 인간 검토 필요성, 제한된 평가 범위, 미명확한 기술 상세사항이 보완 필요 영역이다.

#827 2024 4/5

Deepseek-prover: Advancing theorem proving in llms through large-scale synthetic data

저자: Huajian Xin, Daya Guo, Zhihong Shao, Z. Ren, Qihao Zhu, Bo Liu, Chong Ruan, Wenda Li, Xiaodan Liang | 날짜: 2024 | DOI: 미공개

그림 1: 접근 방법의 개요. 비형식 수학 문제에서 형식적 증명 데이터를 생성하는 반복적 파이프라인

Essence

![Figure 1](figures/fig1.webp) *그림 1: 접근 방법의 개요. 비형식 수학 문제에서 형식적 증명 데이터를 생성하는 반복적 파이프라인* 이 논문은 비형식적 수학 문제에서 자동으로 대규모 형식 증명 데이터(Lean 4)를 합성하는 방법을 제시하고, 이를 통해 미세조정된 LLM이 GPT-4를 능가하는 정리 증명 성능을 달성했다. 특히 800만 개의 정형화된 명제-증명 쌍을 생성하여 훈련 데이터 부족 문제를 해결했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 정형식 증명의 오래된 데이터 부족 문제를 대규모 자동 합성과 반복 검증을 통해 실용적으로 해결한 견고한 연구로, 특히 800만 규모 오픈소스 데이터셋의 공개는 자동정리증명 분야에 상당한 인프라 기여를 할 것으로 예상된다. 다만 정리 증명의 절대 성능은 여전히 제한적이며, 고급 수학으로의 확장 가능성 검증이 필요하다.

#828 2024 4/5

Proving Theorems Recursively

저자: Haiming Wang, Huajian Xin, Zhengying Liu, Wenda Li, Yinya Huang, Jianqiao Lu, Zhicheng Yang, Jing Tang, Jian Yin, Zhenguo Li, Xiaodan Liang | 날짜: 2024 | DOI: arXiv:2405.14414

그림 1: 단계적 증명과 재귀적 증명의 비교. (a) 단계적 접근은 증명의 계층 구조를 무시하고 증명 단계들의 시퀀스로만 취급. (b) 재귀적 증명은 검증 가능한 증명 스케치를 여러 레벨로 분해하여 단계별로 중간 명제 증명을 미루는 방식으로 진행.

Essence

![Figure 1](figures/fig1.webp) *그림 1: 단계적 증명과 재귀적 증명의 비교. (a) 단계적 접근은 증명의 계층 구조를 무시하고 증명 단계들의 시퀀스로만 취급. (b) 재귀적 증명은 검증 가능한 증명 스케치를 여러 레벨로 분해하여 단계별로 중간 명제 증명을 미루는 방식으로 진행.* 신경망 기반 자동 정리 증명(automated theorem proving)에서 기존의 단계적(step-by-step) 탐색 방식의 한계를 극복하기 위해, 본 논문은 **POETRY(PrOvE Theorems RecursivelY)**를 제안한다. 이는 Isabelle 정리 증명기에서 재귀적이고 계층적 접근을 통해 증명을 단계적으로 구성하는 방법으로, 중간 명제들의 증명을 `sorry` 플레이스홀더로 미루고 더 깊은 레벨에서 해결하는 방식이다.

Evaluation

Overall: 4

POETRY는 형식 증명의 자연스러운 계층 구조를 처음 체계적으로 활용하여 근시안적 단계적 탐색의 한계를 극복한 창의적 방법이다. 특히 증명 길이 확장과 SOTA 성능 달성은 주목할 만하나, 거짓 명제 사전 검증 부재, 계산 비용 분석 미흡, Isabelle 의존성 등의 한계가 있으며, 다른 형식 환경으로의 일반성 입증이 필요하다.

저자: Zachary Goodsell, Juhani Yli‐Vakkuri | 날짜: 2024 | DOI: 미제공

Essence

본 논문은 과학의 형식화를 위한 기초 논리 체계 LF(Lf)를 제시하며, Church(1940)와 Henkin(1950)의 고차 논리를 개선하여 내연성(intensionality)을 유지하면서 외연성(extensionality)을 배제한 새로운 시스템을 제안한다. LF는 확률론, 수학, 의미론 등 다양한 과학 분야의 형식화에 적합하도록 설계되었다.

Evaluation

Overall: 3

이 논문은 확률론과의 양립 불가능이라는 고차 논리의 근본 문제를 직시하고 우아한 형식적 해결책을 제시한 점에서 가치 있으나, 핵심 기술적 성질의 증명 부재와 실제 응용 사례의 부족으로 인해 그 중요성이 아직 완전히 입증되지 않았다. 저자들의 진행 중인 업무(philosophical justification, mathematical properties, applications)가 완성된다면 논리학 및 과학 철학 분야의 중요한 기여가 될 가능성이 높다.

Domain-specific Instruction Models 8 ▶

#833 2025 4/5

Seed-coder: Let the code model curate data for itself

저자: ByteDance Seed, Yuyu Zhang, Jing Su, Yifan Sun, Chenguang Xi, Xia Xiao, Zheng Shen, A. Q. Zhang, Kaibo Liu, Daoguang Zan, Tao Sun, J. Zhu, Shijie Xin, Dong Huang, Y. Bai, Lixin Dong, C. J. Li, Jianchong Chen, Hao Zhou, Yifan Huang | 날짜: 2025 | DOI: arXiv:2506.03524

그림 1. Seed-Coder-8B 지시어(Instruct)와 추론(Reasoning) 변형의 벤치마크 성능 비교

Essence

![Figure 1](figures/fig1.webp) *그림 1. Seed-Coder-8B 지시어(Instruct)와 추론(Reasoning) 변형의 벤치마크 성능 비교* 본 논문은 코드 데이터 전처리 과정에서 인간의 수작업 필터링 규칙에 의존하지 않고, LLM 기반 자동 필터링을 활용하여 6조 토큰의 고품질 코드 사전학습 데이터를 구축한 Seed-Coder 모델 시리즈를 제시한다. 동일 규모의 오픈소스 모델을 능가하고 더 큰 모델과도 경쟁력 있는 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Seed-Coder는 코드 데이터 큐레이션의 근본적인 방식을 재정의하여, 인간의 수작업 규칙 대신

저자: Zhilong Song, Qionghua Zhou, Chunjin Ren, Chongyi Ling, Minggang Ju, Jinlan Wang | 날짜: 2025

Essence

대규모 언어 모델(LLM)과 체계적 최적화를 결합하여 데이터와 도메인 지식으로부터 간결하고 해석 가능한 과학 공식을 자동으로 발견하는 통합 프레임워크를 제시한다. Feynman 강의의 90% 이상 물리 공식 재발견 및 재료과학 응용 분야에서 뛰어난 성능을 입증한다.

Evaluation

Overall: 4

LLM의 도메인 지식과 자가 평가 메커니즘을 창의적으로 결합하여 해석 가능한 과학 공식 자동 발견에 중요한 진전을 이룬 의미 있는 연구. Feynman 공식 검증과 재료과학 응용이 강점이나, 기술 상세도 개선과 학제 간 확장을 통해 더욱 견고해질 여지 있음.

#838 2024 4/5

Sciglm: Training scientific language models with self-reflective instruction annotation and tuning

저자: Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, Jie Tang | 날짜: 2024 | DOI: arXiv:2401.07950

Essence

![Figure 3: 다양한 LLM의 과학 벤치마크 평균 정확도](figures/fig3.webp) *다양한 파라미터 크기의 LLM들에 대한 SciGLM의 성능 개선 효과* SciGLM은 자기 성찰적(self-reflective) 주석 생성 프레임워크를 통해 고품질의 과학 지시 데이터를 자동으로 큐레이션하고, 이를 이용해 여러 언어 모델을 파인튜닝함으로써 대학 수준의 과학 추론 능력을 갖춘 과학 언어 모델을 구축한다. GPT-3.5와 GPT-4 같은 고급 LLM도 기본적인 과학 문제에서 28.52%의 낮은 정확도를 보이는 문제를 해결하기 위해, 물리, 화학, 수학, 형식적 증명(Lean)을 포함하는 254,051개의 고품질 과학 지시문을 포함한 SciInstruct 데이터셋을 구축했다.

Evaluation

Overall: 4

SciGLM은 과학 도메인 LLM 훈련을 위한 자동화된 고품질 데이터셋 구축이라는 실질적 문제를 해결하며, 자기 성찰적 비판-개선 프레임워크는 데이터 부족 분야의 확장성 있는 솔루션을 제시한다. 다만 절대 정확도 수준은 여전히 GPT-4에 미치지 못하고, 도메인 간 균형 개선과 더 복잡한 과학 문제 포

#839 2025 4/5

Training a Scientific Reasoning Model for Chemistry

저자: Siddharth Narayanan, James D. Braza, Ryan-Rhys Griffiths, Albert Bou, G. Wellawatte | 날짜: 2025 | DOI: 10.48550/arXiv.2506.17238

Essence

화학 도메인을 위해 특화된 추론 모델(reasoning model)을 강화학습으로 훈련하면, 추가 도메인 사전학습 없이도 일반 목적 모델과 전문가를 능가하는 성능을 달성할 수 있음을 입증하는 연구이다. ether0라는 24B 파라미터 모델은 자연언어 추론과 화학 구조(SMILES) 출력을 통합하여 약물 발견의 핵심 단계를 지원한다.

Evaluation

Overall: 4

화학 추론을 위한 대규모 RL 기반 언어 모델 개발의 첫 사례로서, 실험 데이터 기반의 640K 문제와 375개 작업의 다양한 검증 메커니즘을 통해 데이터 효율성과 성능에서 우수성을 입증한 강력한 연구이다. 약물 발견 파이프라인 통합과 다른 과학 분야로의 확장 가능성은 높으나, 실제 합성 검증, 3D 구조 고려, 및 임상 적용 가능성에 대한 평가는 향후 과제로 남아 있다.

#840 4/5

AI Copilot Code Quality: 2025 Data Suggests 4x Growth in Code Clones - GitClear

저자: Hongjing Shao, Qian Luo, Jiayi Xia

Figure 1. Benchmark performance of instruct and reasoning variants of Seed-Coder-8B.

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Processing pipeline for pretraining data. We collected data from GitHub and web archives.* 코드 LLM 사전학습 데이터를 자동으로 큐레이션하는 모델 중심 파이프라인을 제시하고, 이를 바탕으로 8B 규모의 Seed-Coder 모델 시리즈(base, instruct, reasoning)를 개발하여 동급 오픈소스 모델을 능가하는 성능을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Seed-Coder는 인간 규칙 기반 접근법의 한계를 체계적으로 극복하고 모델 중심의 자동 데이터 큐레이션 패러다임을 성공적으로 구현했으며, 경량급(8B) 오픈소스 모델에서 동급 이상의 성능을 달성하여 향후 코드 LLM 개발의 중요한 방향을 제시한다.

Self-improving Reward Models 9 ▶

#841 2025.03 4/5

Fine-tuning large language models for domain adaptation: exploration of training strategies, scaling, model merging and synergistic capabilities

저자: Wei Lu, Rachel K. Luu, Markus J. Buehler | 날짜: 2025.03 | DOI: 10.1038/s41524-025-01564-y

Essence

![Figure 2](figures/fig2.webp) *모델 훈련, 병합 및 평가 단계. A: 기존의 선형 훈련 파이프라인(CPT→SFT→DPO/ORPO). B: 모델 병합을 포함한 대안적 파이프라인* 본 논문은 재료과학 등 전문 도메인에 대응하는 대형언어모델(LLM)의 파인튜닝 전략을 체계적으로 탐구하며, 특히 여러 미세조정 모델의 병합(model merging)이 개별 모델의 능력을 초월하는 창발적 기능(emergent capabilities)을 생성할 수 있음을 실증한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 모델 병합을 통한 창발적 기능의 실증과 도메인 특화 파인튜닝 전략의 체계적 비교를 제시하여 LLM 활용의 새로운 가능성을 제시하는 가치 있는 연구이나, 창발성의 근본 메커니즘 분석과 이론적 기초가 강화되면 더욱 영향력 있는 기여가 될 수 있다.

#842 2025 4/5

Mind the gap: Examining the self-improvement capabilities of large language models

저자: Yuda Song, Hanlin Zhang, Carson Eisenach, Sham M. Kakade, Dean Foster, Udaya Ghai | 날짜: 2025 | DOI: arXiv:2412.02674

Figure 1: 적절한 검증 방법(예: CoT-S)을 사용할 때, 상대 생성-검증 갭이 사전학습 연산량(flops)에 대해 단조증가하는 현상

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 적절한 검증 방법(예: CoT-S)을 사용할 때, 상대 생성-검증 갭이 사전학습 연산량(flops)에 대해 단조증가하는 현상* 본 논문은 대규모 언어모델(LLM)의 자기개선(self-improvement) 메커니즘을 체계적으로 분석하며, **생성-검증 갭(Generation-Verification Gap, GV-Gap)**이라는 핵심 지표를 통해 언어모델이 자신의 출력을 검증하여 성능을 개선할 수 있는 능력의 한계와 가능성을 규명한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 자기개선의 핵심 지표를 정의하고 광범위한 실증 분석을 통해 스케일링 현상을 최초로 규명한 의미 있는 연구이다. 생성-검증 갭이라는 개념이 향후 자기개선 알고리즘 설계의 중요한 기준이 될 것으로 예상되며, 다만 결과의 일반화 가능성 확대와 작동 메커니즘에 대한 더 깊은 분석이 필요하다.

#843 2025 4/5

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

저자: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie | 날짜: 2025 | DOI: 10.48550/arXiv.2501.17161

Essence

![Figure 1](figures/fig1.webp) *Figure 1: V-IRL 시각 네비게이션 환경에서 RL과 SFT의 비교 연구. OOD 곡선은 서로 다른 텍스트 액션 공간을 사용한 동일 작업의 성능을 나타냄* 본 논문은 기초 모델의 사후훈련(post-training) 단계에서 지도학습 미세조정(SFT)과 강화학습(RL)의 일반화(generalization) 능력을 비교하는 체계적 연구로, **RL은 규칙 기반 추론과 시각 작업에서 우수한 일반화 성능을 보이는 반면, SFT는 훈련 데이터의 암기(memorization)에 치중한다**는 핵심 발견을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 대규모 기초 모델 훈련에서 광범위하게 사용되는 두 주요 기법의 일반화 능력을 체계적으로 비교한 중요한 실증 연구로, "RL은 일반화, SFT는 암기"라는 명확한 구분을 통해 향후 모델 개발 전략에 실질적 지침을 제공한다. 다만 작업 범위와 모델 다양성 측면에서의 확장이 필요하며, SFT-RL 상호작용의 최적화 메커니즘에 대한 더 깊은 분석이 요구된다.

#844 2024 4/5

Table-llm-specialist: Language model specialists for tables using iterative generator-validator finetuning

저자: Ziwei Ji, Tiezheng Yu, Yan Xu, Nayeon Lee, Etsuko Ishii, Pascale Fung | 날짜: 2024

Figure 1: Performance vs. generalizability trade-offs: A visual comparison of different fine-tuning approaches for table

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Performance vs. generalizability trade-offs: A visual comparison of different fine-tuning approaches for table* 테이블 작업(데이터 정제, NL-to-SQL 등)에 특화된 언어모델을 만들기 위해 생성-검증 이중 작업의 반복적 미세조정 패러다임인 Table-Specialist를 제안한다. 수동 레이블 없이 자동 생성된 훈련 데이터로 강력한 성능과 일반화를 동시에 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

테이블 작업의 이중성을 창의적으로 활용하여 수동 레이블 없이도 높은 성능과 일반화를 동시에 달성한 혁신적 연구이다. Microsoft Excel 통합 등 실무 적용 가능성이 높으며, 특화-일반화 trade-off 문제 해결에 새로운 방향을 제시한다.

#845 2026.03 4/5

Representative, Informative, and De-Amplifying: Requirements for Robust Bayesian Active Learning under Model Misspecification

저자: Roubing Tang, Sabina J. Sloman, Samuel Kaski | 날짜: 2026.03 | DOI: 10.48550/arXiv.2506.07805

Figure 1: Illustration of error amplification and de-

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Illustration of error amplification and de-* 베이지안 최적실험설계(BOED) 하에서 모델 오명시(model misspecification)로 인한 일반화 오차를 분석하고, 대표성(representativeness), 정보성(informativeness), 오차 완화(de-amplification)를 모두 고려하는 R-IDeA 획득함수를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

모델 오명시 하 능동학습의 장기 간과된 측면(오차 완화)을 이론적으로 규명하고 실용적 해법을 제시한 중요한 기여로, 베이지안 실험설계 분야의 견고성과 신뢰성을 크게 향상시킬 수 있는 작업이다.

#846 2025 4/5

BiasFilter: An inference-time debiasing framework for large language models

저자: Xiaoqing Cheng, Ruizhe Chen, Hongying Zan, Yuxiang Jia, Min Peng | 날짜: 2025

BiasFilter의 개요: 베이스 모델과 통합되어 생성 과정 중 공정성을 주기적으로 평가하고, 편향된 출력을 필터링하는 메커니즘

Essence

![Figure 1](figures/fig1.webp) *BiasFilter의 개요: 베이스 모델과 통합되어 생성 과정 중 공정성을 주기적으로 평가하고, 편향된 출력을 필터링하는 메커니즘* BiasFilter는 추론 시간(inference-time)에 대규모 언어모델(LLM)의 사회적 편향을 완화하는 모델-무관적(model-agnostic) 프레임워크로, 모델 재학습이나 파인튜닝 없이 생성 과정 중 실시간으로 편향 출력을 필터링하는 방식을 제시한다.

Evaluation

Overall: 4

BiasFilter는 추론시간에 작동하는 모델-무관적 편향 완화 프레임워크로서, 실무적 적용성이 높고 광범위한 실험을 통해 유효성을 입증했다. 특히 API 기반 모델에도 적용 가능한 점과 생성 품질 보존은 장점이나, 계산 비용 추가, 특정 속성에 한정된 학습, 다양한 편향 유형에 대한 확장성 제약은 보완 필요 영역이다.

#847 2024 4/5

Can foundation models actively gather information in interactive environments to test hypotheses? arXiv preprint arXiv:2412.06438, 2024.

저자: Danny P. Sawyer, Nan Rosemary Ke, Hubert Soyer, Martin Engelcke, David Reichert, Drew A. Hudson, John Reid, Alexander Lerchner, Danilo Jimenez Rezende, Timothy Lillicrap, Michael C. Mozer, Jane X. Wang | 날짜: 2024 | DOI: ---

텍스트 기반 Feature World의 단순한 상태 비의존 보상 함수 학습 환경

Essence

본 연구는 파운데이션 모델(Foundation Models)의 대화형 환경에서의 능동적 탐색(active exploration) 능력을 체계적으로 평가한다. Feature World와 Alchemy 환경을 통해 효율적 정보 수집, 메타러닝(meta-learning), 전략 적응(strategy adaptation)의 세 가지 핵심 능력을 측정하며, 특히 요약(summarization) 프롬프팅이 복잡한 다중 시행 환경에서 메타러닝을 가능하게 함을 발견했다.

Evaluation

Overall: 4

본 논문은 파운데이션 모델의 대화형 탐색 능력을 최초로 체계적으로 평가하여 학계와 산업에 중요한 벤치마크와 통찰을 제공한다. 특히 요약 프롬팅을 통한 창발적 메타러닝은 기술적 관심이 높으며, Alchemy 벤치마크 도입으로 향후 연구의 기초를 마련했다. 다만 메커니즘 분석 심화와 더 복잡한 환경에서의 검증이 필요하다.

#848 2025 4/5

FRAG: A Flexible Modular Framework for Retrieval-Augmented Generation based on Knowledge Graphs

저자: Zengyi Gao, Yukun Cao, Hairu Wang, Ao Ke, Yuan Feng | 날짜: 2025 | DOI: 10.48550/arXiv.2501.09957

Modular과 Coupled KG-RAG 프레임워크의 구조적 차이

Essence

![Figure 1: Modular and Coupled KG-RAG Frameworks](figures/fig1.webp) *Modular과 Coupled KG-RAG 프레임워크의 구조적 차이* 본 논문은 지식그래프(KG) 기반 검색증강생성(RAG) 시스템에서 유연성과 검색 품질 사이의 트레이드오프를 해결하기 위해 FRAG 프레임워크를 제안한다. 쿼리의 복잡도를 자동으로 판단하여 단순/복잡 추론 작업에 맞춤형 검색 전략을 적용함으로써 LLM 미세조정 없이 모듈식 설계의 유연성을 유지하면서도 검색 품질을 향상시킨다.

Evaluation

Overall: 4

FRAG는 모듈식 KG-RAG의 성능 한계를 쿼리 기반 호프 예측과 맞춤형 파이프라인으로 우아하게 해결하는 실용적 접근법이다. LLM 미세조정을 배제하면서도 검색 품질을 향상시키는 기여는 의미 있으나, 호프 분류의 세밀도와 도메인 적응성에 대한 더욱 심화된 분석이 필요하다.

#849 2024 3/5

Axolotl: fairness through assisted self-debiasing of large language model outputs

저자: Sana Ebrahimi, Kaiwen Chen, Abolfazl Asudeh, Gautam Das, Nick Koudas | 날짜: 2024

시스템 아키텍처: 편향 방향 식별 → 불쾌한 특성 식별 → 쾌적한 해결책 제시 → 새로운 프롬프트 생성

Essence

![Figure 1](figures/fig1.webp) *시스템 아키텍처: 편향 방향 식별 → 불쾌한 특성 식별 → 쾌적한 해결책 제시 → 새로운 프롬프트 생성* AXOLOTL은 대규모언어모델(LLM)의 출력물에서 편향을 식별하고 자체 수정하도록 유도하는 포스트프로세싱 프레임워크로, 모델 내부 파라미터에 접근하지 않고 공개 API만을 이용하여 계산 비용을 최소화하면서 편향 완화를 실현한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 3

AXOLOTL은 블랙박스 LLM에 대한 실용적이고 비용 효율적인 편향 완화 기법을 제시한 혁신적 작업이나, 사전 정의된 단어 집합의 한계와 임베딩 모델 의존성이 장기 적용성을 제약한다. 공개 API 기반 접근은 산업적 가치가 높으나, 기술적 견고성과 평가 범위 확대가 필요하다.

Scientific Graphics Evaluation 5 ▶

#850 2026.01 4/5

PaperBanana: Automating Academic Illustration for AI Scientists

저자: Dawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon | 날짜: 2026.01 | DOI: 10.48550/arXiv.2601.23265

그림 1: PaperBanana가 생성한 방법론 다이어그램과 통계 플롯의 예시로, 학술 일러스트레이션 생성 자동화의 잠재력을 보여줌

Essence

![Figure 1: PaperBanana가 생성한 방법론 다이어그램과 통계 플롯 예시](figures/fig1.webp) *그림 1: PaperBanana가 생성한 방법론 다이어그램과 통계 플롯의 예시로, 학술 일러스트레이션 생성 자동화의 잠재력을 보여줌* 본 논문은 자율 AI 과학자(Autonomous AI Scientists)의 시각화 병목을 해결하기 위해, 에이전트 기반 프레임워크 PaperBanana를 제안한다. 이는 VLM(Vision Language Model)과 이미지 생성 모델을 활용하여 학술 출판 기준을 충족하는 다이어그램과 플롯을 자동으로 생성한다.

Evaluation

Overall: 4

PaperBanana는 자율 AI 과학자의 중요한 약점인 시각화 자동화를 체계적으로 해결하는 실용적이고 잘 설계된 솔루션으로, 새로운 벤치마크와 함께 학술 커뮤니티에 의미 있는 기여를 제공한다. 다만 개별 기법의 창의성과 모델 의존성에 대한 보완이 있으면 더욱 강력한 논문이 될 수 있다.

#851 2023 4/5

AutomaTikZ: Text-guided synthesis of scientific vector graphics with tikz

저자: Jonas Belouadi, Anne Lauscher, Steffen Eger | 날짜: 2023 | DOI: 10.48550/arXiv.2310.00367

그림 1: CLiMA로 생성된 과학 벡터 그래픽 예시

Essence

텍스트 설명으로부터 과학 논문용 벡터 그래픽을 자동으로 생성하기 위해 TikZ라는 추상 그래픽 언어를 중간 표현(intermediate representation)으로 활용하고, 대규모 TikZ 데이터셋(DaTikZ, 120k)을 구축하여 LLaMA와 CLIP 기반 하이브리드 모델(CLiMA)을 개발했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

텍스트-벡터 그래픽 생성의 새로운 패러다임을 제시하는 우수한 연구로, 120k 규모의 TikZ 데이터셋과 공개 모델을 제공함으로써 학술 커뮤니티에 실질적 기여를 하고 있다. 다만 데이터 품질 검증 강화와 시각적 평가 방식 개선을 통해 추가 발전 가능성이 있다.

#852 2025 4/5

Surveyforge: On the outline heuristics, memory-driven generation, and multi-dimensional evaluation for automated survey writing

저자: Xiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Lei Bai, Bo Zhang | 날짜: 2025

그림 1: AI 생성 설문과 인간 작성 설문의 비교. 윤곽(Outline)의 논리적 일관성 부족과 참고문헌(References)의 관련성 문제가 주요 과제임

Essence

![Figure 1](figures/fig1.webp) *그림 1: AI 생성 설문과 인간 작성 설문의 비교. 윤곽(Outline)의 논리적 일관성 부족과 참고문헌(References)의 관련성 문제가 주요 과제임* 본 논문은 자동화된 학술 설문지(Survey) 생성을 위한 SURVEYFORGE 프레임워크를 제안하며, 휴리스틱 기반 윤곽 생성, 메모리 기반 문헌 검색, 그리고 다차원 평가 벤치마크(SurveyBench)를 통해 AI 생성 설문과 인간 작성 설문 간의 품질 격차를 줄인다.

Evaluation

Overall: 4

본 논문은 LLM 기반 설문지 자동 생성의 실질적인 문제점(구조적 결함, 참고문헌 부정확성)을 명확히 파악하고, 휴리스틱 윤곽 생성과 메모리 기반 문헌 검색을 통해 실효성 있는 해결책을 제시하는 의미 있는 연구이다. 특히 다차원 평가 벤치마크(SurveyBench)의 구축은 해당 분야의 평가 표준화에 기여할 수 있는 강점이다.

#853 2025 4/5

TikZero: Zero-shot text-guided graphics program synthesis

저자: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Ponzetto | 날짜: 2025 | DOI: arXiv:2503.11509

Figure 1. TikZero+와 AutomaTikZv2의 정성적 비교

Essence

![Figure 2](figures/fig2.webp) *Figure 2. 그래픽 프로그램 합성을 위한 학습 데이터 가용성 비교* 텍스트 설명으로부터 TikZ 그래픽 프로그램을 생성하는 문제를 해결하기 위해, 캡션-프로그램 정렬 데이터의 부족이라는 핵심 병목을 극복하는 TikZero를 제시한다. 이 방법은 이미지 표현을 매개자로 활용하여 그래픽 프로그램 생성과 텍스트 이해를 분리함으로써, 정렬되지 않은 대규모 데이터를 독립적으로 활용할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

TikZero는 텍스트 기반 그래픽 프로그램 합성의 데이터 부족 문제를 표현 공간 정렬이라는 우아한 해결책으로 해결하며, 대규모 비정렬 데이터의 활용을 통해 상용 모델과 경쟁할 수 있는 성능을 달성한 점에서 학술적·실무적 가치가 높다. 다만 비전 모델 특화, 복잡한 프로그램 생성의 제한성, 도메인 불일치 가능성 등이 미래 연구의 과제로 남아있다.

#854 2025 3/5

Stealing creator's workflow: A creator-inspired agentic framework with iterative feedback loop for improved scientific short-form generation

저자: Jong Inn Park, Maanas Taneja, Qianwen Wang, Dongyeop Kang (University of Minnesota) | 날짜: 2025

전처리, 계획, 편집, 피드백 및 평가의 4단계로 구성된 파이프라인

Essence

![Figure 1: 다중 에이전트 비디오 생성 파이프라인의 개념적 개요](figures/fig1.webp) *전처리, 계획, 편집, 피드백 및 평가의 4단계로 구성된 파이프라인* 본 논문은 과학 논문을 짧은 형식의 동영상으로 변환하는 완전 자동화된 멀티-LLM 에이전트 프레임워크 SciTalk를 제안한다. 인간 크리에이터의 반복적 워크플로우에서 영감을 받아 피드백 루프를 통해 과학적 정확성과 시각적 품질을 향상시킨다.

Evaluation

Overall: 3

과학 논문을 짧은 형식 동영상으로 변환하는 새로운 멀티-에이전트 프레임워크를 제안한 의미 있는 초기 연구이나, 생성 결과가 인간 수준에 미치지 못하고 반복 과정의 오류 누적 문제가 해결되지 않아 현재로선 방법론 검증 단계에 머물러 있다. 더 견고한 평가, 개선된 피드백 메커니즘, 그리고 실제 산업 적용 가능성 검증이 필요하다.

Scientific Figure Captioning 6 ▶

#855 2024 4/5

SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

저자: Jonathan C. Roberts, Kai Han, Neil Houlsby, Samuel Albanie | 날짜: 2024

Essence

대규모 멀티모달 모델(LMM)의 과학 논문 그림 해석 능력을 평가하기 위한 벤치마크 SciFIBench를 제시하며, 2000개의 고품질 문제와 28개 모델의 종합 평가를 통해 현재 LMM의 과학 분야 적용 가능성을 체계적으로 검증한 연구이다.

Evaluation

Overall: 4

SciFIBench는 과학 분야의 LMM 능력 평가에 필수적인 벤치마크로서, 체계적인 문제 구성 방법론과 포괄적 평가를 통해 현재 모델의 한계를 명확히 드러낸다. 공개 릴리스와 다양한 분석을 통해 학계의 중요한 기여이나, 도메인 확대 및 평가 방식의 추가 검증이 향후 과제이다.

#856 2023 4/5

FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback

저자: Ashish Singh, Prateek Agarwal, Zixuan Huang, Arpita Singh, Tong Yu, Sungchul Kim, Victor Bursztyn, Nikos Vlassis, Ryan A. Rossi | 날짜: 2023 | DOI: 10.48550/ARXIV.2307.10867

Figure 1: RLHF Framework for Figure-Caption Generative Models - 소수의 인간 피드백 그림-캡션 쌍에서 학습한 피드백 예측 모델을 통해 대규모 학습 코퍼스에 대한 피드백 추론

Essence

과학 논문의 그림을 설명하는 캡션 생성 모델을 인간 피드백과 강화학습(RLHF)으로 최적화하는 프레임워크와 대규모 벤치마크 데이터셋을 제시한다. 기존의 낮은 품질 캡션 데이터를 학습한 모델 대신, 도메인 전문가 피드백으로 학습된 보상 모델을 통해 독자 선호도에 정렬된 고품질 캡션 생성을 달성한다.

Evaluation

Overall: 4

이 논문은 그림 캡션 생성의 현실적 문제(저품질 학습 데이터)를 인간 피드박과 오프라인 강화학습으로 효과적으로 해결하고, 대규모 공개 벤치마크 기여로 커뮤니티 가치를 제공한다. 다만 평가 메트릭 검증의 엄밀성 강화와 다양한 도메인·모델에 대한 일반화 검증이 진행되면 더욱 강한 논문이 될 수 있다.

#857 2021 4/5

SciCap: Generating Captions for Scientific Figures

저자: Ting-Yao Hsu, C Lee Giles, Ting-Hao Huang | 날짜: 2021 | DOI: 10.18653/v1/2021.findings-emnlp.277

Essence

과학 논문의 그래프, 차트 등 과학적 도형(scientific figures)에 대한 자동 캡션 생성을 위해 arXiv 논문 29만여 편에서 추출한 200만 개 이상의 실제 도형-캡션 쌍으로 구성된 대규모 데이터셋 SciCap을 구축하고, 기준 모델들을 통해 과학 도형 캡션 생성의 가능성과 과제를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

과학 도형 캡션 생성 분야에서 첫 대규모 실제 데이터셋을 제공하고 체계적인 전처리 파이프라인을 구축했다는 점에서 의의가 있으며, 시각장애인 접근성이라는 사회적 가치도 강조했으나, 한정된 도형 유형과 기본적인 모델 구조, BLEU 지표만의 평가 등에서 개선 여지가 있다.

#858 2023 4/5

SciCap+: A Knowledge Augmented Dataset to Study the Challenges of Scientific Figure Captioning

저자: Zhishen Yang, Raj Dabre, Hideki Tanaka, Naoaki Okazaki | 날짜: 2023 | DOI: 10.48550/ARXIV.2306.03491

Essence

![Figure 1](figure1.png) *그림 1: 멘션 문단과 OCR 토큰이 없으면 데이터 해석이 불가능함을 보여주는 예시* 과학 논문의 도표 캡션 자동 생성을 지식 증강 이미지 캡셔닝(knowledge-augmented image captioning) 문제로 재정의하고, 멘션 문단(mention-paragraph)과 OCR 토큰을 포함한 SciCap+ 데이터셋을 구축하여 다중모드(multimodal) 컨텍스트 정보가 캡션 생성에 미치는 영향을 분석한 연구이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

과학 논문 도표 캡션 생성을 위한 지식 증강 데이터셋 구축이라는 실용적 기여는 분명하지만, 모델 혁신이 부재하고 인간 평가 신뢰도 문제가 있어 순수 학술적 기여는 중상 수준이다. 공개 데이터셋의 가치와 컨텍스트 정보의 효과 입증이 주요 의의이다.

#859 2023 3/5

Figgen: Text to scientific figure generation

저자: J.A. Rodríguez, David Vázquez, Issam Laradji, Marco Pedersoli, Pau Rodríguez | 날짜: 2023 | DOI: arXiv:2306.00800

Figure 1: Paper2Fig100k 테스트 셋의 캡션으로부터 생성된 모델의 샘플들

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Paper2Fig100k 테스트 셋의 캡션으로부터 생성된 모델의 샘플들* 텍스트 설명으로부터 과학 논문의 도형(scientific figure)을 생성하는 새로운 문제를 제시하고, 확산 모델(diffusion model) 기반의 FigGen을 제안한 초기 탐색 연구이다. 자연 이미지와 달리 과학 도형은 이산적 컴포넌트(상자, 화살표, 텍스트)와 높은 기술적 복잡성을 포함하므로 새로운 도전과제를 제시한다.

Evaluation

Overall: 3

본 논문은 과학 도형 자동 생성이라는 미개척 문제를 처음 체계적으로 정의하고 탐색한 선도적 연구로서 학문적 가치가 있다. 다만 현재 기술 수준의 생성 품질이 실용 단계에 미치지 못하며, 도메인의 복잡성(텍스트-이미지 정렬, 이산적 구조 표현)을 완전히 해결하지 못한 초기 단계 연구이다.

#860 2023.10 3/5

PatFig: Generating Short and Long Captions for Patent Figures

저자: Dana Aubakirova, Kim Gerdes, Lufei Liu | 날짜: 2023.10 | DOI: 10.1109/ICCVW60793.2023.00305

Essence

![Figure 1](figures/fig1.webp) 본 논문은 유럽 특허청(EPO)의 11,000개 이상 특허에서 추출한 30,000개 이상의 특허 도형으로 구성된 대규모 데이터셋 **Qatent PatFig**를 소개하며, 대규모 비전-언어 모델(LVLM)을 미세조정하여 특허 도형에 대한 짧고 긴 캡션을 자동 생성하는 방법을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 3 Clarity: 4 Overall: 3

본 논문은 특허 도형 캡셔닝이라는 새로운 도메인을 개척하고 대규모 주석 데이터셋을 제공한 점에서 의미있는 기여를 하였으나, LVLM 기반 방법의 실제 성능(특히 긴 캡션)이 만족스럽지 못하고 기술적 혁신성이 부족하여 후속 연구 개선이 필요하다.

Generated by Claude Code · AI for Science Paper Curation · 2026-04-08