저자: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Ning Shang, Zijia Liu, Pengfei Han, Yue Su, Haofei Yu, Jiaxuan You | 날짜: 2025 | DOI: arXiv:2505.23559
SafeScientist는 악의적이거나 위험한 프롬프트에 대해 거절 응답을 제시하며, 일반 AI 과학자 프레임워크와 달리 위험 인식(Risk-Awareness)을 통해 안전하게 고위험 주제를 다룬다.
본 논문은 LLM 기반 AI 과학자 에이전트의 자동화된 과학 발견 과정에서 발생하는 윤리적, 안전 문제를 체계적으로 해결하기 위해 SafeScientist 프레임워크를 제안한다. 이는 다층 방어 메커니즘(prompt monitoring, agent collaboration monitoring, tool-use monitoring, ethical reviewer)을 통합하여 과학 연구 파이프라인 전반에 걸쳐 안전성을 보장한다.
SafeScientist의 엔드-투-엔드 파이프라인: 입력 감지(Prompt Monitor), 다중 에이전트 토론(Discussion Stage), 도구 사용(Tool Use Stage), 논문 작성(Writing Stage)을 거쳐 SciSafetyBench 기반 공격/방어 평가를 통합.
방어 메커니즘 (Defense Methods):
연구 파이프라인:
총평: SafeScientist는 LLM 기반 AI 과학자의 윤리적, 안전한 배포를 위한 시의적절하고 포괄적인 프레임워크를 제시하며, SciSafetyBench는 과학 맥락의 고유한 위험을 체계적으로 평가할 수 있는 귀중한 자산이다. 다만, 실제 과학 환경에서의 거짓 양성 비율 감소와 더욱 정교한 대적 공격에 대한 방어 강화는 향후 과제이다.