저자: Indrajeet Mandal, Jitendra Soni, Mohd Zaki, Morten M. Smedskjær, Katrin Wondraczek, Lothar Wondraczek, Nitya Nand Gosvami, N. M. Anoop Krishnan | 날짜: 2024 | DOI: 미제공
대규모 언어모델(LLM) 기반 자동화 현미경 실험 시스템(AILA)을 구축하고, 원자력 현미경(AFM) 실험의 완전한 과학적 워크플로우를 평가하는 종합 벤치마크(AFMBench)를 개발했다. 최첨단 AI 모델들도 기본 작업에서 어려움을 겪으며, 도메인 특화 질의응답 성능이 실제 에이전트 능력으로 전환되지 않음을 밝혔다.
그림 1: AILA 프레임워크 및 구현. (a) 시스템 아키텍처 (b) AFM 실험 설정 (c) 사용자 쿼리 해석에서 실행까지의 대표적 동작 예시
그림 2: AFMBench 과제 분포 및 모듈 활용. (a) 도구 및 에이전트 요구사항 분포 (b) 작업 복잡도 분류 (c) 모듈별 활용 빈도 (d-e) 작업 유형 및 복잡도 예시
총평: 본 논문은 LLM 기반 자동화 실험실의 신뢰성을 체계적으로 검증하는 현실적이고 중요한 연구로, 도메인 QA 성능과 실무 능력의 불일치 현상 같은 중요한 통찰을 제시한다. 다만 AFM 특화 평가, 프롬프트 불안정성의 근본 원인 분석 미흡, 그리고 현재 모델의 저조한 성능으로 인해 실제 배포에 이르는 경로는 아직 명확하지 않다는 점이 한계이다.