저자: Ming Du, Yanqi Luo, Srutarshi Banerjee, Michael Wojcik, Jelena Popovic, Mathew J. Cherukara | 날짜: 2026-02-17 | DOI: N/A
Figure 1: EAA의 주요 구성 요소 및 상호작용. 작업 관리자(Task Manager)가 채팅 루프 또는 워크플로우를 포함하며, 에이전트 객체를 생성 및 유지하고 문맥을 관리한다.
본 논문은 비전 언어 모델(Vision Language Model, VLM) 기반 에이전트 시스템인 EAA(Experiment Automation Agents)를 제시하며, 이는 복잡한 미시경 실험 워크플로우를 자동화하기 위해 멀티모달 추론, 도구 기반 행동, 장기 메모리를 통합한다. Advanced Photon Source의 이미징 빔라인에서 자동 영역판 초점 맞춤, 자연언어 기반 특성 검색, 대화형 데이터 획득을 구현하여 사용자 접근성을 대폭 개선한다.
Figure 2: 실험 자동화 도구에서 LLM 개입의 세 가지 수준. 각 수준에 대해 예시를 열거한다.
Figure 3: EAA 작업 관리자의 예시 워크플로우 다이어그램. (a) 일반적인 채팅 루프 구조
Figure 4: 초점 맞춤 작업의 궤적. (a) 방문한 모든 영역판 z-위치에서 획득한 2D 이미지
Figure 5: 특성 검색 작업의 궤적 및 결과. (a) 2D 이미지 획득 중심의 궤적
총평: 본 논문은 과학 실험 자동화라는 실제 문제 영역에서 VLM 에이전트의 실용적 응용을 체계적으로 설계하고 구현한 좋은 사례를 제시한다. 특히 세 단계 LLM-논리 제어 모델과 MCP 양방향 호환성은 산업 생산 환경에서의 에이전트 신뢰성 확보와 생태계 호환성을 고려한 실용적 기여이나, 단일 시설 실증과 정량적 평가 부재로 인한 일반화 가능성과 성능 개선 정도의 객관적 입증이 약점이다.