저자: Brian Hogan, Anmol Kabra, F. Pacheco, Laura Greenstreet, Joshua Fan, Aaron Ferber, Marta Eichemberger Ummus, Agostinho M. Brito, Olivia Graham, Lillian R. Aoki, C. Drew Harvell, Alexander S. Flecker, Carla Gomes | 날짜: 2024 | DOI: arXiv:2410.21480
Visual Retrieval-Augmented Generation(VisRAG)과 도메인 특화 도구를 결합하여 과학 이미지 분류를 수행하는 AISciVision의 워크플로우. 테스트 이미지에 대해 유사한 긍정/부정 예시를 검색한 후, LMM 에이전트가 여러 라운드에서 도구를 사용하여 분석을 정제하고 최종 예측과 추론 기록(transcript)을 생성한다.
대규모 다중모달 모델(LMM)을 과학 영상 분류 작업에 특화시키는 프레임워크로, 시각적 검색 기반 생성(VisRAG)과 도메인 특화 도구를 활용하여 해석 가능하고 신뢰할 수 있는 AI 시스템을 구현했다.
양식장(Aquaculture), 병든 피그래스(Eelgrass), 태양광 패널(Solar) 감지 작업의 예시 이미지들
총평: AISciVision은 투명성과 성능을 결합한 실용적인 과학 AI 프레임워크로, 실제 배포를 통해 과학 연구에 기여하는 점이 강점이다. 다만 기술적 세부사항과 광범위한 평가 분석이 보강되면 더욱 견고한 논문이 될 수 있다.