저자: Ozan Gökdemir, Carlo Siebenschuh, Alexander Brace, Azton I. Wells, Brian Hsu, Kyle Hippe, Priyanka V. Setty, Aswathy Ajith, J. Gregory Pauloski, Varuni Sastry, Sam Foreman, Huihuo Zheng, Heng Ma, Bharat Kale, Nicholas Chia, Tom Gibbs, Michael E. Papka, Thomas Brettin, Francis J. Alexander, Anima Anandkumar | 날짜: 2025 | DOI: 10.1145/3732775.3733586
HiPerRAG 워크플로우: 멀티모달 문서 파싱(Oreo), 질의-인식형 인코더 미세조정(ColTrast), 그리고 대규모 벡터 검색을 통합한 과학 문헌 RAG 시스템
본 논문은 360만 개 이상의 과학 논문을 처리하기 위해 고성능 컴퓨팅(HPC)을 활용한 검색-증강 생성(RAG) 시스템 HiPerRAG를 제시하며, 과학 문헌의 복잡한 구조를 처리하는 새로운 문서 파싱 기법(Oreo)과 과학 텍스트 특화 인코더(ColTrast)를 개발했다.
1) 과학 논문의 다양한 레이아웃(표, 그림, 수식)에서 의미 있는 텍스트 파싱의 어려움
2) 과학 콘텐츠 특화 인코더 개발의 필요성 (일반 목적 인코더는 과학 텍스트에서 부진)
3) 과학 문헌 평가 벤치마크의 부재
Oreo 파싱 워크플로우: YOLO 기반 레이아웃 감지 → 영역별 선택적 처리(추출 또는 OCR)
ColTrast 인코더 워크플로우: 질의 샘플링 → 대조학습 → 후기-상호작용 기법 적용
총평: 본 논문은 대규모 과학 문헌 처리를 위한 RAG 시스템의 실용적이고 확장 가능한 솔루션을 제시한다. Oreo 파서와 ColTrast 인코더는 개별적으로 의미 있는 기여를 하며, HPC와의 통합은 산업 적용 가능성을 높인다. 다만 새로운 벤치마크 대부분이 단일 도메인(단백질 예측)에 한정되고, 검색-생성 통합 최적화, LLM 환각 저감의 근본적 해결책 제시는 미흡하다. 과학 커뮤니티의 정보 과부하 문제 해결에 기여할 실용적 시스템이지만, 학술적 혁신성 측면에서는 기존 기법의 공학적 우수 조합에 가깝다.