HiPerRAG: High-performance retrieval augmented generation for scientific insights

저자: Ozan Gökdemir, Carlo Siebenschuh, Alexander Brace, Azton I. Wells, Brian Hsu, Kyle Hippe, Priyanka V. Setty, Aswathy Ajith, J. Gregory Pauloski, Varuni Sastry, Sam Foreman, Huihuo Zheng, Heng Ma, Bharat Kale, Nicholas Chia, Tom Gibbs, Michael E. Papka, Thomas Brettin, Francis J. Alexander, Anima Anandkumar | 날짜: 2025 | DOI: 10.1145/3732775.3733586


Essence

Figure 1

HiPerRAG 워크플로우: 멀티모달 문서 파싱(Oreo), 질의-인식형 인코더 미세조정(ColTrast), 그리고 대규모 벡터 검색을 통합한 과학 문헌 RAG 시스템

본 논문은 360만 개 이상의 과학 논문을 처리하기 위해 고성능 컴퓨팅(HPC)을 활용한 검색-증강 생성(RAG) 시스템 HiPerRAG를 제시하며, 과학 문헌의 복잡한 구조를 처리하는 새로운 문서 파싱 기법(Oreo)과 과학 텍스트 특화 인코더(ColTrast)를 개발했다.

Motivation

1) 과학 논문의 다양한 레이아웃(표, 그림, 수식)에서 의미 있는 텍스트 파싱의 어려움

2) 과학 콘텐츠 특화 인코더 개발의 필요성 (일반 목적 인코더는 과학 텍스트에서 부진)

3) 과학 문헌 평가 벤치마크의 부재

Achievement

Figure 2

Oreo 파싱 워크플로우: YOLO 기반 레이아웃 감지 → 영역별 선택적 처리(추출 또는 OCR)

  1. 문서 파싱 성과: Oreo가 최신 파서(Nougat, Marker)와 비교하여 유사한 정확도를 유지하면서 약 10배 높은 처리량 달성. 대규모 과학 논문 코퍼스 처리에 가장 적합한 솔루션 제공.
  2. 검색 성능: ColTrast 인코더로 미세조정한 결과, SciQ에서 90% 정확도, PubMedQA에서 76% 정확도 달성. PubMedGPT 등 도메인 특화 모델과 GPT-4 같은 상용 LLM을 모두 능가.
  3. 평가 벤치마크: 단백질 상호작용(7,591 Q&A)과 단백질 기능(17,646 Q&A) 예측용 새로운 생물의학 벤치마크 개발. 검색 정확도 평가용 합성 데이터셋(BioSynthQPs, 1,500개 도메인 특화 구절) 구성.
  4. 확장성: 3개의 슈퍼컴퓨터에서 수천 개의 GPU로 확장 가능한 분산 워크플로우(Parsl 프레임워크 활용) 구현. 백만 규모 문서의 실시간 처리 가능.

How

Figure 3

ColTrast 인코더 워크플로우: 질의 샘플링 → 대조학습 → 후기-상호작용 기법 적용

문서 파싱 (Oreo)

인코더 미세조정 (ColTrast)

시스템 확장

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 대규모 과학 문헌 처리를 위한 RAG 시스템의 실용적이고 확장 가능한 솔루션을 제시한다. Oreo 파서와 ColTrast 인코더는 개별적으로 의미 있는 기여를 하며, HPC와의 통합은 산업 적용 가능성을 높인다. 다만 새로운 벤치마크 대부분이 단일 도메인(단백질 예측)에 한정되고, 검색-생성 통합 최적화, LLM 환각 저감의 근본적 해결책 제시는 미흡하다. 과학 커뮤니티의 정보 과부하 문제 해결에 기여할 실용적 시스템이지만, 학술적 혁신성 측면에서는 기존 기법의 공학적 우수 조합에 가깝다.

같이 보면 좋은 논문

기반 연구
고성능 과학 문헌 처리 시스템이 개방형 학술출판 확산에 기여할 수 있는 기술적 기반을 제공한다.
기반 연구
대규모 과학 문헌 처리 시스템이 자동화된 리뷰 생성에 필요한 기술적 기반을 제공한다.
기반 연구
자동화된 리뷰 생성에 필요한 고성능 과학 문헌 검색 시스템의 기술적 기반을 제공한다.
기반 연구
고성능 과학 문헌 검색 기술이 Agentic RAG 시스템 구축에 제공하는 핵심 인프라를 다룬다.
기반 연구
과학 문헌 처리를 위한 고성능 RAG 시스템이 과학 분야 LLM 발전에 제공하는 기술적 기반을 다룬다.
기반 연구
과학 문헌 처리를 위한 고성능 RAG 시스템 구축의 기술적 기반을 제공한다.
후속 연구
과학 문헌 처리 RAG 시스템이 구조화된 지식 그래프 생성으로 확장된 형태를 제시한다.
후속 연구
고성능 검색 증강 생성이 LLM × MapReduce-V2의 엔트로피 기반 최적화를 더욱 효율적으로 확장한다.
응용 사례
RAG와 LLM 통합 방법론을 과학 문헌 처리라는 대규모 구체적 작업에 적용한 사례를 보여준다.
응용 사례
과학 문헌 처리에 특화된 고성능 RAG 시스템의 구체적 구현을 제시한다.
응용 사례
과학 문헌 처리를 위한 고성능 RAG 시스템에서 에이전트 기반 접근의 구체적 활용을 보여준다.
응용 사례
고성능 과학 문헌 검색 기술이 글로벌 신약 자산 발굴이라는 특화된 영역에 적용되는 사례를 제시한다.
← 목록으로 돌아가기