저자: Yijiang Li, Zilinghan Li, Kyle Chard, Ian Foster, Todd Munson, Ravi Madduri, Kibaek Kim | 날짜: 2026-03-20 | DOI: 미제공
본 논문은 프라이버시 제약, 데이터 주권, 대규모 데이터 생성으로 인해 중앙화할 수 없는 과학 데이터를 다중 슈퍼컴퓨터 환경에서 연합학습(Federated Learning, FL)으로 훈련하는 확장 가능한 프레임워크를 제시하며, DOE 리더십급 슈퍼컴퓨터 4대에서의 실증을 통해 크로스-시설 FL의 실용성을 입증한다.
Figure 1: 고정 마이크로배치 크기당 처리량 스케일링. 왼쪽 패널은 처리량(초당 샘플)을 보여주며, Aurora는 64개 노드에서 2,100 샘플/초을, Perlmutter 80GB와 Frontier는 각각 1,200과 1,000 샘플/초을 달성한다.
Figure 2: 예약된 환경에서 모든 4개 슈퍼컴퓨터에 걸친 FedAvg의 훈련 역학
Figure 3: 2개 노드를 사용한 현실적 큐잉 조건 하에서 4가지 FL 알고리즘의 테스트 손실 진행
총평: 본 논문은 과학 응용을 위한 크로스-시설 연합학습의 실용성을 리더십급 HPC 환경에서 처음으로 포괄적으로 입증하였으며, GPU 메모리-통신 트레이드오프와 스케줄러 이질성이라는 구체적 병목을 드러내어 향후 HPC-aware FL 알고리즘 설계에 중요한 기초를 제공한다. 다만 대규모 현실적 조건 평가와 프라이버시 보장 검증 강화가 필요하다.