Scalable Cross-Facility Federated Learning for Scientific Foundation Models on Multiple Supercomputers

저자: Yijiang Li, Zilinghan Li, Kyle Chard, Ian Foster, Todd Munson, Ravi Madduri, Kibaek Kim | 날짜: 2026-03-20 | DOI: 미제공


Essence

본 논문은 프라이버시 제약, 데이터 주권, 대규모 데이터 생성으로 인해 중앙화할 수 없는 과학 데이터를 다중 슈퍼컴퓨터 환경에서 연합학습(Federated Learning, FL)으로 훈련하는 확장 가능한 프레임워크를 제시하며, DOE 리더십급 슈퍼컴퓨터 4대에서의 실증을 통해 크로스-시설 FL의 실용성을 입증한다.

Motivation

Achievement

Figure 1

Figure 1: 고정 마이크로배치 크기당 처리량 스케일링. 왼쪽 패널은 처리량(초당 샘플)을 보여주며, Aurora는 64개 노드에서 2,100 샘플/초을, Perlmutter 80GB와 Frontier는 각각 1,200과 1,000 샘플/초을 달성한다.

  1. 크로스-HPC 시설 FL 프레임워크 설계 및 구현: 이질적 HPC 시설 간 훈련을 조율하고, 다양한 모델, 데이터셋, 과학 작업을 지원하며, 통신, 스케줄링, 계산 측면의 HPC 특유 도전을 해결하는 일반화 가능한 프레임워크 제시.
  2. 성능 특성화: GPU 메모리 용량에 의해 주도되는 극단적 처리량 이질성을 발견—Perlmutter 40GB는 ZeRO-3을 사용하여 250 샘플/초이지만, Perlmutter 80GB는 ZeRO-1을 사용하여 1,200 샘플/초를 달성(4배 차이). 통신 비용과 큐잉 역학 특성화를 통해 기존 FL 알고리즘의 부적절함을 드러냄.
  3. 알고리즘 평가: 예약(co-scheduled) 환경에서는 FedAvg, 현실적 큐잉 조건에서는 FedAvg, FedAsync, FedBuff, FedCompass를 평가하여, 이질적 스케줄러와 메모리 제약이 알고리즘 성능에 미치는 영향 분석.
  4. 과학적 검증: SMolInstruct 화학 명령 튜닝 데이터셋(3.3M 샘플)에서 Llama2-7B를 연합 미세조정하여 크로스-HPC 시설 FL이 대규모 과학 모델 개발을 지원함을 입증.

How

Figure 2

Figure 2: 예약된 환경에서 모든 4개 슈퍼컴퓨터에 걸친 FedAvg의 훈련 역학

Figure 3

Figure 3: 2개 노드를 사용한 현실적 큐잉 조건 하에서 4가지 FL 알고리즘의 테스트 손실 진행

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4.5/5 Overall: 4.5/5

총평: 본 논문은 과학 응용을 위한 크로스-시설 연합학습의 실용성을 리더십급 HPC 환경에서 처음으로 포괄적으로 입증하였으며, GPU 메모리-통신 트레이드오프와 스케줄러 이질성이라는 구체적 병목을 드러내어 향후 HPC-aware FL 알고리즘 설계에 중요한 기초를 제공한다. 다만 대규모 현실적 조건 평가와 프라이버시 보장 검증 강화가 필요하다.

같이 보면 좋은 논문

다른 접근
크로스-시설 연합학습과 GNoME의 중앙화된 대규모 학습은 과학 파운데이션 모델 훈련에 대한 상반된 접근법이다.
후속 연구
시뮬레이션 기반 추론을 연합학습 환경에서 구현하여 분산된 과학 시뮬레이션 데이터로부터 협력적 모델 개발이 가능하다.
응용 사례
SCANPY의 확장 가능한 데이터 분석 아키텍처가 크로스-시설 연합학습에서 분산된 생물학 데이터를 효율적으로 처리하는 데 활용될 수 있다.
응용 사례
연합학습 프레임워크가 분산된 과학 데이터로 재료과학 파운데이션 모델을 프라이버시를 보장하며 훈련하는 실용적 방법을 제공한다.
← 목록으로 돌아가기