저자: Emmanuel A Olanrewaju | 날짜: 2026-03-20 | DOI: 10.26434/chemrxiv.15001091/v1
데이터 병렬화(Data Parallelism) 기법들의 성능 비교: (좌상) 에포크 시간, (우상) 스케일링 효율성, (좌하) 손실 수렴, (우하) 처리량
대규모 언어 모델(LLM)의 효율적인 학습 및 배포를 위해 GPU 기반 병렬화 기법들을 종합적으로 검토한 논문으로, 과학 발견 가속화를 위한 실제 적용 가이드를 제시한다. 데이터 병렬화, 텐서 병렬화, 시퀀스 병렬화, 컨텍스트 병렬화, 파이프라인 병렬화, 전문가 병렬화 등 6가지 주요 기법의 장단점과 최적 활용 조건을 실증적으로 분석한다.
DeepSpeed ZeRO 최적화: (좌) ZeRO-2와 ZeRO-3의 메모리-처리량 트레이드오프 비교, (우) 모델 크기에 따른 ZeRO 전략 선택 프레임워크
텐서 병렬화(TP) 및 시퀀스 병렬화(SP): (좌) TP 적용 전후 메모리 감소 효과, (중앙) TP+SP 결합 효과, (우) 트랜스포머 블록 내 활성화 메모리 변화
총평: 본 논문은 LLM 병렬화 기법을 과학 응용 관점에서 체계적으로 검토한 실용적 가이드로서 가치 있으나, 개념적 참신성과 기술적 완전성 측면에서 제한적이다. 특히 추상에 언급된 6가지 기법 중 3가지만 실제 구현·검증되었고 과학 분야 구체적 활용 사례 부재로 인해 과학 발견 가속화 주장의 설득력이 약하다. Preprint 단계에서 추가 기법 분석, 초대형 모델 실험, 도메인 특화 응용 사례 추가 필요.