StarCoder 2 and the Stack v2: The next generation

저자: Anton Lozhkov, Raymond Li, Loubna Ben Allal 외 다수 (Hugging Face, ServiceNow Research, Nvidia 등) | 날짜: 2024 | DOI: arXiv:2402.19173


Essence

BigCode 프로젝트에서 개발한 StarCoder2와 The Stack v2는 619개 프로그래밍 언어를 지원하는 대규모 오픈소스 코드 데이터셋과 이를 기반으로 훈련된 3B, 7B, 15B 규모의 코드 생성 모델로, 동일 규모의 기존 모델들을 능가하고 2배 이상 큰 모델과 비교 가능한 성능을 달성했다.

Motivation

Achievement

  1. 모델 성능:
    • StarCoder2-3B: 동급 모델(StableCode-3B, DeepSeekCoder-1.3B) 대비 우수, StarCoderBase-15B 능가
    • StarCoder2-15B: CodeLlama-13B 대비 유의미하게 우수, CodeLlama-34B와 동등 또는 우수 성능
    • DeepSeekCoder-33B보다 낮은 자원 언어(D, Julia, Lua, Perl) 및 코드 추론·수학 벤치마크에서 우수
  2. 데이터셋 규모: The Stack v1 대비 4배 확대(6.4TB → 900B+ tokens), 619개 프로그래밍 언어 지원
  3. 투명성 구현: SoftWare Heritage Persistent IDentifier(SWHID) 공개로 완전한 훈련 데이터 추적성 확보, OpenRAIL 라이선스 기반 모델 공개

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

총평: 본 논문은 코드 LLM 분야에서 완전한 투명성을 구현한 획기적인 작업으로, 대규모 오픈소스 데이터셋과 이를 활용한 효율적인 모델 훈련을 통해 기존 폐쇄형 모델과 경쟁 가능한 성능을 달성했으며, 특히 다언어 지원과 거버넌스 측면에서 과학 커뮤니티에 실질적 기여를 제공한다. 다만 중간 규모(7B) 모델의 성능 이상과 copyleft 코드 제외의 정당성 심화 분석이 개선 필요 영역이다.

같이 보면 좋은 논문

기반 연구
Codex의 코드 생성 평가 방법론을 다국어 코드 생성으로 확장한 발전된 형태이다
기반 연구
StarCoder 2의 전신으로서 오픈소스 코드 생성 모델의 기초를 확립했다
후속 연구
GitHub 코드 기반 모델을 다양한 프로그래밍 언어와 과학 코딩으로 확장한 차세대 모델이다
후속 연구
StarCoder의 후속작으로서 더 많은 언어 지원과 향상된 성능을 제공하는 차세대 모델이다
후속 연구
StarCoder에서 Seed-Coder로 이어지는 코드 언어모델의 데이터 처리 방법론 진화를 보여준다
응용 사례
다국어 코드 생성 능력을 과학 연구 코딩이라는 특화된 작업에 적용하여 평가한다
← 목록으로 돌아가기