Seed-coder: Let the code model curate data for itself

저자: ByteDance Seed, Yuyu Zhang, Jing Su, Yifan Sun, Chenguang Xi, Xia Xiao, Zheng Shen, A. Q. Zhang, Kaibo Liu, Daoguang Zan, Tao Sun, J. Zhu, Shijie Xin, Dong Huang, Y. Bai, Lixin Dong, C. J. Li, Jianchong Chen, Hao Zhou, Yifan Huang | 날짜: 2025 | DOI: arXiv:2506.03524


Essence

Figure 1

그림 1. Seed-Coder-8B 지시어(Instruct)와 추론(Reasoning) 변형의 벤치마크 성능 비교

본 논문은 코드 데이터 전처리 과정에서 인간의 수작업 필터링 규칙에 의존하지 않고, LLM 기반 자동 필터링을 활용하여 6조 토큰의 고품질 코드 사전학습 데이터를 구축한 Seed-Coder 모델 시리즈를 제시한다. 동일 규모의 오픈소스 모델을 능가하고 더 큰 모델과도 경쟁력 있는 성능을 달성한다.

Motivation

Achievement

Figure 2

그림 2. 사전학습 데이터 처리 파이프라인. GitHub와 웹 아카이브에서 수집한 데이터를 네 가지 범주(파일 수준, 저장소 수준, 커밋, 웹 데이터)로 분류하고 LLM 기반 품질 필터와 최소한의 규칙을 적용

  1. 모델 기반 필터링의 성공: LLM을 이용한 품질 필터(Quality Scorer)가 수작업 규칙보다 우수한 성능을 보였다. 정확도, 일관성, 대규모 처리 능력에서 인간적 개입을 최소화하면서도 높은 필터링 품질 달성.
  2. 벤치마크 우위성: 동일 규모(8B) 오픈소스 모델(Qwen2.5-Coder-7B, DeepSeek-Coder-V2-Lite, OlympicCoder-7B)을 능가하고, 더 큰 모델들과도 경쟁 가능한 성능. 특히 코드 생성(code generation), 코드 완성(code completion), 코드 편집(code editing), 다단계 추론(multi-step reasoning), 소프트웨어 엔지니어링 작업에서 우수한 성능.
  3. 대규모 고품질 데이터 구축: 6조 토큰의 중복 제거된 코드 사전학습 코퍼스 구축. 원본 데이터의 약 98% 감소를 통해 효율적이고 관리 가능한 고품질 데이터셋 확보.

How

Figure 3

그림 3-5. LLM 기반 품질 평가 파이프라인 및 예시

사전학습(Pretraining) 단계

사후학습(Post-training) 단계

오염 제거(Decontamination)

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5

총평: Seed-Coder는 코드 데이터 큐레이션의 근본적인 방식을 재정의하여, 인간의 수작업 규칙 대신

같이 보면 좋은 논문

기반 연구
동일한 Seed-Coder 모델에 대한 기술적 기반을 제공하므로 코드 생성 모델의 발전 과정을 이해할 수 있다
기반 연구
코드 생성 언어모델의 기초 연구에서 자율적 데이터 큐레이션까지의 발전 과정을 이해할 수 있다
다른 접근
코드 생성 특화 모델과 일반적 추론 능력을 강화한 모델의 서로 다른 발전 방향을 비교할 수 있다
후속 연구
StarCoder에서 Seed-Coder로 이어지는 코드 언어모델의 데이터 처리 방법론 진화를 보여준다
← 목록으로 돌아가기