Deepseek-coder: When the large language model meets programming–the rise of code intelligence

저자: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang | 날짜: 2024 | DOI: -


Essence

Figure 1

DeepSeek-Coder의 성능 비교

본 논문은 1.3B에서 33B 규모의 오픈소스 코드 전문 대규모 언어모델(LLM) 시리즈를 제시하며, 폐쇄형 모델인 Codex와 GPT-3.5를 능가하는 성능을 달성했다. 2조 개의 토큰으로 학습된 이 모델들은 저작권 제약 없이 상용 사용 가능한 오픈소스로 제공된다.

Motivation

Achievement

Figure 2

데이터셋 생성 절차: 데이터 크롤링 → 규칙 필터링 → 의존성 파싱 → 저장소 수준 중복 제거 → 품질 스크리닝

  1. 오픈소스 최고 성능 달성: DeepSeek-Coder-Base 33B는 모든 오픈소스 코드 모델을 능가하며, 다양한 벤치마크에서 일관되게 우수한 성능 시현
  2. 폐쇄형 모델 추월: DeepSeek-Coder-Instruct 33B가 OpenAI GPT-3.5 Turbo를 대부분의 코드 관련 벤치마크에서 초월하며, GPT-4와의 성능 격차 감소
  3. 효율적 스케일링: 7B 모델이 CodeLlama-33B(5배 더 큼)와 경쟁 가능한 성능 달성으로 매개변수 효율성 입증
  4. 상용 접근성: 허용적 오픈소스 라이센스로 제한 없는 상용 사용 허가

How

데이터 수집 및 전처리

학습 구성

Originality

Limitation & Further Study

Evaluation

총평: DeepSeek-Coder는 저장소 수준 의존성 분석이라는 신선한 접근과 철저한 데이터 관리를 통해 오픈소스 코드 모델의 새로운 기준을 수립했으며, GPT-3.5 추월 성과는 코드 AI의 민주화에 중대한 기여를 한다. 다만 의존성 추출의 정확성 검증과 언어 편향 완화가 후속 과제이다.

← 목록으로 돌아가기