OLMo: Accelerating the Science of Language Models

저자: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi | 날짜: 2024-06-07 | DOI: 10.48550/arXiv.2402.00838

Essence

Figure 1: Accuracy score progression of OLMo-7B on 8 core end-tasks score from Catwalk evaluation suite

OLMo는 훈련 데이터, 훈련 코드, 평가 도구까지 모두 공개한 완전 개방형 언어 모델(Open Language Model)이다. 이를 통해 언어 모델에 대한 과학적 연구를 가능하게 한다.

Motivation

Known: 언어 모델은 NLP 연구와 상용 제품에 널리 사용되고 있다. 그러나 상업적 가치가 높아지면서 가장 강력한 모델들은 독점 인터페이스 뒤에 숨겨져 훈련 데이터와 아키텍처 세부사항이 비공개되고 있다.
Gap: 현존 공개 모델들은 모델 가중치와 추론 코드만 공개하거나 부분적 정보만 제공하고 있어, 모델의 편향성(bias), 위험성, 설계 선택의 영향 등을 과학적으로 연구하기 어렵다.
Why: 완전히 개방된 언어 모델에 접근할 수 있어야 모델의 강점, 약점, 편향성, 위험성을 과학적으로 연구할 수 있으며, 언어 모델 과학 발전과 새로운 혁신을 촉진할 수 있다.
Approach: OLMo 프레임워크는 데이터 수집부터 훈련, 평가까지 전체 파이프라인을 공개한다. Dolma 데이터셋, 훈련/평가 코드, 중간 체크포인트, 훈련 로그를 모두 Apache 2.0 라이선스로 공개한다.

Achievement

Figure 1: Accuracy score progression of OLMo-7B on 8 core end-tasks score from Catwalk evaluation suite

완전 개방형 모델 공개: 1B, 7B 규모의 여러 아키텍처 변형 모델을 2T 이상의 토큰으로 훈련하여 공개
Dolma 데이터셋: Common Crawl, GitHub, Reddit, Semantic Scholar, Project Gutenberg, Wikipedia로부터 2.668조 토큰의 다양한 프리트레이닝 데이터 공개
포괄적 도구 및 자료: 훈련 코드, 추론 코드, 평가 프레임워크(Catwalk, Paloma), 데이터 큐레이션 도구, WIMBD 데이터셋 분석 도구 제공
적응(Adaptation) 시연: TULU 데이터와 설정을 이용한 지시문 미세조정(instruction finetuning)으로 채팅 보조 모델 개발 가능성 입증

How

Figure 2: Bits per byte on 11 evaluation data sources from Paloma and their combination (Magnusson et al., 2023),

Decoder-only Transformer 아키텍처 채택 (PaLM, LLaMA 등의 개선사항 적용)
편향 제거(no biases), 비매개변수 계층 정규화(non-parametric layer norm) 적용
SwiGLU 활성화 함수 및 회전 위치 임베딩(RoPE) 사용
고성능 데이터 큐레이션 파이프라인: 언어 필터링 → 품질 필터링 → 내용 필터링 → 중복 제거 → 다중 소스 혼합 → 토큰화
AdamW 옵티마이저 사용 (beta 0.9, 0.95)
수백 개의 중간 체크포인트를 HuggingFace 리비전으로 제공
훈련 로그와 정확한 데이터셋 구성 정보 공개

Originality

모델 가중치 외에도 훈련 데이터 전체, 훈련 코드, 중간 체크포인트, 훈련 로그까지 모두 공개하는 진정한 의미의 '완전 개방'을 구현
Dolma라는 독립적이고 재사용 가능한 대규모 프리트레이닝 데이터셋 구축 및 공개
고성능 데이터 큐레이션 도구와 데이터셋 분석 도구(WIMBD) 오픈소스 제공으로 재현성 강화
Pythia, BLOOM 등 선행 작업을 개선하면서도 Llama 2 수준의 최신 성능 달성

Limitation & Further Study

7B 규모에 집중되어 있어 더 대규모 모델(10B 이상)에 대한 경험 부족
훈련 데이터가 2.6조 토큰으로 제한되어 더 큰 모델 훈련에는 추가 데이터 필요
모델 안전성(safety alignment) 및 유해성 완화(harm mitigation)에 대한 상세 논의 부족
특정 하드웨어 설정에 최적화되어 다른 환경에서의 재현성 검증 필요
후속 연구: 더 큰 규모의 모델 공개, 더 많은 언어와 도메인을 포함한 다양한 데이터셋 구축, 안전 정렬 기법 개발, 계산 효율성 개선

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: OLMo는 진정한 의미의 완전 개방형 언어 모델을 제공함으로써 언어 모델 연구의 투명성과 재현성을 획기적으로 향상시킨다. 데이터, 코드, 도구까지 모두 공개하는 이 종합적인 접근은 학술 커뮤니티에 큰 기여를 하며 향후 언어 모델 연구의 새로운 방향을 제시한다.

같이 보면 좋은 논문

기반 연구

Accelerating science with human-aware artificial intelligence

완전 개방형 언어모델의 투명성과 재현가능성 원칙이 약물 발견 AI 모델의 신뢰성 있는 통합에 필수적 기반을 제공한다.

기반 연구

Accelerating science with human-aware artificial intelligence

완전 개방형 언어모델 OLMo의 투명성 원칙이 약물 발견 AI 모델의 신뢰성 확보에 필요한 기반을 제공한다.

기반 연구

Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE

OLMo의 완전 공개 접근법이 학습분석 분야 공개 데이터셋의 투명성과 재현가능성 모범 사례 수립에 방법론적 기반을 제공한다.

후속 연구

Embracing Foundation Models for Advancing Scientific Discovery

과학 분야 LLM의 데이터 중심 분석을 완전 개방형 언어모델 OLMo의 투명한 과학적 연구 방법론으로 확장한다.

후속 연구

Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE

언어모델 과학 연구를 위한 완전 공개 접근법을 교육 분야 공개 데이터셋의 모범 사례와 품질 기준으로 확장한다.

응용 사례

Embracing Foundation Models for Advancing Scientific Discovery

OLMo의 완전 공개 방법론이 과학 분야 LLM의 270개 데이터셋과 190개 벤치마크 투명성 확보의 실질적 구현 사례를 보여준다.

← 목록으로 돌아가기