저자: Syed Asad Rizvi, Daniel Levine, Aakash Patel, Shiyang Zhang, Eric Wang, Curtis Jamison Perry, Ivan Vrkic, Nicole Mayerli Constante, Zirui Fu, Sizhuang He, David Zhang, Cerise Tang, Zhuoyang Lyu, Rayyan Darji, Chang Li, Emily Sun, David Jeong, Lawrence Zhao, Jennifer Kwan, David Braun, Brian Hafler, Hattie Chung, Rahul M. Dhodapkar, Paul Jaeger, Bryan Perozzi, Jeffrey Ishizuka, Shekoofeh Azizi, David Van Dijk | 날짜: 2025-04-17 | DOI: 10.1101/2025.04.14.648850
Figure 2: C2S-Scale는 scRNA-seq 데이터와 자연언어를 통합하여 LLM을 이용한 단일세포 분석 수행
단일세포 RNA 시퀀싱 데이터를 "세포 문장(cell sentence)" 형태의 텍스트로 변환하여 대규모언어모델(LLM)로 처리하는 Cell2Sentence 프레임워크를 270억 개의 파라미터로 확장함으로써, 전사체 데이터와 생물학적 텍스트 정보를 통합한 차세대 단일세포 분석 플랫폼을 구현했다.
Figure 1: C2S 프레임워크의 다차원적 확장 - 모델 용량, 데이터 크기, 다중 모달리티, 다중세포 지원, 생물학적 스케일 통합
Figure 3: C2S-Scale이 전사체 재단 모델과 일반 LLM을 모두 능가한 다양한 작업 성능
Figure 4: 모델 용량 증가에 따른 일관된 스케일링 성능
총평: 이 논문은 대규모 LLM의 스케일링 효과를 단일세포 생물학에 처음 체계적으로 입증하고, 전사체 데이터와 자연언어의 통합을 전례 없는 규모(50M 세포, 1B 토큰)로 달성한 획기적 연구이다. Cell2Sentence 프레임워크의 우아한 설계, GRPO 강화학습 응용, scFID 평가 지표 개발 등에서 높은 독창성을 보이며, 공개 모델 및 자원 공개로 생물학 커뮤니티에 실질적 기여를 할 것으로 예상된다. 다만 해석가능성 부재와 계산 비용 측면에서는 개선이 필요하며, 논문의 일부 기술적 세부사항(특히 GRPO 적용 방식, scFID 검증 방법)이 다소 간략하게 기술된 점이 아쉽다.