저자: Nicholas D. Youngblut, Christopher Carpenter, Jaanak Prashar, Chiara Ricci-Tam, Rajesh Ilango, Noam Teyssier, Silvana Konermann, Patrick D. Hsu, Alexander Dobin, David P. Burke, Hani Goodarzi, Yusuf H. Roohani | 날짜: 2025 | DOI: 10.1101/2025.02.27.640494
scBaseCamp은 종(species)과 조직(tissue)에 걸쳐 2억 3천만 개 이상의 세포를 포함하는 가장 큰 공개 단일 세포 유전자 발현 데이터셋 저장소이다.
AI 에이전트 기반의 자동화된 워크플로우를 통해 공개 10X Genomics 단일세포 RNA 시퀀싱 데이터를 발굴하고 표준화된 방식으로 처리하여, 가장 규모가 크고 다양한 단일세포 데이터 저장소 scBaseCamp를 구축했다. 이는 AI 기반 가상세포 모델 개발을 위한 훈련 데이터로 활용될 수 있으며, 데이터 처리 파이프라인의 표준화를 통해 분석 아티팩트를 최소화한다.
scBaseCamp의 규모와 다양성: (A) 인간, 마우스, 제브라피시, 초파리의 조직별 색상 UMAP, (B-C) CZ CELLxGENE과의 종과 조직 분포 비교, (D) SRAgent의 자동 조직 주석과 CZ CELLxGENE 레이블의 일치도
AI 기반 큐레이션 및 표준화된 처리: (A) SRAgent의 계층적 AI 파이프라인, (B) scRecounter의 Nextflow 기반 처리 워크플로우, (C) 다양한 특성 주석 및 멀티맵핑 전략
총평: scBaseCamp는 AI 에이전트 기반 자동화 및 표준화된 대규모 재처리를 통해 단일세포 생물학과 AI 모델 개발을 위한 획기적인 자원을 제공하며, 지속적 확장 메커니즘은 이 분야의 향후 발전을 크게 가속화할 것으로 예상된다. 다만 기술적 세부사항과 정량적 검증 데이터의 보강이 필요하다.