저자: Miguel Zabaleta, Joel Lehman (Stochastic Labs) | 날짜: 2024 | DOI: N/A
본 논문은 대규모 언어모델(LLM)을 활용하여 실제 개체(사람, 국가, 동물 등)의 속성을 추정하고 표 형식의 데이터셋을 시뮬레이션함으로써, 질적(qualitative) 가설을 정량적으로 빠르게 탐색할 수 있는 방법을 제시한다. 예를 들어 "공포 작가들이 다른 작가들보다 더 힘든 어린 시절을 보냈는가?"라는 질문을 LLM 기반 데이터 시뮬레이션으로 신속하게 프로토타이핑할 수 있다는 것을 보여준다.
LLM-driven Dataset Simulation: 개체 리스트와 속성이 주어졌을 때, 각 (개체, 속성) 조합에 대해 LLM을 쿼리하여 속성값 추정
Hypothesis-driven Dataset Simulation 파이프라인: 고수준 가설 설명에서 시작하여 속성 생성, 개체 리스트 구성, 데이터셋 시뮬레이션까지 자동화
총평: 본 논문은 LLM의 새로운 활용 방식—질적 과학 가설을 정량적으로 빠르게 프로토타이핑하는 도구—을 창의적으로 제시한다. 개념적으로 유의미하며 과학적 발견 사이클을 가속화할 수 있는 잠재력을 보여주지만, hallucination 위험, 제한적 실험 검증, 도메인 일반화 부족 등으로 인해 현 단계는 학술적 탐색(proof-of-concept) 수준으로 평가된다. 향후 RAG, 강화된 검증 절차, 더 광범위한 도메인 실험을 통해 신뢰성을 높인다면 실용적 영향력이 상당할 것으로 기대된다.