저자: Yijia Shao, Yucheng Jiang, Theodore A. Kanell, Peter Xu, Omar Khattab, Monica S. Lam (Stanford University) | 날짜: 2024 | DOI: arXiv:2402.14207
STORM은 Wikipedia와 같은 장문의 기사를 처음부터 작성할 때 필요한 사전 작성 단계(pre-writing stage)를 자동화한다. 다양한 관점의 질문 제시를 통해 주제를 연구하고 아웃라인을 생성한다.
본 논문은 대규모 언어모델(LLM)을 활용하여 Wikipedia 수준의 장문 기사를 처음부터 작성하는 문제를 다루며, 특히 사전 작성 단계에서의 주제 연구와 아웃라인 생성에 초점을 맞춘다. STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking) 시스템을 제안하여 다양한 관점에서의 질문 생성과 정보 수집을 통해 체계적인 아웃라인을 자동으로 구성할 수 있음을 보인다.
STORM은 관련 Wikipedia 기사 조사를 통해 다양한 관점을 식별하고, 각 관점에 따라 질문을 생성하여 신뢰할 수 있는 온라인 소스에서 정보를 수집하는 7단계 프로세스로 구성된다.
STORM의 8단계 프로세스: ①주제 관련 기사 조사, ②다양한 관점 식별, ③관점별 질문 생성 및 답변 수집, ④쿼리 분할, ⑤검색 및 정제, ⑥정보 종합, ⑦LLM 기반 직접 생성, ⑧최종 아웃라인 정제
총평: 본 논문은 LLM을 이용한 장문 기사 생성에서 사전 작성 단계의 중요성을 재조명하고, 다양한 관점 기반의 대화형 질문 생성을 통해 체계적인 정보 연구를 자동화하는 STORM 시스템을 제시함으로써, 학술적으로나 실무적으로 중요한 기여를 한다. 특히 새로운 데이터셋과 평가 지표의 제공, 그리고 Wikipedia 편집자들의 전문가 평가를 포함한 종합적 검증이 강점이나, 출처 편향과 사실 관계의 정확성 문제는 향후 해결해야 할 과제로 남아있다.