Assisting in writing wikipedia-like articles from scratch with large language models

Essence

STORM은 Wikipedia와 같은 장문의 기사를 처음부터 작성할 때 필요한 사전 작성 단계(pre-writing stage)를 자동화한다. 다양한 관점의 질문 제시를 통해 주제를 연구하고 아웃라인을 생성한다.

본 논문은 대규모 언어모델(LLM)을 활용하여 Wikipedia 수준의 장문 기사를 처음부터 작성하는 문제를 다루며, 특히 사전 작성 단계에서의 주제 연구와 아웃라인 생성에 초점을 맞춘다. STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking) 시스템을 제안하여 다양한 관점에서의 질문 생성과 정보 수집을 통해 체계적인 아웃라인을 자동으로 구성할 수 있음을 보인다.

Motivation

Known: LLM은 우수한 쓰기 능력을 보유하고 있으나, 장문의 근거 있는 기사 생성 능력은 미흡하다. 기존 Wikipedia 생성 연구는 사전 작성 단계를 간과하고, 사전에 제공된 참고문헌이나 아웃라인을 가정한다.
Gap: Wikipedia 기사와 같은 품질의 장문 기사를 처음부터 생성하려면 (1) 신뢰할 수 있는 참고자료 수집, (2) 체계적인 아웃라인 작성이라는 어려운 사전 작성 단계가 필수적이나, 기존 연구에서 이를 다루지 않았다.
Why: 직접 프롬프팅(Direct Prompting)은 피상적인 "What/When/Where" 질문만 생성하며, 단순 검색 기반 검색-생성(RAG)도 깊이 있는 정보 수집에 불충분하다. 인간의 학습 이론에 따르면 효과적인 질문 제시가 정보 습득의 핵심이다.
Approach: 다양한 관점 발견과 반복적인 대화형 질문 생성을 통해 체계적으로 주제를 연구하고, 이를 바탕으로 포괄적인 아웃라인을 구성하는 STORM 시스템을 제안한다.

Achievement

STORM은 관련 Wikipedia 기사 조사를 통해 다양한 관점을 식별하고, 각 관점에 따라 질문을 생성하여 신뢰할 수 있는 온라인 소스에서 정보를 수집하는 7단계 프로세스로 구성된다.

평가 데이터셋 구축: LLM의 사전학습 이후 생성된 고품질 Wikipedia 기사들을 수집한 FreshWiki 데이터셋을 구성하여, 데이터 누출 문제를 해결하고 최신 주제를 다룰 수 있도록 했다.
아웃라인 평가 지표 개발: 헤딩 소프트 리콜(heading soft recall)과 헤딩 엔티티 리콜(heading entity recall)의 두 가지 지표를 도입하여 생성된 아웃라인의 품질을 체계적으로 평가할 수 있게 했다.
STORM의 우수성 입증: 기존 아웃라인 기반 RAG 베이스라인 대비 STORM이 생성한 기사가 구성(organization) 면에서 25% 절대 증가, 포괄성(coverage) 면에서 10% 증가의 성과를 거뒀으며, Wikipedia 편집자들의 전문가 평가에서도 우수성을 확인했다.

How

STORM의 8단계 프로세스: ①주제 관련 기사 조사, ②다양한 관점 식별, ③관점별 질문 생성 및 답변 수집, ④쿼리 분할, ⑤검색 및 정제, ⑥정보 종합, ⑦LLM 기반 직접 생성, ⑧최종 아웃라인 정제

관점 발견 단계: 주어진 주제와 관련된 Wikipedia 기사들을 검색하여 분석함으로써, 주제를 다루는 데 있어 다양한 관점(예: 사건 기획자, 역사학자, 경제학자 등)을 자동으로 식별한다.
관점 기반 질문 생성: 각 관점으로 LLM을 구성(personify)하여 해당 관점에서 중요하게 여길 만한 질문들을 생성한다. 이를 통해 단순한 사실 질문을 넘어 다층적 관점을 반영한 질문이 생성된다.
대화형 반복 연구: 생성된 질문에 대한 답변(인터넷 소스 기반)을 제공받고, 이에 기반한 후속 질문을 반복적으로 생성하여 깊이 있는 정보 수집을 가능하게 한다.
정보 수집 및 정제: 다양한 관점에서 수집된 대화 내용들과 LLM의 내재 지식을 결합하여 최종 아웃라인을 큐레이션한다.
기사 생성: 생성된 아웃라인과 수집된 참고자료를 바탕으로 섹션별로 확장하여 완전한 Wikipedia 스타일의 장문 기사를 작성한다.

Originality

다단계 아키텍처의 혁신: 사전 작성 단계를 명시적으로 모델링하고, 직접 생성/관점 기반 생성/대화형 질문 생성이라는 세 가지 질문 방식을 비교 제시함으로써 LLM의 연구 능력 향상 방안을 제시했다.
인간 중심 이론의 적용: 교육학의 사전 작성 이론(Rohman, 1965)과 이해관계자 이론(stakeholder theory)을 결합하여, 다양한 관점이 더 나은 정보 수집을 이끈다는 가설을 검증한다.
새로운 평가 프레임워크: 장문 기사 생성 평가의 복잡성을 해결하기 위해 아웃라인 평가에 초점을 맞춘 새로운 지표들(헤딩 소프트 리콜, 헤딩 엔티티 리콜)을 개발했다.
최신 벤치마크 데이터셋: 학습 데이터 누출을 피하기 위해 모델 학습 이후의 Wikipedia 기사만을 선별한 FreshWiki 데이터셋을 구축했다.

Limitation & Further Study

출처 편향 전이(Source Bias Transfer): 인터넷에 존재하는 편향이 생성된 기사에 그대로 반영되는 문제가 발생할 수 있으며, 이를 해결하기 위한 방안이 필요하다.
무관한 사실 간의 부당한 연결(Over-association): LLM이 관계없는 여러 사실들을 부당하게 연결하는 경향이 있으며, 이는 사실 검증 메커니즘의 강화를 통해 개선되어야 한다.
인용 정확성: 현재 시스템은 완전한 인용(citation) 추적을 완벽하게 수행하지 못하며, 각 문장의 출처를 더욱 정확히 추적할 필요가 있다.
평가의 확장성: 현재는 Wikipedia 기사에 국한된 평가이므로, 다른 형태의 장문 기사(학술 리뷰, 기술 문서 등) 생성으로의 확장 검증이 필요하다.
비영어권 언어: 대부분의 실험이 영어 Wikipedia에 기반하고 있어, 다국어 기사 생성으로의 확장 가능성을 탐색해야 한다.

Evaluation

총평: 본 논문은 LLM을 이용한 장문 기사 생성에서 사전 작성 단계의 중요성을 재조명하고, 다양한 관점 기반의 대화형 질문 생성을 통해 체계적인 정보 연구를 자동화하는 STORM 시스템을 제시함으로써, 학술적으로나 실무적으로 중요한 기여를 한다. 특히 새로운 데이터셋과 평가 지표의 제공, 그리고 Wikipedia 편집자들의 전문가 평가를 포함한 종합적 검증이 강점이나, 출처 편향과 사실 관계의 정확성 문제는 향후 해결해야 할 과제로 남아있다.

같이 보면 좋은 논문

기반 연구

Generating full length wikipedia biographies: The impact of gender bias on the retrieval-based generation of women biographies

처음부터 위키피디아 스타일 글 작성을 지원하는 기반 시스템입니다.

기반 연구

PaperQA: Retrieval-Augmented Generative Agent for Scientific Research

검색 증강 생성 기법이 STORM 시스템의 정보 수집 단계에 활용된다.

다른 접근

SciReviewGen: a large-scale dataset for automatic literature review generation

문헌 리뷰 생성과 Wikipedia 기사 작성은 모두 다중 문서 종합 작업이다.

다른 접근

PaperQA: Retrieval-Augmented Generative Agent for Scientific Research

검색 증강 생성의 과학 연구 적용과 Wikipedia 기사 작성의 다른 활용법이다.

다른 접근

SciReviewGen: a large-scale dataset for automatic literature review generation

자동 문헌 리뷰 생성과 Wikipedia 기사 작성 모두 다중 문서 종합 작업이다.

후속 연구

Hierarchical catalogue generation for literature review: a benchmark

계층적 카탈로그 생성을 통해 Wikipedia 기사의 구조화된 아웃라인을 개선한다.