Generating full length wikipedia biographies: The impact of gender bias on the retrieval-based generation of women biographies

저자: Angela Fan, Claire Gardent | 날짜: 2022 | DOI: N/A


Essence

Figure 1

모델 아키텍처: 웹 검색 결과에서 관련 정보를 검색(retrieval)한 후, 섹션별로 위키피디아 전기문을 생성하고 인용문을 추가하는 end-to-end 시스템

본 논문은 웹 검색 기반 정보 검색(retrieval-augmented generation)과 사전학습 모델을 활용하여 전체 길이의 위키피디아 전기문을 자동 생성하는 시스템을 제시하며, 특히 웹상 정보가 부족한 여성 인물 전기 생성에서 성별 편향의 영향을 분석한다.

Motivation

Achievement

Figure 2

Libbie Hyman(동물학자)의 Work 섹션 생성 사례: 검색된 정보를 바탕으로 자연스러운 문장 생성 및 인용 추가

  1. 여성 전기 데이터셋 구축: 1,527개의 여성 인물 위키피디아 전기 평가 데이터셋 구축으로 웹 정보 부족 시나리오 분석
  2. 장문 생성 모델 개발: 섹션별 생성과 Transformer-XL 캐싱을 통해 장문 일관성 유지 및 신뢰성 있는 인용 추가 달성
  3. 성별 편향 정량화: 여성 전기(검색 어려움) vs 일반 전기(검색 용이) 간 생성 성능 차이를 ROUGE-L, entailment, 개체명 커버리지로 분석
  4. 대규모 인간 평가: 생성 전기의 사실성(factuality)과 정보 커버리지(coverage)를 인간 평가로 검증

How

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 장문 위키피디아 전기 자동 생성이라는 도전적인 과제를 검색-생성 아키텍처로 해결하며, 여성 인물에 대한 웹 정보 부족이 생성 품질에 미치는 영향을 처음으로 정량화한 점에서 의의가 있다. 다만 검색 결과의 품질에 대한 과도한 의존성과 자동 평가 지표의 제한성이 실무 적용을 위해 개선되어야 할 과제이다.

같이 보면 좋은 논문

기반 연구
처음부터 위키피디아 스타일 글 작성을 지원하는 기반 시스템입니다.
다른 접근
위키피디아 전기문 생성과 과학 논문 캡션 생성이라는 서로 다른 장르의 텍스트 생성 문제입니다.
후속 연구
검색 증강 생성 방법론을 장문 생성과 편향 분석으로 확장한 연구입니다.
응용 사례
에이전틱 검색 증강 생성 기법을 전기문 작성에 구체적으로 적용한 사례입니다.
← 목록으로 돌아가기