Scidqa: A deep reading comprehension dataset over scientific papers

저자: Shruti Singh, Nandan Sarkar, Arman Cohan | 날짜: 2024 | DOI: 10.18653/v1/2024.emnlp-main.1163


Essence

Figure 1

과학 논문에 대한 피어 리뷰 중 검토자-저자 토론에서 추출된 질의응답 쌍의 예시

본 논문은 과학 논문의 깊이 있는 이해를 요구하는 새로운 질의응답(QA) 데이터셋 SCIDQA를 소개한다. OpenReview 플랫폼의 피어 리뷰에서 수집한 2,937개의 QA 쌍으로 구성되어 있으며, 표, 그림, 다중 문서 추론을 포함한 복잡한 과학 텍스트 이해를 평가한다.

Motivation

Achievement

Figure 2

SCIDQA 데이터셋 구축 파이프라인: 피어 리뷰에서의 LLM 기반 QA 추출 및 인간 전문가 주석 처리

  1. 자연스러운 고품질 데이터셋: 26,085개 초기 추출 QA 쌍 중 약 41% (2,937개)를 관련성 있는 질문으로 선별하여, 기존 자동 생성 데이터셋 대비 높은 품질 확보.
  2. 다양한 추론 양식: 표(14.03%), 다중 문서(10.9%), 부록/보충 자료(10.01%), 수식/기호(10.32%), 그림(6.98%) 등 다양한 모달리티를 아우르는 복잡한 질문 포함.
  3. 장문의 질의응답: 평균 질문 길이 23.92 단어, 답변 길이 104.67 단어로 기존 데이터셋 대비 더 긴 형식, 심층적 추론 요구.
  4. 포괄적 모델 평가: 여러 오픈소스 및 상용 LLM을 다양한 설정(폐쇄형, 검색 기반, 장문맥)에서 벤치마킹하여 현재 모델들의 과학 논문 이해 능력의 한계 도출.

How

Figure 3

PaLM 모델을 사용한 질의응답 추출을 위한 프롬프트

Figure 4

삼인칭 서술로의 재작성이 필요한 질의응답 쌍의 사례

Figure 5

참고문헌 표준화: 특정 참고문헌 마크를 플레이스홀더로 대체하여 단순 참고문헌 추출 방지

Originality

Limitation & Further Study

Evaluation

총평: SCIDQA는 피어 리뷰라는 자연스러운 데이터 원천과 엄밀한 품질 관리를 통해 과학 논문의 깊이 있는 이해를 평가하는 의미 있는 데이터셋을 제공하나, 도메인 제한성과 규모의 소재 측면에서 개선 여지가 있다.

같이 보면 좋은 논문

기반 연구
과학 그림 이해 벤치마크가 깊이 독해 데이터셋의 시각적 추론 평가 기반이다.
기반 연구
과학 도구 사용 벤치마킹의 이론적 기반을 제공한다
다른 접근
과학논문 깊이 이해와 생의학 질의응답 모두 전문 분야 QA 데이터셋이다.
다른 접근
생의학과 일반 과학 분야에서 논문 기반 질의응답 데이터셋의 다른 접근법이다.
후속 연구
멀티모달 정보 추출이 과학논문 깊이 독해에서 표와 그림 이해를 지원한다.
← 목록으로 돌아가기