TheoremQA: A Theorem-driven Question Answering Dataset

저자: Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, Tony Xia | 날짜: 2023 | DOI: N/A


Essence

Figure 1

TheoremQA의 개요 및 적용된 프롬프팅 전략

대학 수준의 수학, 물리, 금융, 전산 분야에서 350개 이상의 정리(theorem)를 포함하는 800개의 고품질 질문-답변 쌍으로 구성된 정리 중심 질문 답변 데이터셋을 제시한다. 이는 LLM의 도메인 지식 적용 능력을 평가하는 첫 번째 벤치마크이다.

Motivation

Achievement

Figure 2

TheoremQA의 예시. Stokes 정리를 이용한 적분 변환 문제

  1. 광범위한 정리 커버리지: 수학(199개), 물리(52개), 금융(55개), 전산(48개) 등 354개의 정리를 포함하며, 대수학, 정수론, 그래프 이론, 정보이론 등 다양한 세부분야를 포괄.
  2. LLM 성능의 계층화 된 격차 발견:
    • GPT-4: Program-of-Thoughts (PoT) 프롬프팅으로 51% 정확도 (최고 성능)
    • ChatGPT: 35% 정확도
    • 오픈소스 모델들(Alpaca, LLaMA 등): 모두 15% 이하로 무작위 추측(10%)과 거의 동등한 수준
  3. 오류 분석을 통한 성능 개선 여지 파악: GPT-4의 오류 중 약 50%는 계산 오류, 반올림 오류 등 사소한 실수에서 비롯되어 더 정교한 프롬프팅으로 개선 가능함. 반면 오픈소스 모델의 오류 90%는 정리 자체에 대한 지식 부족으로 근본적 개선 필요.
  4. 멀티모달 평가: 51개의 이미지 포함 질문을 통해 멀티모달 모델들을 평가했으나, 도표 및 텍스트가 혼재된 이미지의 비자연성으로 인해 기존 시각 인코더가 충분한 개선을 제공하지 못함.

How

Figure 3

TheoremQA의 답변 타입 분포

데이터셋 구성 프로세스:

정리 통합 실험:

Originality

Limitation & Further Study

한계:

후속 연구 방향:

Evaluation

총평: TheoremQA는 LLM의 도메인 특화 지식 활용 능력을 체계적으로 평가하는 첫 번째 벤치마크로서 의미 있는 기여를 하며, 광범위한 모델 평가를 통해 현재의 성능 격차를 명확히 드러낸다. 다만 오픈소스 모델의 극히 낮은 성능은 평가의 변별력을 제한하고, 정리 통합 방식의 개선 여지가 크다는 점이 아쉽다.

같이 보면 좋은 논문

기반 연구
정리 기반 질문 답변의 기초 연구로서 후속 멀티모달 과학 추론 벤치마크 개발에 영향을 미쳤음
다른 접근
대학 수준 과학 문제 해결에 대한 두 가지 다른 평가 방식으로 정리 중심과 일반적 접근의 비교가 가능함
후속 연구
정리 기반 질문 답변이 물리학 추론 평가의 수학적 엄밀성을 강화하는데 활용됩니다.
후속 연구
정리 기반 평가를 다학제 멀티모달 환경으로 확장한 대규모 과학 정렬 데이터셋으로 발전시킨 연구임
← 목록으로 돌아가기