SciTrust: Evaluating the Trustworthiness of Large Language Models for Science

저자: Emily Herron, Junqi Yin, Feiyi Wang | 날짜: 2024-01 | DOI: 10.1109/SCW63240.2024.00017


Essence

과학 분야에서 사용되는 대규모 언어모델(LLM)의 신뢰성을 평가하기 위한 포괄적 프레임워크 SciTrust를 제시한다. 다중 평가 방식(객관식 벤치마크, 오픈엔드형 질문, LLM 기반 판정자)을 결합하여 진실성, 환각(hallucination), 아첨(sycophancy) 측면에서 다섯 가지 LLM의 성능을 비교 분석했다.

Motivation

Achievement

  1. 포괄적 평가 프레임워크 개발: 객관식 벤치마크(SciQ, GPQA-Diamond, ARC-C, MMLU)와 신규 오픈엔드형 데이터셋(컴퓨터과학, 화학, 생물학, 물리학 각 500개 질문)을 통합한 SciTrust 프레임워크 구축
  2. 다양한 평가 메트릭 도입: ROUGE, BERT 점수(의미론적 유사성), BART 점수, GPT-4o 판정자 기반 평가를 결합하여 자동화된 오픈엔드형 질문 평가 최초 시도
  3. 모델 성능 비교 분석:
    • Llama3-70B-Instruct가 전반적으로 우수한 성능(MMLU 과학 영역 평균 64.5%)
    • 과학 특화 모델 중 Galactica-120B가 최고 성능(MMLU 평균 41.6%)
    • Darwin-7B는 모든 벤치마크에서 극히 저조한 성능(대부분 1% 이하)
  4. 고성능 컴퓨팅 확장성 평가: Frontier 엑사스케일 슈퍼컴퓨터와 H100 테스트베드에서 다중 선택형 및 오픈엔드형 추론의 지연시간 측정 및 비교

How

Originality

Limitation & Further Study

Evaluation

총평: SciTrust는 과학 도메인에 특화된 LLM 신뢰성 평가의 중요한 기초를 마련하였으며, 공개된 벤치마크와 평가 프레임워크의 가치가 높다. 다만 평가 메트릭 간의 불일치 해결과 모든 신뢰성 측면에 대한 정량적 결과 제시가 필요하다.

같이 보면 좋은 논문

기반 연구
LLM이 논문 리뷰에 사용되는지 조사하는 연구가 과학 분야 LLM 신뢰성 평가의 필요성을 뒷받침한다.
다른 접근
TrustLLM의 일반적 LLM 신뢰성과 SciTrust의 과학 분야 LLM 신뢰성은 서로 다른 도메인에서 신뢰성을 평가한다.
후속 연구
LLM의 재료 발견 능력에 대한 냉정한 평가를 신뢰성 관점으로 확장하여 더 포괄적인 분석을 제공함
후속 연구
AI 에이전트 신뢰성 과학을 과학 분야 LLM 신뢰성 평가라는 구체적 영역으로 특화한 연구이다.
응용 사례
LLM의 과학 문헌 오정보 탐지 능력 연구가 SciTrust의 과학 분야 신뢰성 평가 프레임워크에 직접 적용된다.
응용 사례
일반적인 LLM 신뢰성 원칙을 과학 분야의 구체적 신뢰성 평가에 특화하여 적용합니다.
응용 사례
일반적인 신뢰성 원칙을 과학 분야 LLM의 구체적 신뢰성 평가에 적용합니다.
← 목록으로 돌아가기