Leveraging LLMs in Scholarly Knowledge Graph Question Answering

Motivation

Known: 기존 KGQA 시스템은 retriever-reasoner 또는 semantic parsing 기반 접근법을 사용하지만, 두 방식 모두 대량의 학습 데이터가 필요함. 특히 학술 KGQA 데이터셋의 부족으로 인해 일반 KGQA보다 더 어려운 상황
Gap: LLM이 생백과사전(Wikidata)에 대해서는 zero-shot으로도 우수한 SPARQL 생성이 가능하지만, ORKG(Open Research Knowledge Graph)의 스키마를 모르기 때문에 올바른 쿼리를 생성하지 못함
Why: 학술 지식 그래프는 도메인 특화적이며 스키마가 다르므로, few-shot prompting을 통해 LLM이 학습 질문-SPARQL 쌍으로부터 패턴을 학습하도록 유도할 필요가 있음
Approach: BERT 기반 문장 인코더로 유사 질문을 검색하고, top-n개의 유사 질문-SPARQL 쌍을 프롬프트의 예제로 활용하여 LLM(Vicuna-13B)이 대상 질문에 대한 SPARQL을 생성하도록 함

질문 분석(Question Analysis): BERT 기반 문장 인코더를 사용하여 학습 데이터셋의 모든 질문을 오프라인으로 임베딩하고, 테스트 질문과의 코사인 유사도를 기반으로 top-5 유사 질문 선택
쿼리 생성(Query Generation): 프롬프트 템플릿에 유사 질문-SPARQL 쌍(n=1,3,5)을 예제로 포함하고, "Generate SPARQL queries to query the ORKG" 지시문과 함께 Vicuna-13B 인스턴스에 입력
답변 추출(Answer Extraction): 생성된 SPARQL 쿼리의 특수문자/줄바꿈 정리 후 ORKG SPARQL 엔드포인트에 실행하여 최종 답변 반환

데이터셋 편향성: 테스트 질문이 학습에 사용된 템플릿으로부터 생성되지 않아 모델이 상대적으로 쉬운 과제에 최적화되었을 가능성. 실제 사람이 작성한 질문에 대한 범용성은 미검증
null 답변 문제: 개발셋에서 모델이 생성한 null 답변(3-shot: 23개, 5-shot: 25개)이 실제 null 답변(14개)을 초과하며, 구문 오류로 인한 null 답변 비율 증가 추세 확인 필요
도메인 제한성: Computer Science 연구 논문에만 특화되어 있으며, 다른 학술 도메인(생명과학, 사회과학 등)에의 전이 학습 효과 미검증
후속 연구 방향: (1) 다양한 LLM 아키텍처(GPT-4, LLaMA-2 등) 비교, (2) 프롬프트 엔지니어링 최적화, (3) 구문 오류 감지 및 자동 수정 메커니즘 개발, (4) 크로스 도메인 평가