Using artificial intelligence for systematic review: the example of elicit

Essence

Elicit는 체계적 문헌고찰(systematic review) 과정에서 보조 도구로 사용될 수 있으나, 아직까지는 전통적 방법을 완전히 대체하지 못하며 신중한 사용과 방법론적 엄격성 유지가 필수적이다.

Motivation

Known: AI 도구들이 체계적 문헌고찰 과정(논문 선별 73%, 비뚤림 위험 평가 13%, 데이터 추출 13%)에서 광범위하게 사용되고 있다.
Gap: Elicit을 포함한 AI 도구의 신뢰성, 반복성, 정확도에 대한 실증적 검증이 부족하다. 특히 전통적 방법과의 체계적 비교 연구가 필요하다.
Why: 노인의 지역사회 내 노화(aging in place)를 지원하는 스마트 생활 환경에 관한 기존 우산형 고찰(umbrella review)을 수행했던 연구팀이, AI 보조 검색이 전통적 검색과 비교하여 부가가치를 제공하는지 검증하고자 함.
Approach: 동일한 연구 질문에 대해 Elicit을 이용한 검색과 기존 우산형 고찰의 결과를 반복성(repeatability), 신뢰성(reliability), 정확도(accuracy) 세 가지 기준으로 비교 평가.

Achievement

![Figure 1 설명: Tannou et al. 연구(좌측), Elicit(우측) 및 체계적 문헌고찰 단계별 비교(a, b, c)]

반복성 부족: 동일한 검색 조건에서 세 번의 시행 결과 각각 246개, 169개, 172개의 상이한 결과 도출. 합치면 총 241개 논문으로 일관성 결여를 보임.
제한적 신뢰성: 최종 포함된 17개 논문 중 Elicit가 식별한 것은 3개(17.6%)에 불과. 기존 우산형 고찰에서만 식별된 논문이 14개. Elicit이 독점적으로 식별한 논문 3개 존재.
정확도의 이중성: Elicit이 발견한 3개 추가 논문은 포함기준에 부합하나, 최종 우산형 고찰의 결론을 변경할 정도의 실질적 정보를 제공하지 못함. 그러나 Elicit의 6개 논문만으로도 기존 17개 논문과 동일한 결론 도출 가능.

How

검색 전략: 동일 연구질문 "스마트 생활 환경이 지역사회 내 노화 지원의 효과는?"을 Elicit에 입력하되, 9개의 연도별 검색(2005, 2010, 2015-2021)으로 구분 실시. 의미적 유사성(semantic similarity)을 통해 정확한 키워드가 없어도 관련 논문 검출.
필터 적용: 논문 유형(체계적 문헌고찰), 출판 연도(2005-2021) 필터 적용. Elicit의 "더보기(show more)" 기능으로 추가 논문 없음이 표시될 때까지 검색 확장.
비교 기준:
- 반복성: 동일 질문으로 3회 검색(2023년 4월 19-20일, 시간대별)
- 정확도: 1차 저자가 기존 우산형 고찰과 동일한 포함/배제 기준으로 평가
- 신뢰성: 제목-초록 선별, 전문 검토 단계별로 두 방법의 논문 겹침 분석
데이터 분석: 기술통계(백분율)로 두 접근법 간 겹침도 평가

Originality

단순히 AI 도구의 기능 소개가 아닌 실제 체계적 문헌고찰 프로젝트와의 병행 비교 연구로 실증적 타당성 제시
반복성(repeatability) 개념을 AI 도구 평가에 명시적으로 도입한 점
관련성 있는 논문을 찾았으나 결론에 영향을 주지 않는 "거짓 양성" 현상 지적
동일한 연구질문의 서로 다른 표현이 Elicit의 결과를 달리 한다는 점 제기

Limitation & Further Study

방법론적 한계:
- 단일 우산형 고찰과의 비교로 일반화 가능성 제한
- 3회 반복만으로는 변동성 평가 부족 (더 많은 반복 필요)
- 단일 저자 평가로 선별 편향 가능성
기술적 한계:
- Elicit의 의미적 검색 알고리즘의 투명성 부족으로 불안정성 원인 파악 어려움
- 사용 시점에 따른 알고리즘 업데이트 영향 미측정
- 연구질문 표현에 따른 민감성이 높아 사용자 의존성 큼
후속 연구 방향:
- 다양한 주제의 체계적 문헌고찰에서 Elicit 성능 검증
- 다중 평가자 간 신뢰도(inter-rater reliability) 평가
- 다른 AI 도구(예: ChatGPT, Claude)와의 비교
- Elicit 알고리즘 개선에 대한 개발사와의 협력
- 체계적 문헌고찰 과정에서 AI 도구 사용 가이드라인 개발

Evaluation

총평: 체계적 문헌고찰에서 AI 도구 Elicit의 실제 성능을 실증적으로 평가한 의미 있는 연구이지만, 방법론적 견고성과 일반화 가능성이 제한적이며, "신중한 보조 도구로 사용하되 완전 대체 불가"라는 예상된 결론을 확인한 수준이다. AI 도구 개발의 빠른 진전을 고려할 때 정기적인 재평가와 더욱 체계적인 벤치마킹 연구가 필요하다.

같이 보면 좋은 논문

기반 연구

AI for research: the ultimate guide to choosing the right tool

연구를 위한 최적 AI 도구 선택에 대한 종합 가이드가 Elicit과 같은 특정 도구의 적절한 활용을 위한 전체적 맥락을 제공한다.

다른 접근

PaperQA: Retrieval-Augmented Generative Agent for Scientific Research

과학적 검색을 위한 검색증강 생성 에이전트가 Elicit과는 다른 AI 기반 문헌 연구 도구 접근법을 제시한다.

후속 연구

Llms for literature review: Are we there yet? arXiv preprint arXiv:2412.15249, 2024.

문헌 리뷰를 위한 LLM 활용 조사가 Elicit의 체계적 문헌고찰 적용을 더 넓은 AI 기반 문헌 연구로 확장한다.

응용 사례

AI for research: the ultimate guide to choosing the right tool

체계적 문헌고찰에서 Elicit 활용 사례가 본 논문의 AI 도구 선택 가이드를 구체적 연구 방법론에 적용한 실제 사례이다.