Using artificial intelligence for systematic review: the example of elicit
저자: Nathan Bernard, Yoshimasa Sagawa Jr, Nathalie Bier, Thomas Lihoreau, Lionel Pazart, Thomas Tannou | 날짜: 2025-03-18 | DOI: 10.1186/s12874-025-02528-y
Essence
Elicit는 체계적 문헌고찰(systematic review) 과정에서 보조 도구로 사용될 수 있으나, 아직까지는 전통적 방법을 완전히 대체하지 못하며 신중한 사용과 방법론적 엄격성 유지가 필수적이다.
Motivation
Known: AI 도구들이 체계적 문헌고찰 과정(논문 선별 73%, 비뚤림 위험 평가 13%, 데이터 추출 13%)에서 광범위하게 사용되고 있다.
Gap: Elicit을 포함한 AI 도구의 신뢰성, 반복성, 정확도에 대한 실증적 검증이 부족하다. 특히 전통적 방법과의 체계적 비교 연구가 필요하다.
Why: 노인의 지역사회 내 노화(aging in place)를 지원하는 스마트 생활 환경에 관한 기존 우산형 고찰(umbrella review)을 수행했던 연구팀이, AI 보조 검색이 전통적 검색과 비교하여 부가가치를 제공하는지 검증하고자 함.
Approach: 동일한 연구 질문에 대해 Elicit을 이용한 검색과 기존 우산형 고찰의 결과를 반복성(repeatability), 신뢰성(reliability), 정확도(accuracy) 세 가지 기준으로 비교 평가.
Achievement
![Figure 1 설명: Tannou et al. 연구(좌측), Elicit(우측) 및 체계적 문헌고찰 단계별 비교(a, b, c)]
반복성 부족: 동일한 검색 조건에서 세 번의 시행 결과 각각 246개, 169개, 172개의 상이한 결과 도출. 합치면 총 241개 논문으로 일관성 결여를 보임.
제한적 신뢰성: 최종 포함된 17개 논문 중 Elicit가 식별한 것은 3개(17.6%)에 불과. 기존 우산형 고찰에서만 식별된 논문이 14개. Elicit이 독점적으로 식별한 논문 3개 존재.
정확도의 이중성: Elicit이 발견한 3개 추가 논문은 포함기준에 부합하나, 최종 우산형 고찰의 결론을 변경할 정도의 실질적 정보를 제공하지 못함. 그러나 Elicit의 6개 논문만으로도 기존 17개 논문과 동일한 결론 도출 가능.
How
검색 전략: 동일 연구질문 "스마트 생활 환경이 지역사회 내 노화 지원의 효과는?"을 Elicit에 입력하되, 9개의 연도별 검색(2005, 2010, 2015-2021)으로 구분 실시. 의미적 유사성(semantic similarity)을 통해 정확한 키워드가 없어도 관련 논문 검출.
필터 적용: 논문 유형(체계적 문헌고찰), 출판 연도(2005-2021) 필터 적용. Elicit의 "더보기(show more)" 기능으로 추가 논문 없음이 표시될 때까지 검색 확장.
비교 기준:
반복성: 동일 질문으로 3회 검색(2023년 4월 19-20일, 시간대별)
정확도: 1차 저자가 기존 우산형 고찰과 동일한 포함/배제 기준으로 평가
신뢰성: 제목-초록 선별, 전문 검토 단계별로 두 방법의 논문 겹침 분석
데이터 분석: 기술통계(백분율)로 두 접근법 간 겹침도 평가
Originality
단순히 AI 도구의 기능 소개가 아닌 실제 체계적 문헌고찰 프로젝트와의 병행 비교 연구로 실증적 타당성 제시
반복성(repeatability) 개념을 AI 도구 평가에 명시적으로 도입한 점
관련성 있는 논문을 찾았으나 결론에 영향을 주지 않는 "거짓 양성" 현상 지적
동일한 연구질문의 서로 다른 표현이 Elicit의 결과를 달리 한다는 점 제기
Limitation & Further Study
방법론적 한계:
단일 우산형 고찰과의 비교로 일반화 가능성 제한
3회 반복만으로는 변동성 평가 부족 (더 많은 반복 필요)
단일 저자 평가로 선별 편향 가능성
기술적 한계:
Elicit의 의미적 검색 알고리즘의 투명성 부족으로 불안정성 원인 파악 어려움
사용 시점에 따른 알고리즘 업데이트 영향 미측정
연구질문 표현에 따른 민감성이 높아 사용자 의존성 큼
후속 연구 방향:
다양한 주제의 체계적 문헌고찰에서 Elicit 성능 검증
다중 평가자 간 신뢰도(inter-rater reliability) 평가
다른 AI 도구(예: ChatGPT, Claude)와의 비교
Elicit 알고리즘 개선에 대한 개발사와의 협력
체계적 문헌고찰 과정에서 AI 도구 사용 가이드라인 개발
Evaluation
총평: 체계적 문헌고찰에서 AI 도구 Elicit의 실제 성능을 실증적으로 평가한 의미 있는 연구이지만, 방법론적 견고성과 일반화 가능성이 제한적이며, "신중한 보조 도구로 사용하되 완전 대체 불가"라는 예상된 결론을 확인한 수준이다. AI 도구 개발의 빠른 진전을 고려할 때 정기적인 재평가와 더욱 체계적인 벤치마킹 연구가 필요하다.