저자: Yao Wang, Mingxuan Cui, Arthur Jiang, Jun Yan | 날짜: 2025 | DOI: arXiv:2503.01508
RND 알고리즘의 개념 도시: 주어진 아이디어(삼각형/오각형)와 기존 문헌을 의미론적 임베딩 공간에 표현한 후, P개의 최근접 이웃을 찾고 각 이웃의 주변 밀도(Q개의 이웃 기준)를 계산하여 상대적 순위로 혁신성 점수를 결정
대규모 언어모델(LLM)이 생성한 연구 아이디어의 혁신성을 자동 평가하기 위해 상대 이웃 밀도(Relative Neighbor Density, RND) 알고리즘을 제안한다. 이 방법은 절대적 국소 밀도가 아닌 의미론적 이웃들의 상대적 밀도 분포를 분석하여 도메인 간 일관된 성능을 달성한다.
컴퓨터과학과 생의학 도메인에서 HD(Historical Dissimilarity)와 RND 점수의 분포 비교: RND는 도메인별 편차가 적음
RND 알고리즘의 P(최근접 이웃 수)와 Q(이웃의 이웃 수) 파라미터에 따른 AUROC 변화: P=100, Q=50에서 최적
$$ND = \frac{1}{Q}\sum_{k=1}^{Q}d(v, v_k)$$
$$score_i = \frac{|\{ND \in S_i | ND \leq ND_i\}|}{|S_i|} \times 100$$
총평: 혁신성 평가의 도메인 간 일반화를 상대 밀도 개념으로 우아하게 해결하고, 전문가 라벨링 불필요한 검증 방법론으로 스케일 가능성을 입증했다. LLM 과학자 시대의 실질적 요구에 부응하는 견고한 기술 기여이나, 테스트셋 라벨링의 철학적 가정(시간 경과 = 비혁신성)과 다양한 임베딩 모델의 영향에 대한 더 깊은 논의가 필요하다.