Lag: Llm agents for leaderboard auto generation on demanding

Essence

Figure 2: The League framework for leaderboard automatic generation. In Stage 1, we automatically

League는 arXiv와 학술지에서 자동으로 논문을 수집하여 LLM 기반으로 실험 결과를 추출하고 통합함으로써 동적으로 리더보드를 자동 생성하는 프레임워크이다.

Motivation

Known: 기존 연구는 NLP-progress나 Papers-with-Code 같은 플랫폼에서 Task-Dataset-Model(TDM) 삼중항을 추출하는 수준에 머물러 있다. 리더보드 플랫폼의 성장이 급증하는 논문 수를 따라가지 못하고 있다.
Gap: 기존 방법들은 고정된 분류법에 의존하고 실험 설정(model size, data size 등)을 캡처하지 못하며, 여러 논문에서 동적으로 리더보드를 구성하는 능력이 부족하다. 또한 공정한 비교를 위한 실험 조건 정렬이 이루어지지 않는다.
Why: 매일 수천 건의 논문이 발표되는 상황에서 최신 SOTA(State-of-the-Art) 방법을 추적하기 위해 자동화된 리더보드 생성이 필수적이며, 이는 연구자들이 빠르고 공정하게 진전 상황을 파악하도록 지원한다.
Approach: League는 4단계 파이프라인으로 구성된다: (1) arXiv와 주요 학회에서 주제별 논문 자동 수집, (2) LLM을 이용한 실험 테이블 추출 및 분류, (3) 데이터셋-메트릭-실험 설정-결과를 포함한 5-튜플 추출 및 통합, (4) LLM 판사를 통한 리더보드 생성 및 품질 평가.

Achievement

Figure 3: The example leaderboard generated by League. Comparing with the Leaderboard of

자동 수집 및 필터링: arXiv와 상위 학회(ACL, EMNLP, NeurIPS, ICML, ICLR)에서 주제 관련 논문을 자동으로 수집하고 시간/주제별로 필터링
실험 설정 추출: 기존 연구와 달리 model size, data size, hyperparameter 등 공정한 비교를 위한 실험 설정을 체계적으로 추출
동적 리더보드 생성: 정적 스냅샷이 아닌 지속적으로 업데이트 가능한 동적 리더보드 구성
높은 효율성: 20항목 리더보드 기준 인간 annotation 대비 약 5-10배 빠른 처리 속도 달성
경쟁력 있는 성능: 20항목 기준 Topic-related Quality에서 67.58% recall, 70.33% precision 달성; Content Quality에서 인간 성능에 접근한 점수 획득

How

Figure 2: The League framework for leaderboard automatic generation. In Stage 1, we automatically

Stage 1 - Paper Collection & Split: arXiv 및 학회 논문을 API/웹크롤링으로 수집하고 발행 날짜 필터링 및 주제 관련성 검증
Stage 2 - Table Extraction & Classification: LLM(GPT-4, Qwen, O1-preview)을 이용하여 논문 내 실험 테이블 추출 및 table description 기반 분류
Stage 3 - Table Unpacking & Integration: 추출된 테이블에서 dataset-metric-experiment_setting-result-paper_title의 5-튜플 형태로 정보 추출 및 통합
Stage 4 - Leaderboard Generation & Evaluation: 5-튜플을 재조합하여 후보 리더보드 생성 후 LLM-as-Judge를 통해 4가지 측면(Coverage, Structure, Latest, Multiaspect) 평가
평가 메트릭: Topic-related Quality(recall, precision)와 Content Quality(4점 척도) 측정, 인간 평가자와의 Pearson Correlation 계산

Originality

LLM 기반 자동 리더보드 생성 문제를 처음으로 제시하고 체계적 파이프라인 제안
기존 entity extraction을 넘어 실험 설정을 포함한 동적 리더보드 구성 개념 도입
LLM-as-Judge를 이용한 다면적 리더보드 품질 평가 기준 제시
여러 논문의 정보를 통합하여 공정한 비교가 가능한 리더보드 자동 구성의 첫 사례

Limitation & Further Study

LLM의 hallucination 가능성으로 인한 추출 오류: 특히 작은 결과 집합에서 정확도 검증 필요
실험 설정의 비표준화: 논문마다 다양한 형식의 실험 설정 기술로 인한 파싱 어려움
Moderate Pearson Correlation: 인간-LLM 평가 간 상관도가 중간 수준으로 개선 여지 있음
평가 범위 제한: 주로 NLP 분야의 특정 주제들에 대해서만 실험 수행, 다른 분야의 일반화 가능성 불명확
후속연구 방향: (1) 더 견고한 entity linking 메커니즘 개발, (2) 도메인별 분류법 자동 학습, (3) 오류 정정을 위한 인간-in-the-loop 피드백 메커니즘

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: League는 급증하는 학술 논문에 대응하여 자동으로 최신 리더보드를 생성하는 혁신적 프레임워크이며, 실험 설정을 포함한 공정한 비교라는 새로운 관점을 제시한다. 인간 성능에 근접한 결과와 5-10배의 효율성 향상으로 실질적 가치를 입증하나, LLM 오류 처리 및 다분야 일반화 개선이 필요하다.

같이 보면 좋은 논문

후속 연구

OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining

학술 그래프 마이닝에서 정적 큐레이션을 동적 자동 생성 시스템으로 발전시킨다

응용 사례

Benchmark for evaluation and analysis of citation recommendation models

인용 추천 벤치마크의 평가 지표를 리더보드 자동 생성에서 실험 결과 추출과 통합에 적용한다