저자: C. H. Kao, Wenting Zhao, Shreelekha Revankar, Samuel Speas, Snehal Bhagat, Rajeev Datta, Cheng Perng Phoo, Utkarsh Mall, Carl Vondrick, Kavita Bala, Bharath Hariharan | 날짜: 2025 | DOI: arXiv:2504.12110
UnivEARTH 벤치마크는 NASA Earth Observatory 기사에서 추출한 140개의 지구 관측 관련 예/아니오 질문으로 구성되며, Google Earth Engine API를 활용하여 LLM 에이전트를 평가한다.
본 논문은 지구 관측(Earth Observation, EO) 작업을 자동화하기 위한 LLM 에이전트의 준비도를 평가하기 위해 UnivEARTH 벤치마크를 제시하고, 현재 최첨단 모델들이 코드 실행 실패(58%)로 인해 33% 수준의 낮은 정확도만 달성함을 보여준다.
다양한 주제(표면 반사율, 야간 조명, 산림 범위, 눈 덮음, 이산화질소 등)에 걸친 UnivEARTH의 질문 사례
총평: 본 논문은 지구 관측이라는 실제 과학 도메인에서 LLM 에이전트의 신뢰성을 평가하는 의미 있는 벤치마크를 제시하며, 현 단계 AI 시스템의 현저한 한계를 객관적으로 입증함으로써 향후 연구 방향을 명확히 제시한다. 다만 질문 형식의 제한과 코드 실행 의존성으로 인한 평가 공정성 논의 필요 및 개선 방향 제시가 더 구체적일 수 있다는 점이 아쉬움.