저자: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Yao Mu, Hongyuan Zhang, Wenqi Shao, Ping Luo | 날짜: 2025 | DOI:
TEXT2WORLD 벤치마크의 전체 파이프라인: 자연언어 설명으로부터 PDDL 도메인 모델 생성, 자동 수정, 다중 기준 평가
대규모 언어모델(LLM)이 자연언어 설명으로부터 기호적 세계 모델(symbolic world model)을 생성할 수 있는지 평가하기 위해 PDDL 기반의 포괄적인 벤치마크 TEXT2WORLD를 제안하고, 수백 개의 다양한 도메인과 실행 기반 평가 지표를 통해 현재 LLM의 세계 모델링 능력이 여전히 제한적임을 밝혔다.
벤치마크 구성 과정: (a) 데이터 수집(1,801개), (b) 자동 필터링 및 수동 선택(264개), (c) 주석 작성 및 품질 보증(최종 103개)
벤치마크 구성 방법론:
평가 메트릭:
성능 향상 전략:
총평: TEXT2WORLD는 기호적 세계 모델 생성 평가의 신뢰성과 포괄성을 크게 향상시킨 중요한 벤치마크로, 엄격한 품질 관리와 다차원 평가 지표로 기존 연구의 한계를 효과적으로 해결하였다. 다만 최종 103개 도메인의 규모 제약과 LLM의 여전한 성능 한계 개선 방안에 대해서는 추가적인 논의가 필요하다.