Text2world: Benchmarking large language models for symbolic world model generation

저자: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Yao Mu, Hongyuan Zhang, Wenqi Shao, Ping Luo | 날짜: 2025 | DOI:


Essence

Figure 1

TEXT2WORLD 벤치마크의 전체 파이프라인: 자연언어 설명으로부터 PDDL 도메인 모델 생성, 자동 수정, 다중 기준 평가

대규모 언어모델(LLM)이 자연언어 설명으로부터 기호적 세계 모델(symbolic world model)을 생성할 수 있는지 평가하기 위해 PDDL 기반의 포괄적인 벤치마크 TEXT2WORLD를 제안하고, 수백 개의 다양한 도메인과 실행 기반 평가 지표를 통해 현재 LLM의 세계 모델링 능력이 여전히 제한적임을 밝혔다.

Motivation

Achievement

Figure 2

벤치마크 구성 과정: (a) 데이터 수집(1,801개), (b) 자동 필터링 및 수동 선택(264개), (c) 주석 작성 및 품질 보증(최종 103개)

  1. 포괄적 벤치마크 구축: 1,801개 PDDL 파일에서 출발하여 자동 필터링(검증, 중복 제거, 복잡도 제어, 토큰 길이 필터링)과 수동 선택을 거쳐 103개의 고품질 도메인 벤치마크 완성(Fleiss Kappa = 0.82의 높은 주석자 간 일치도)
  2. 신뢰성 높은 평가 지표: n-gram 기반 데이터 오염 분석(μ = 0.04)으로 낮은 오염율 확인, 구조적 유사도(Levenshtein ratio)와 성분별 F1 점수(술어, 매개변수, 전제조건, 효과)를 통한 다차원적 평가 체계 구현
  3. LLM 성능 벤칭마킹: 9개 모델 패밀리 16개 LLM 평가 결과, 강화학습으로 훈련된 추론 모델(reasoning models)이 가장 우수한 성능 보임. 오류 수정을 통해 성능 유의미 향상. 주요 오류는 필수 전제조건이나 효과 누락(omission of essential preconditions/effects)으로 분석됨

How

Figure 2

벤치마크 구성 방법론:

평가 메트릭:

성능 향상 전략:

Originality

Limitation & Further Study

Evaluation

총평: TEXT2WORLD는 기호적 세계 모델 생성 평가의 신뢰성과 포괄성을 크게 향상시킨 중요한 벤치마크로, 엄격한 품질 관리와 다차원 평가 지표로 기존 연구의 한계를 효과적으로 해결하였다. 다만 최종 103개 도메인의 규모 제약과 LLM의 여전한 성능 한계 개선 방안에 대해서는 추가적인 논의가 필요하다.

같이 보면 좋은 논문

기반 연구
도구 사용을 스스로 학습하는 언어모델의 개념이 기호적 세계 모델 생성의 기술적 기반이다.
기반 연구
기호적 세계 모델 생성이 CodeAct의 실행 가능한 코드 액션 설계에 이론적 기반을 제공한다.
다른 접근
형식적 수학 증명과 기호적 세계 모델링에서 PDDL 기반 접근법의 서로 다른 형식 체계이다.
후속 연구
실행 가능한 코드 액션 접근법이 TEXT2WORLD의 기호적 표현을 실제 실행으로 확장한다.
← 목록으로 돌아가기