Truly assessing fluid intelligence of large language models through dynamic reasoning evaluation

저자: Yue Yang, Mingkang Chen, Qihua Liu, Mengkang Hu, Qiguang Chen, Gengrui Zhang, Shuyue Hu, Guangtao Zhai, Yu Qiao, Yu Wang, Wenqi Shao, Ping Luo | 날짜: 2025 | DOI: N/A


Essence

Figure 1

그림 1: (a) 숨겨진 잠재 규칙의 예시, (b) 기존 벤치마크와의 비교, (c) DRE-Bench의 LLM 지능 리더보드

본 논문은 대규모 언어모델(LLM)의 진정한 유동 지능(fluid intelligence)을 평가하기 위해 계층적 인지 프레임워크를 바탕으로 한 동적 추론 평가 벤치마크 DRE-Bench를 제안한다. 4가지 인지 수준(속성, 공간, 순차, 개념)의 36개 추상 추론 과제와 복잡도 변화를 포함한 약 4,000개의 사례를 통해 LLM의 규칙 일반화 능력을 체계적으로 측정한다.

Motivation

Achievement

Figure 2

그림 2: 4가지 인지 수준에 걸친 구체적인 추상 추론 과제들 및 동적 변수 예시

  1. 계층적 인지 정렬 평가 체계 구축: 속성(Attribute) → 공간(Spatial) → 순차(Sequential) → 개념(Conceptual) 수준의 4단계 인지 계층 구조 내 36개 과제 설계. 각 수준은 특정 인지 능력(대칭, 회전, 중력, 팽창 등)을 체계적으로 평가한다.
  2. 동적 데이터 생성 엔진 개발: LLM 기반 에이전트가 설계한 코드 생성기/해결기를 통해 약 4,000개의 검증된 추상 추론 사례를 자동 생성. 각 과제마다 매개변수 변화(크기, 개수, 단계, 각도 등)로 복잡도 조절이 가능하여 데이터 오염 문제 해결.
  3. LLM 유동 지능의 구체적 한계 규명:
    • 인지 수준이 높아질수록 모든 모델의 정확도가 급격히 저하 (특히 물리 개념 관련 과제)
    • 추론 LLM(o1, DeepSeek-R1)이 일반 LLM(Claude 3.7, GPT-4o)보다 우수하나, 고수준 과제에서도 성능 한계 명확
    • 복잡도 증가 시 성능 저하 모델은 진정한 규칙 습득이 아닌 부분적 패턴 인식만 가능

How

Figure 3

그림 3: DRE-Bench 데이터 생성 파이프라인

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LLM의 진정한 유동 지능 평가를 위해 인지 심리학 기반의 계층적 구조와 동적 데이터 생성 엔진을 결합한 혁신적인 벤치마크를 제시한다. 광범위한 모델 평가를 통해 현재 LLM의 근본적인 한계를 명확히 규명했으며, 이는 향후 추론 능력 강화 연구의 객관적 기준점이 될 것으로 기대된다. 다만 평가 범위의 확장성과 실패 원인 분석의 깊이 측면에서 추가 개선의 여지가 있다.

같이 보면 좋은 논문

기반 연구
동적 추론 평가 방법론이 효과적인 장문맥 다중 홉 데이터 생성의 인지적 기반을 제공합니다.
기반 연구
신뢰성의 다층적 평가 프레임워크가 유동 지능의 동적 추론 평가에 기초 이론을 제공합니다.
기반 연구
다중 홉 추론 능력 평가가 LLM의 유동 지능 측정에서 순차적 인지 수준의 기반이 됩니다.
다른 접근
AI의 인지 능력과 인간 행동 복제라는 서로 다른 측면에서 AI의 인간 수준 능력을 평가합니다.
다른 접근
유체 지능 평가와 과학적 맥락 이해 평가가 LLM의 서로 다른 인지 능력을 측정한다.
후속 연구
유동 지능 평가가 LLM의 전반적인 신뢰성 평가 프레임워크에서 인지 능력 차원의 구체적 측정으로 확장됩니다.
← 목록으로 돌아가기