Towards a Science of AI Agent Reliability

저자: Stephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan | 날짜: 2026-02-18 | DOI: 10.48550/arXiv.2602.16666


Essence

Figure 1

신뢰성 향상이 능력 향상보다 뒤처짐. 정확도는 꾸준히 상승하지만 신뢰성은 미미한 개선만 보임

AI 에이전트(agents)의 실제 배포 환경에서 높은 정확도에도 불구하고 신뢰성 부족이 심각한 문제임을 보여주며, 안전-임계 엔지니어링(safety-critical engineering)의 원칙을 기반으로 일관성, 견고성, 예측가능성, 안전성의 4가지 차원으로 분해한 신뢰성 평가 메트릭 12개를 제시한다.

Motivation

Achievement

Figure 2

결과 일관성: 모델 간 편차 분석

  1. 신뢰성 평가 프레임워크 구축: 일관성(consistency), 견고성(robustness), 예측가능성(predictability), 안전성(safety)의 4가지 독립적 차원에서 12개의 구체적이고 계산 가능한 메트릭 제안. 이 메트릭들은 원시 정확도와 무관하게 서로 다른 능력 수준의 에이전트들을 비교 가능하게 함
  2. 신뢰성-능력 괴리 실증: 18개월 동안의 모델 릴리스에서 정확도는 연 0.21 기울기로 꾸준히 향상되지만, 신뢰성(R)은 연 0.03에 불과한 미미한 개선만 달성. 벤치마크 간 정확도-신뢰성 상관계수 차이(0.63~0.73에서 0.46~0.82로 변동)는 정확도 향상이 신뢰성 향상을 보장하지 않음을 시사
  3. 현대 에이전트의 신뢰성 프로필 분석: 일관성(run-to-run repeatability)과 예측가능성이 즉각적인 연구 초점이 필요한 가장 약한 차원임을 특정. 모델들이 동일 조건에서 다양한 출력을 보이며, 자신의 실패 가능성을 충분히 인식하지 못함

How

Figure 3

프롬프트 견고성: 입력 변동에 따른 성능 저하

신뢰성 메트릭 설계:

평가 설정:

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.8/5 Clarity: 4.5/5 Overall: 4.6/5

총평: 이 논문은 AI 에이전트 평가의 근본적인 격차를 정확히 진단하고, 안전-임계 엔지니어링의 검증된 원칙을 적용하여 신뢰성의 다차원 프레임워크를 제시함으로써 이론과 실무 간의 괴리를 해소하는 데 중요한 기여를 한다. 특히 대규모 모델들의 실증적 신뢰성 프로필을 최초로 제공하고 정확도-신뢰성 괴리의 정량화는 향후 에이전트 개발의 우선순위 설정에 중요한 지침이 될 것으로 예상된다.

같이 보면 좋은 논문

기반 연구
LLM 신뢰성 평가의 종합적 프레임워크가 AI 에이전트 신뢰성 과학의 기초 이론을 제공합니다.
기반 연구
AI 에이전트 신뢰성 과학의 기본 원리를 과학적 발견의 위험 인식 시스템에 적용할 수 있는 이론적 기반을 제공합니다.
기반 연구
AI 에이전트 신뢰성 평가 원칙이 자기진화 에이전트의 형식적 검증 프레임워크 설계에 핵심 기반을 제공합니다.
후속 연구
종합적인 LLM 신뢰성 평가가 AI 에이전트의 구체적 신뢰성 과학 개발로 확장됩니다.
후속 연구
AI 에이전트 신뢰성 과학을 과학 분야 LLM 신뢰성 평가라는 구체적 영역으로 특화한 연구이다.
후속 연구
AI 에이전트 신뢰성 연구에서 다중 에이전트 위험성으로 확장된 분석
후속 연구
에이전트 신뢰성 평가 메트릭이 자기진화 에이전트의 형식적 안전성 보증으로 확장됩니다.
응용 사례
일반적인 신뢰성 원칙을 과학 분야 LLM의 구체적 신뢰성 평가에 적용합니다.
← 목록으로 돌아가기