ReAct: Synergizing Reasoning and Acting in Language Models

저자: Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran | 날짜: 2022 | DOI: 10.48550/arXiv.2210.03629


Essence

Figure 1

Figure 1: 4가지 프롬프팅 방식 비교 - (a) 표준, (b) 사고의 연쇄(CoT), (c) 행동만, (d) ReAct (reasoning+acting). HotpotQA와 AlfWorld 작업 해결 과정 시연

본 논문은 대규모 언어 모델(LLM)의 추론(reasoning)과 행동(acting)을 상호작용적으로 결합하여 복잡한 작업을 해결하는 ReAct 패러다임을 제시한다. 모델이 사고(thought)와 행동(action)을 번갈아 생성하면서 외부 환경과 상호작용하여 동적 추론을 수행하고 오류 전파 및 환각(hallucination)을 완화한다.

Motivation

Achievement

Figure 2

Figure 2: HotpotQA와 Fever에서 프롬프팅 결과 비교 (PaLM-540B)

  1. 질의응답(QA) 및 사실검증 작업에서 우수한 성능:
    • HotpotQA: ReAct가 Wikipedia API 접근 권한 하에서 행동만 수행하는 기준선을 능가하고, CoT와 경쟁력 있는 성능 달성
    • Fever: 사실검증 정확도에서 뚜렷한 개선으로 환각 문제 완화 실증
    • ReAct + CoT 결합 방식이 최고 성능 달성 (내부 지식과 외부 정보 활용)
  2. 대화형 의사결정 작업에서 기존 학습 방식 압도:
    • ALFWorld: 1-2샷 프롬프팅으로 103~105개 샘플로 학습한 모방학습(imitation learning)과 강화학습(RL) 방법을 34% 절대 성공률로 능가
    • WebShop: 10% 절대 성공률 개선으로 RL 기반선 방법들을 초과 성능
  3. 해석가능성과 신뢰성 향상:
    • 모델의 내부 지식 vs. 외부 환경 정보 구분 명확
    • 추론 궤적(reasoning trace)을 통한 의사결정 근거 검사 가능
    • 진단 가능성(diagnosability) 증대로 신뢰성 강화

How

Figure 3

Figure 3: HotpotQA에서 프롬프팅 및 파인튜닝 스케일링 결과 비교

ReAct 프레임워크의 핵심 구성 요소:

Originality

Limitation & Further Study

Evaluation

총평: ReAct는 대규모 언어 모델의 추론과 행동을 상호작용적으로 통합하여 복잡한 작업 해결 능력을 획기적으로 향상시킨 매우 영향력 있는 연구이다. 광범위한 벤치마크(HotpotQA, Fever, ALFWorld, WebShop)에서 기존 방식을 압도하는 성능을 보였으며, 특히 해석가능성과 신뢰성의 동시 개선이라는 부가 이점을 제공한다. 다만 동결된 모델에 대한 프롬프팅 의존, 외부 자원 필요성, 사고의 질적 분석 부족 등이 한계로 남으나, 파인튜닝 실험을 통해 개선 가능성을 시사하고 있다. LLM 기반 에이전트 개발의 실질적 표준이 될 수 있는 중요한 기여라고 평가된다.

같이 보면 좋은 논문

기반 연구
ReAct 추론-행동 프레임워크가 프로그램 가이드 팩트 체킹의 기반이다.
기반 연구
언어모델이 도구를 스스로 학습하여 사용하는 ReAct의 핵심 개념을 처음 제시한 기초 연구이다.
기반 연구
ReAct 프롬프팅 메커니즘을 물리학 도메인에 특화시켜 적용한 구체적 사례 연구입니다.
다른 접근
ReAct의 텍스트 기반 행동 대신 실행 가능한 Python 코드를 직접 액션으로 사용하는 다른 접근법이다.
다른 접근
LLM 에이전트 액션에서 실행 가능한 Python 코드와 텍스트 기반 추론-행동의 서로 다른 접근법이다.
후속 연구
ReAct의 추론-행동 패러다임을 도구 활용을 통한 자기교정 메커니즘으로 확장한 접근법이다.
← 목록으로 돌아가기