Aviary: training language agents on challenging scientific tasks

저자: Siddharth Narayanan, James D. Braza, Ryan-Rhys Griffiths, Manu Ponnapati, Albert Bou, Jon Laurent, Ori Kabeli, Geemi Wellawatte, Sam Cox, Samuel G. Rodriques, Andrew D. White | 날짜: 2024-12-30 | DOI: N/A


Essence

Figure 1

그림 1: 5개의 Aviary 환경과 언어 결정 과정(LDP) 프레임워크 개요

본 논문은 과학적 작업을 해결하기 위한 언어 에이전트(language agent)를 훈련하기 위한 확장 가능한 체육관 프레임워크인 Aviary를 제시한다. 저자들은 언어 에이전트를 언어-기반 부분 관찰 가능 마르코프 결정 과정(language decision process, LDP)으로 형식화하고, DNA 조작, 과학 문헌 질문 응답, 단백질 안정성 공학 등 3개의 과학 환경을 포함한 5개 환경을 구현했다.

Motivation

Achievement

Figure 3

그림 3: Aviary 환경을 사용하여 LLM과 언어 에이전트의 작업 해결 능력

  1. 이론적 기여: 부분 관찰 가능 마르코프 결정 과정(POMDP)의 자연언어 표현으로서 언어 결정 과정(LDP)을 형식화하여, 다양한 기존 에이전트 아키텍처(CoALA, ReAct 등)를 통일된 프레임워크로 구현 가능함을 시연했다.
  2. 성능 달성: 오픈 소스 소형 모델(Llama-3.1-8B-Instruct)을 온라인 훈련(expert iteration)과 추론 시간 샘플링(majority vote)으로 훈련하여, DNA 구축 설계 및 과학 문헌 질문 응답 환경에서 최첨단 LLM(GPT-4o 등)과 인간 전문가를 능가하면서 추론 비용을 100배 감소시켰다.

How

Figure 2

그림 2: 확률적 계산 그래프로 표현된 단순 언어 에이전트 아키텍처

Figure 4

그림 4: (A) 분자 클로닝 환경에서 SeqQA 작업 훈련, (B) LitQA2 작업 훈련

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 언어 에이전트를 위한 명확한 이론적 틀(LDP)과 실용적 구현(Aviary)을 제공하며, 과학 작업의 자동화라는 중요한 응용에서 경제성 높은 성과를 달성했다. 특히 오픈 소스 소형 모델의 잠재력을 입증한 점이 주목할 만하나, 환경 확장성, 이론적 분석 심화, 다중 도메인 검증 등 향후 연구가 필요하다.

같이 보면 좋은 논문

다른 접근
과학적 작업 훈련에서 체육관 프레임워크와 실제 연구 평가의 서로 다른 접근법이다.
후속 연구
머신러닝 에이전트 벤치마킹이 Aviary의 과학적 언어 에이전트 훈련을 확장한다.
응용 사례
의료 코딩을 위한 확장 가능한 에이전트 훈련이 Aviary의 과학 훈련 개념을 의료 분야에 적용한다.
← 목록으로 돌아가기