Hyperagent: Generalist software engineering agents to solve coding tasks at scale

Essence

그림 1: 소프트웨어 엔지니어링 작업을 해결하기 위한 개발자의 전형적인 워크플로우 (분석 & 계획 → 기능 위치 파악 → 코드 편집 → 실행)

HYPERAGENT는 인간 개발자의 워크플로우를 모방하는 멀티에이전트 시스템으로, 플래너(Planner), 네비게이터(Navigator), 코드 에디터(Code Editor), 실행기(Executor)의 네 가지 전문화된 에이전트로 구성되어 다양한 프로그래밍 언어와 소프트웨어 엔지니어링 작업을 일반적으로 해결할 수 있는 최초의 통합 시스템이다.

Motivation

Known: 최근 LLM 기반 소프트웨어 에이전트들이 GitHub 이슈 해결, 코드 생성, 버그 수정 등 다양한 코딩 작업에서 뛰어난 성능을 보이고 있음. 그러나 기존 대부분의 에이전트들은 SWE-Bench, APPS, HumanEval 등 특정 작업이나 벤치마크에 최적화되어 있음.
Gap: 현존하는 자율 소프트웨어 에이전트들은 범용성이 낮아 특정 작업에만 효과적이며, 서로 다른 프로그래밍 언어와 다양한 실제 소프트웨어 엔지니어링 작업을 동시에 처리하지 못함. 또한 task-specific 적응(adaptation)이 필요하여 새로운 작업 유형으로 확장하기 어려움.
Why: 실제 소프트웨어 개발에서는 새로운 기능 구현, 버그 위치 파악, GitHub 이슈 해결 등 다양한 작업이 공통된 워크플로우(계획 → 위치 파악 → 편집 → 실행)를 따르므로, 이를 기반으로 한 통합 시스템이 필요함.
Approach: 인간 개발자의 전형적인 4단계 워크플로우(분석 & 계획, 기능 위치화, 코드 편집, 실행)를 에뮬레이션하는 멀티에이전트 시스템을 설계하여, 효율성(가벼운 LLM과 고급 모델의 조합), 일반화 가능성(최소한의 설정으로 다양한 작업 적응), 확장성(복잡한 작업의 효율적 처리)을 모두 달성함.

Achievement

그림 2: HYPERAGENT의 개요 - 네 가지 에이전트(Planner, Navigator, Code Editor, Executor)로 구성된 확장 가능한 멀티에이전트 시스템

범용성과 성능의 동시 달성: HYPERAGENT는 Python(SWE-Bench), Java(Defects4J), Repository-level 코드 생성(RepoExec) 등 다양한 언어와 작업에서 SOTA(State-of-the-Art) 성능을 달성하는 최초의 off-the-shelf 시스템임. GitHub 이슈 해결에서 강력한 베이스라인들을 초과 달성.
전문화된 에이전트 설계의 효율성: Planner와 Navigator는 경량 LLM을 사용하고, Code Editor와 Executor는 고급 모델을 사용함으로써, 계산 비용을 최소화하면서도 복잡한 코드 작업에서 높은 성능 유지. 이는 에이전트별 작업 특성에 따른 최적화된 리소스 할당.
광범위한 적용 가능성: Task-specific 적응 없이도 다양한 소프트웨어 엔지니어링 벤치마크에서 일관되게 우수한 성능을 발휘하며, 이는 실제 소프트웨어 개발 환경으로의 전이 가능성을 강력히 입증함.

How

그림 3: 에이전트 간 상호작용 예시 - Planner의 사고(Thought)와 요청(Request)이 Navigator, Code Editor, Executor를 차례로 호출하는 협력 과정

4-에이전트 협력 메커니즘:
- Planner 에이전트: 작업 요구사항을 분석하여 고수준 계획을 수립하고, 필요한 다음 에이전트 호출을 결정
- Navigator 에이전트: 코드베이스 검색, 정의로 이동(go_to_definition), 파일 열기(open_file) 등의 도구를 사용하여 관련 코드 컴포넌트 위치 파악
- Code Editor 에이전트: 식별된 파일을 편집하여 코드 변경 또는 새로운 기능 추가, 기존 코드와의 통합 보장
- Executor 에이전트: 수정된 코드를 실행하고 테스트하여 변경사항이 요구사항을 충족하는지 검증
반복적 개선 루프: Executor의 검증 결과가 부정적이면 프로세스가 Planner로 돌아가서 계획 수정 및 재시도
작업별 LLM 선택 전략: 복잡도가 낮은 navigation 작업에는 경량 모델(예: GPT-3.5)을, 코드 편집 및 생성에는 고급 모델(예: GPT-4)을 활용하여 비용-성능 균형 최적화
다국어 지원: 다양한 프로그래밍 언어의 구문 및 관례에 대한 이해를 통해 언어별 특성 반영

Originality

최초의 범용 멀티에이전트 SE 시스템: 기존의 task-specific 에이전트들과 달리, HYPERAGENT는 별도의 fine-tuning이나 task-specific 적응 없이 여러 프로그래밍 언어와 다양한 SE 작업을 동일한 아키텍처로 처리하는 최초의 시스템
인간 개발 워크플로우 기반 설계: 추상적인 에이전트 구성이 아닌 실제 소프트웨어 개발자들의 실증적 워크플로우를 직접 모방하는 설계 철학으로 자연스럽고 효율적인 작업 흐름 구현
효율성-일반화 트레이드오프의 해결: 경량/고급 LLM 혼합 전략으로 계산 효율성과 성능을 동시에 확보한 점이 기술적으로 신선함
광범위한 벤치마크 검증: SWE-Bench(Python), Defects4J(Java), RepoExec 등 서로 다른 특성의 세 가지 주요 벤치마크에서 모두 강력한 성능 입증으로 주장의 신뢰성 강화

Limitation & Further Study

LLM 의존성: 시스템의 성능이 기저 LLM의 능력에 크게 의존하므로, LLM의 한계(긴 컨텍스트 처리, 복잡한 추론)가 전체 시스템 성능의 상한선을 결정. 향후 더 강력한 코드 이해 모델 개발이 필요함.
에러 분석 및 회복성: 논문의 Figure 3 오류 분석에서 보듯이, 에이전트가 잘못된 결정을 내렸을 때의 자동 회복 메커니즘이 제한적. 향후 더 정교한 오류 감지 및 백트래킹 전략 개발 필요.
매우 큰 저장소의 확장성: 수백만 줄의 코드를 가진 매우 큰 저장소에서의 성능 평가 부재. 네비게이터의 검색 효율성이 저장소 규모에 따라 어떻게 변하는지에 대한 분석 부족.
특정 작업 유형의 한계: 병렬 처리가 필요한 작업이나 분산 시스템 문제 해결과 같은 특수한 SE 작업에 대한 적용 가능성이 제한적일 수 있음.
향후 연구 방향:
- 더욱 정교한 계획 수립 및 task decomposition 메커니즘 개발
- 에이전트 간 협력 방식의 학습을 통한 동적 워크플로우 조정
- 컨텍스트 길이 제약 극복을 위한 메모리 및 retrieval 시스템 통합
- 멀티-에이전트 협력의 오버헤드 감소 및 응답 시간 최적화

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

총평: HYPERAGENT는 인간 개발자의 워크플로우를 체계적으로 모방하는 설계 철학으로 범용성, 효율성, 확장성을 모두 달성한 실용적이고 혁신적인 멀티에이전트 시스템이며, 다양한 벤치마크에서의 강력한 성능 입증으로 실제 소프트웨어 개발 환경으로의 즉시적 적용 가능성을 보여주는 의미 있는 기여이다.

같이 보면 좋은 논문

다른 접근

OpenHands: AI 소프트웨어 개발자를 위한 오픈 플랫폼

소프트웨어 개발 자동화를 위한 다른 오픈 플랫폼 접근 방식

후속 연구

ChatDev: Communicative Agents for Software Development

범용 소프트웨어 엔지니어링 에이전트로 개발 자동화를 확장한다

응용 사례

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

실제 GitHub 이슈 해결을 통한 소프트웨어 에이전트 성능 평가