LLM Agents Making Agent Tools

저자: G. Wölflein, Dyke Ferber, D. Truhn, Ognjen Arandjelovi'c, J. Kather | 날짜: 2025 | DOI: 10.48550/arXiv.2502.11705


Essence

Figure 1

에이전트가 런타임에 동적으로 확장 가능한 도구 집합을 보유하는 미래 비전

TOOLMAKER는 과학 논문의 공개 코드 저장소로부터 LLM 호환 도구를 자동으로 생성하는 에이전트 프레임워크로, 기존에 사람이 수동으로 구현해야 했던 복잡한 과학 도구들을 자동화한다.

Motivation

Achievement

Figure 2

TOOLMAKER의 입력(작업 설명, 논문, GitHub URL, 사용 예시)과 출력(Docker 컨테이너, Python 함수)

  1. 벤치마크 구축:
    • TM-BENCH: 의료(병리학, 방사선학, 오믹스) 및 비의료(LLM, 3D 비전) 분야의 15개 복잡한 계산 작업과 100개 이상의 단위 테스트로 구성
    • 기존 벤치마크와 달리 의존성 사전 설치 가정 없이 완전 개방형 환경에서 평가
  2. 우수한 성과:
    • 80% 작업 성공률로 현존 최고 수준의 소프트웨어 공학 에이전트(OpenHands 등)를 크게 상회
    • 종단간(end-to-end) 워크플로우 지원: 리소스 다운로드, 의존성 관리, 대규모 코드베이스 탐색, 코드 구현/테스트/디버깅

How

Figure 3

TOOLMAKER 워크플로우: 환경 설정 → 도구 구현 단계의 2단계 프로세스

핵심 설계 요소

1) 워크플로우 상태 표현

2) 워크플로우 컴포넌트

3) 2단계 워크플로우

Stage 1: 환경 설정 (Environment Setup)

Stage 2: 도구 구현 (Tool Implementation)

4) 자기 수정 메커니즘

5) 최소한의 도구 정의

Originality

Limitation & Further Study

Evaluation

총평: TOOLMAKER는 공개 과학 코드 재활용이라는 현실적인 문제를 타깃하여 LLM 에이전트의 실용성을 크게 향상시킨 논문으로, 특히 의료/과학 분야에서의 도구 접근성 민주화라는 중요한 사회적 임팩트를 제시한다. 다만 이론적 기여는 제한적이며, 벤치마크 규모 확대와 실제 배포 환경에서의 신뢰성 검증이 향후 과제이다.

같이 보면 좋은 논문

기반 연구
언어모델이 도구를 사용하는 기본 원리를 제공
후속 연구
LLM과 도구 사용에 대한 포괄적인 조사 연구
← 목록으로 돌아가기