BrowseComp: A simple yet challenging benchmark for browsing agents

Essence

Figure 1: 테스트 시 계산량(browsing effort)에 따른 OpenAI Deep Research의 BrowseComp 성능. 정확도가 계산량에 비례하여 증가

웹 에이전트의 능력을 평가하기 위해 1,266개의 어려운 질문으로 구성된 BrowseComp 벤치마크를 제시한다. 이 벤치마크는 깊이 있는 웹 탐색과 창의적인 검색 능력을 요구하면서도 답변이 짧고 검증이 용이한 특징을 갖는다.

Known: 기존 정보 검색(Information Retrieval) 벤치마크들(QUAC, SQuAD, HotpotQA 등)은 최근 언어 모델의 발전으로 포화되었으며, 쉽게 찾을 수 있는 정보 검색에 초점을 맞추고 있음
Gap: 실제 웹 에이전트가 필요한 '어려운 정보 탐색', 특히 여러 웹페이지에 걸친 복잡한 조건을 만족하는 정보 찾기 능력을 평가할 수 있는 벤치마크 부재
Why: 챗봇에서 추론 모델(reasoner), 에이전트로 진화하는 AI 시스템에서 지속적인 웹 탐색 능력이 점점 중요해지고 있음
Approach: 인간 트레이너가 수동으로 10분 이내에 단순 구글 검색으로는 풀 수 없고, 기존 모델(GPT-4o, Claude 등)도 풀지 못하는 1,266개의 질문과 짧은 답변을 수집하여 벤치마크 구성

Figure 2: BrowseComp의 주제 분포. TV/영화(16.2%), 과학기술(13.7%), 미술(10.0%) 등 다양한 영역 커버

벤치마크 품질 검증: 인간 트레이너가 1,255개 문제 중 367개(29.2%)만 2시간 내 해결 가능하며, 이 중 86.4%가 참조 답변과 일치—벤치마크의 높은 난이도 입증
포괄적 평가 커버리지: 10개 카테고리(TV/영화, 과학기술, 미술, 역사, 스포츠, 음악 등) 1,266개 문제로 다양한 도메인의 지식 검색 능력 측정
스케일 가능한 성능 곡선: OpenAI Deep Research가 테스트 시 계산량 증가에 따라 부드러운 성능 향상을 보여 모델 개선을 정량화할 수 있는 감도 있는 벤치마크임을 입증

Figure 3: 인간이 문제를 해결한 시간 분포(좌)와 포기한 시간 분포(우). 해결된 문제는 1시간부터 3시간까지 분산, 포기된 경우 대부분 2시간 근처

데이터 수집 및 검증 방법론:

역제곱 방식(Inverted Question Design): 실제 사실에서 시작하여 검증은 쉽지만 발견은 어려운 질문으로 변환. 예) 특정 학회에서 특정 대학 출신 특정 저자로 논문 찾기
난이도 검증 3단계:
1. 기존 모델(GPT-4o, o1, Deep Research 초기 버전) 불가능 확인
2. 5회 단순 구글 검색으로 첫 페이지에서 답 찾기 불가능 확인
3. 다른 인간 트레이너가 2시간 내 40% 이상 해결 불가능할 때까지 개선
단순성과 검증 용이성: 모든 답변을 단일 짧은 텍스트 문자열로 제한하고, GPT 기반 의미적 동등성(semantic equivalence) 검사자를 사용한 자동 평가
위음성(False Negative) 완화: 검증 불가능한 추가 정답 존재 가능성에 대비하여, 트레이너가 창의적 제약 추가 및 다른 트레이너의 검증 피드백을 통해 문제 정제

프로그래밍 경진대회 유추 적용: CodeForces/LeetCode가 코딩 능력의 핵심 지표인 것처럼, BrowseComp를 웹 탐색의 핵심 능력(지속성, 창의성, 팩트 추론)을 측정하는 유사한 패러다임으로 정위
역제곱 데이터 생성 철학: 기존 QA 벤치마크(SimpleQA를 따름)와 달리, 검증 용이성과 발견 난이도를 명시적으로 분리하여 에이전트의 진정한 탐색 역량을 측정
인간 기준선의 투명한 공개: 트레이너 성능(29.2% 해결률, 평균 2시간 소요)을 명확히 제시하여 모델 성능 해석의 맥락 제공

제한된 평가 범위: 실제 사용자 쿼리 분포를 반영하지 못하며, 긴 답변 생성, 질의의 모호성 해결, 대화형 명확화 등 실전 에이전트 필수 능력 미포함
단일 정답 가정: 역제곱 설계의 특성상 참조 답변 외 추가 정답 존재 가능성을 완전히 배제할 수 없어, 이중 채점 자동화의 한계 존재
도메인 편향 위험: 트레이너의 개인적 관심사 기반 질문 생성으로 인한 주제 분포 편향 가능성(TV/영화 16.2%로 과다 대표)
후속 연구 방향:
- 경진대회 수준의 웹 탐색 능력을 가진 전문가(탐정, 조사 기자)의 성능 분석
- 병렬 샘플링(parallel sampling)과 신뢰도 기반 조기 종료 메커니즘의 효율성 연구
- 장문 답변, 불확실성 처리 등을 포함한 확장 벤치마크 개발

총평: BrowseComp는 급성장하는 웹 에이전트 분야에 명확한 표준을 제공하는 실용적이고 잘 설계된 벤치마크이지만, 실제 사용자 요구(긴 답변, 모호성 해결)를 포함한 확장이 향후 필요하다.