저자: Tianyang Zhong, Zheng Liu, Yi Pan, Yutong Zhang, Yifan Zhou, Shizhe Liang, Zihao Wu, Yanjun Lyu, Peng Shu, Xiaowei Yu, C. Cao, Hanqi Jiang, Hanxu Chen, Yiwei Li, Junhao Chen, Huawen Hu, Yihe Liu, Huaqin Zhao, Shaochen Xu, Haixing Dai | 날짜: 2024 | DOI: 10.48550/arXiv.2409.18486
OpenAI의 o1-preview 대규모 언어 모델(LLM)을 다양한 복잡 추론 작업에 걸쳐 포괄적으로 평가한 결과, 컴퓨터 과학, 수학, 자연과학, 의학, 언어학, 사회과학 등 여러 영역에서 인간 수준 이상의 성능을 달성했으며, 이는 인공일반지능(AGI) 달성을 위한 중요한 진전을 시사한다.
총평: 본 논문은 OpenAI o1의 능력을 가장 광범위하게 평가한 첫 종합 연구로서, 다양한 분야에서 인간 수준 이상의 성능을 실증함으로써 AGI 달성에 대한 중요한 근거를 제시했으며, 제시된 AGI-Benchmark 1.0은 향후 LLM 평가의 표준이 될 수 있는 중대한 기여이다. 다만 멀티모달 통합, 도메인 외 일반화, 그리고 실제 배포 시 윤심사항 등에서 추가 연구가 필요하다.