허깅페이스의 오픈 에이전트 리더보드 공개와 시스템 평가 도입
허깅페이스가 IBM 리서치와 협력하여 인공지능 에이전트의 성능과 비용을 종합적으로 평가하는 리더보드를 출시했습니다. 이번 프로젝트는 단순 점수 경쟁을 넘어 실무 환경에서의 범용성과 운영 효율성을 측정하는 데 중점을 둡니다.
주장허깅페이스와 IBM 리서치는 인공지능(AI) 에이전트의 성능이 모델 자체의 능력뿐만 아니라 시스템 구성 요소에 따라 결정된다고 분석합니다. 에이전트가 활용하는 도구와 계획 수립 방식, 기억 관리 및 오류 복구 능력 등이 최종 결과에 핵심적인 영향을 미칩니다.
팩트허깅페이스는 2026년 5월 18일 '오픈 에이전트 리더보드'를 공식 출시했습니다. 해당 플랫폼은 모델의 성능 지표와 함께 에이전트 운영 비용을 투명하게 공개하여 실질적인 배포 가치를 평가합니다.
교차검증기존 AI 평가 방식은 특정 벤치마크 점수에만 치중하는 한계가 있었습니다. 반면 이번 리더보드는 에이전트가 다양한 환경에서 범용적으로 작동하는지, 그리고 그 과정에서 발생하는 비용이 합리적인지를 측정하는 데 집중합니다.
팩트평가에는 코딩과 연구, 개인 비서 및 고객 서비스 등 실무 환경을 포괄하는 6가지 벤치마크가 활용됩니다. 구체적으로는 SWE-Bench Verified, BrowseComp+, AppWorld, tau2-Bench Airline & Retail, tau2-Bench Telecom이 포함됩니다.
주장연구진은 범용 에이전트가 특정 작업에만 최적화된 전문 에이전트와 대등한 수준에 도달했다고 평가합니다. 별도의 튜닝 과정을 거치지 않아도 범용 에이전트가 전문 시스템보다 우수한 성능을 보이는 사례가 확인됩니다.
팩트실험 결과, 실패한 에이전트 작업은 성공한 작업보다 비용이 20%에서 54% 더 많이 발생합니다. 이는 에이전트의 오류 발생 방식이 운영 비용에 직접적인 타격을 준다는 사실을 입증합니다.
교차검증리더보드 상위 3개 에이전트는 동일한 모델을 사용함에도 시스템 구성 방식에 따라 점수와 비용에서 차이를 보입니다. 이는 모델 선택만큼이나 에이전트 아키텍처 설계가 중요하다는 점을 시사합니다.
팩트허깅페이스는 이번 프로젝트와 함께 평가 프레임워크인 '엑스젠틱(Exgentic)'을 공개했습니다. 사용자는 이를 통해 평가를 직접 재현하고 자신의 에이전트 결과를 리더보드에 제출할 수 있습니다.
주장에이전트가 사용하는 도구 목록을 최적화하여 관련 기능에 집중하게 만드는 설계가 성능 향상에 크게 기여합니다. 이는 에이전트가 불필요한 탐색을 줄이고 효율적으로 작업을 수행하도록 돕는 핵심 요소입니다.
출처허깅페이스의 공식 블로그와 IBM 리서치 공동 연구 논문을 교차 검증했습니다. 모든 평가 방법론과 데이터는 오픈 소스로 공개되어 누구나 접근 가능합니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.
