AI검증

허깅페이스의 오픈 에이전트 리더보드 공개와 시스템 평가 도입

허깅페이스가 IBM 리서치와 협력하여 인공지능 에이전트의 성능과 비용을 종합적으로 평가하는 리더보드를 출시했습니다. 이번 프로젝트는 단순 점수 경쟁을 넘어 실무 환경에서의 범용성과 운영 효율성을 측정하는 데 중점을 둡니다.

2026년 5월 18일

주장허깅페이스와 IBM 리서치는 인공지능(AI) 에이전트의 성능이 모델 자체의 능력뿐만 아니라 시스템 구성 요소에 따라 결정된다고 분석합니다. 에이전트가 활용하는 도구와 계획 수립 방식, 기억 관리 및 오류 복구 능력 등이 최종 결과에 핵심적인 영향을 미칩니다.

팩트허깅페이스는 2026년 5월 18일 '오픈 에이전트 리더보드'를 공식 출시했습니다. 해당 플랫폼은 모델의 성능 지표와 함께 에이전트 운영 비용을 투명하게 공개하여 실질적인 배포 가치를 평가합니다.

교차검증기존 AI 평가 방식은 특정 벤치마크 점수에만 치중하는 한계가 있었습니다. 반면 이번 리더보드는 에이전트가 다양한 환경에서 범용적으로 작동하는지, 그리고 그 과정에서 발생하는 비용이 합리적인지를 측정하는 데 집중합니다.

팩트평가에는 코딩과 연구, 개인 비서 및 고객 서비스 등 실무 환경을 포괄하는 6가지 벤치마크가 활용됩니다. 구체적으로는 SWE-Bench Verified, BrowseComp+, AppWorld, tau2-Bench Airline & Retail, tau2-Bench Telecom이 포함됩니다.

주장연구진은 범용 에이전트가 특정 작업에만 최적화된 전문 에이전트와 대등한 수준에 도달했다고 평가합니다. 별도의 튜닝 과정을 거치지 않아도 범용 에이전트가 전문 시스템보다 우수한 성능을 보이는 사례가 확인됩니다.

팩트실험 결과, 실패한 에이전트 작업은 성공한 작업보다 비용이 20%에서 54% 더 많이 발생합니다. 이는 에이전트의 오류 발생 방식이 운영 비용에 직접적인 타격을 준다는 사실을 입증합니다.

교차검증리더보드 상위 3개 에이전트는 동일한 모델을 사용함에도 시스템 구성 방식에 따라 점수와 비용에서 차이를 보입니다. 이는 모델 선택만큼이나 에이전트 아키텍처 설계가 중요하다는 점을 시사합니다.

팩트허깅페이스는 이번 프로젝트와 함께 평가 프레임워크인 '엑스젠틱(Exgentic)'을 공개했습니다. 사용자는 이를 통해 평가를 직접 재현하고 자신의 에이전트 결과를 리더보드에 제출할 수 있습니다.

주장에이전트가 사용하는 도구 목록을 최적화하여 관련 기능에 집중하게 만드는 설계가 성능 향상에 크게 기여합니다. 이는 에이전트가 불필요한 탐색을 줄이고 효율적으로 작업을 수행하도록 돕는 핵심 요소입니다.

출처허깅페이스의 공식 블로그와 IBM 리서치 공동 연구 논문을 교차 검증했습니다. 모든 평가 방법론과 데이터는 오픈 소스로 공개되어 누구나 접근 가능합니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

France 24

Pentagon says it reduced US troop brigades in Europe from four to three — The Pentagon said on Tuesday it was cutting the number of US Brigade Combat Teams stationed in Europe from four to three, returning troop levels to those seen in 2021 as Washington presses European allies to assume greater responsibility for regional defence. The move will temporarily delay the depl

6시간 전

Al Jazeera

US President Trump, family granted immunity from pending tax audits — Democratic lawmakers blast move, which follows the establishment of a controversial 'Anti-Weaponization Fund'.

6시간 전

Al Jazeera

Nigeria says joint US strikes kill 175 ISIL fighters in country’s northeast — Nigerian Army lauds joint US operation as part of ongoing military campaign to 'hunt down and kill terrorists anywhere'.

6시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

이코노미스트의 생성형 AI 도입 및 저널리즘 혁신 전략

마케팅17시간 전

AI 검색 결과 내 브랜드 언급 90% 부재 현상

마케팅4시간 전

"AI에서 결제하는 시대 온다"…구글 유니버설 카트 도입

마케팅10시간 전

이스라엘의 소말릴란드 승인과 홍해 안보 전략의 변화

국제23시간 전

오디세이, 4인용 AI 게임 시뮬레이터 아고라-1 공개

AI17시간 전

릴리즈 & 논문

전체보기 →

RELEASES

Anthropicv0.103.1

v0.103.1

이번 릴리즈에서는 SessionToolRunner가 소유하지 않은 도구 호출을 건너뛰는 버그가 수정되었습니다. 이는 SDK의 안정성을 향상시키는 데 기여합니다.

17시간 전

Anthropicv0.103.0

0.103.0 (20260519) Full Changelog: v0.102.0...v0.103.0(https://github.com/anthropics/anthropicsdkpython/compare/v0.102

1일 전

LangChainlangchain-tests==1.1.8

langchain-tests==1.1.8

`langchain-core` 버전 제한이 설정되었으며, 여러 라이브러리의 잠금 파일이 업데이트되었습니다. 또한, OpenAI 모델 참조가 갱신되었고 `langsmith`, `urllib3`, `langchain-core`, `types-pyyaml` 등의 의존성이 최신 버전으로 업데이트되었습니다.

1일 전

OpenAIv2.37.0

v2.37.0

이번 릴리즈에서는 API의 responses compact 메서드에 service_tier 파라미터가 추가되었습니다. 또한, Pydantic 이터레이터에 대한 조기 유효성 검사를 지원하며, 워크로드 ID 공급자를 사용할 때 불필요한 client_id가 제거되었습니다. 파일 타입 오류 메시지에 누락된 f-string 접두사가 수정되었습니다.

4일 전

LangChainlangchain==1.3.1

langchain==1.3.1

langchain 1.3.1 릴리즈에서는 Bedrock 제공자를 요약 토큰 검사에서 별칭으로 지정하는 수정 사항이 포함되었습니다.

4일 전

PAPERS

cs.AI

QSTRBench: 언어 모델의 정성적 공간 및 시간 계산 추론 능력을 평가하기 위한 새로운 벤치마크

2일 전

cs.LG

LLM 파인튜닝에서의 정렬 역학

2일 전