AI검증

허깅페이스 오픈 ASR 리더보드의 벤치마킹 방지책 도입

허깅페이스가 오픈 ASR 리더보드의 신뢰도를 높이기 위해 비공개 데이터셋을 활용한 평가 방식을 도입합니다. 특정 지표에만 최적화되는 벤치마킹의 한계를 극복하고 모델의 실제 성능을 검증하기 위한 조치입니다.

2026년 5월 6일

주장허깅페이스는 오픈 ASR 리더보드의 신뢰성을 높이기 위해 벤치마킹 방지책을 도입했습니다. 특정 지표를 목표로 삼으면 해당 지표가 측정 도구로서의 가치를 상실한다는 굿하트의 법칙을 경계하기 위한 전략입니다.

팩트2023년 9월 출시된 오픈 ASR 리더보드는 현재까지 71만 회 이상의 방문 기록을 세웠습니다. 음성 인식 기술 발전을 위해 커뮤니티의 지속적인 관심과 참여가 이어지고 있습니다.

팩트이번 업데이트를 위해 앱엔(Appen Inc.)과 데이터오션AI(DataoceanAI)가 고품질의 영어 음성 인식 데이터셋을 제공했습니다. 해당 데이터셋은 스크립트 기반 음성과 대화형 음성을 모두 포함하며 다양한 억양을 다룹니다.

팩트새로 추가된 비공개 데이터셋은 호주, 캐나다, 인도, 미국, 영국 등 다양한 억양을 포함합니다. 총 11개의 데이터셋 분할이 추가되었으며 각 데이터셋은 읽기 방식과 대화형 방식으로 나뉩니다.

팩트모든 테스트 데이터는 허브의 단일 데이터셋으로 통합되어 접근성을 높였습니다. 또한 위스퍼(Whisper)의 정규화 도구를 기반으로 구두점과 대소문자를 제거하고 미국식 철자로 매핑하는 표준화 과정을 거칩니다.

팩트리더보드의 기본 평균 WER(단어 오류율) 계산에는 공개 데이터셋만 포함됩니다. 사용자는 필요에 따라 토글 기능을 사용하여 비공개 데이터셋을 포함한 성능 결과를 확인할 수 있습니다.

교차검증비공개 데이터셋 도입은 개방성이라는 허깅페이스의 기본 원칙과 상충할 수 있다는 우려가 존재합니다. 하지만 허깅페이스는 모델의 실제 성능을 검증하고 신뢰도를 높이는 필수적인 과정이라고 설명합니다.

교차검증모델 개발자가 데이터 제공업체의 데이터를 학습에 활용할 가능성에 대해 허깅페이스는 주의를 기울이고 있습니다. 여러 데이터 제공업체를 활용하여 특정 업체 데이터에 대한 모델의 편향된 이점을 상쇄하고자 합니다.

주장표준화와 개방성은 벤치마킹의 핵심 요소이지만, 동시에 특정 데이터에만 최적화되는 벤치마킹에 취약하게 만듭니다. 허깅페이스는 실제 환경에서의 강건성을 확보하기 위해 지속적으로 새로운 평가 환경을 도입할 계획입니다.

출처허깅페이스의 공식 블로그 게시물을 통해 해당 내용을 교차 검증했습니다. (https://huggingface.co/blog/open-asr-leaderboard-private-data)

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Anthropic CEO Dario Amodei: I think if AI is used in an appropriate way, not even warfare, but think of intelligence collection. Let's say we're able to predict an invasion of Taiwan or a new movement in Ukraine. Our adversaries will think twice about conducting some kind of invasion or military operation if we know everything that they're doing. Source: Bloomberg

2시간 전

TELEGRAM · Clash Report

Pope Leo XIV: Integration does not mean erasing the history of the person who arrives, nor demanding that they leave behind everything that forms part of their memory. Neither does it mean creating parallel worlds, closed off from one another, where people live side by side without truly meeting. Integration is a reciprocal journey. The one who arrives learns to inhabit a new land, and the one who receives learns to enlarge their own home without diluting their identity or closing their heart to

2시간 전

TELEGRAM · Clash Report

Keir Starmer: I'm not going to walk away. I don't think we should plunge the country into the chaos of a leadership election. And let me just be clear with you, that's not about personal vanity, it's not about a stubbornness, it's out of a very deep sense of duty. I was elected to serve this country...

2시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

제프 베이조스의 인공지능 스타트업 프로메테우스 120억 달러 투자 유치

AI21시간 전

AI 봇 트래픽 급증에 따른 서버 인프라 비용 관리 전략

마케팅12시간 전

아바타 AI의 인도 시장 맞춤형 영상 생성 모델 바리아 출시

AI7시간 전

오라클 피플소프트 보안 결함으로 인한 100개 기업 해킹 피해

AI17시간 전

방글라데시-미얀마 국경 안보 위기와 민간인 피해 확산

국제17시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain==1.3.8

langchain==1.3.8

langchain 1.3.8 릴리즈에서는 문서 문자열 내 이중 백틱을 제거하고, `create_agent`에 오버로드를 추가했습니다. 또한, 비동기 미들웨어 데코레이터 타이핑을 지원하고 구조화된 출력 모델의 폴백을 개선했습니다.

13시간 전

meta-llama/llama-stackv1.1.0

v1.1.0

이번 릴리즈에서는 라이브러리 클라이언트의 요청 빌드 전 헤더 정리, CI 환경에서 테스트 픽스처가 메인 서버 로그를 덮어쓰는 문제 수정, OpenAI 응답 스키마 드리프트 검사기 추가 등 다양한 수정 사항이 포함되었습니다. 또한, 라우터의 헬스 체크 및 벡터 스토어 팬아웃 병렬 처리, 비-OpenAI 모델을 위한 5단계 토크나이저 해석 체인 추가, pgvector에서 psycopg2를 asyncpg로 마이그레이션하는 등의 성능 개선 및 기능 추가가 이루어졌습니다. Anthropic Message Batches API가 추가되었으며, 여러 프로바이더의 비동기 안전성 개선 및 비밀 처리 강화 등 전반적인 안정성 향상에 초점을 맞추었습니다.

1일 전

LangChainlangchain-core==1.4.6

langchain-core==1.4.6

이번 릴리즈에서는 추적 메타데이터에 패키지 버전 추적 기능이 추가되었습니다. 또한, v1 스트리밍 도구 호출이 정규화되었으며, 타입 체크 설정이 통합되었습니다.

1일 전

LangChainlangchain-model-profiles==0.0.6

langchain-model-profiles 0.0.6

langchain-model-profiles 0.0.6 버전이 릴리즈되었습니다. 이번 업데이트에서는 모델 프로필에 `text_inputs` 및 `text_outputs` 필드가 추가되었으며, 프로필 생성을 위한 도구가 개선되었습니다. 또한, 여러 종속성이 업데이트되었습니다.

1일 전

LangChainlangchain-core==1.4.5

langchain-core==1.4.5

langchain-core 1.4.5 릴리즈에서는 스트리밍 시 툴 호출 청크 유효성 검사 기능이 추가되었습니다. 또한, 비동기 트레이서의 동기 컨텍스트에서의 대체 동작 및 구조화된 출력 모델의 대체 동작이 개선되었습니다.

1일 전

PAPERS

cs.AI

LLM을 활용한 사회 및 행동 과학 분야의 자동화된 재현성 평가

1일 전

cs.AI

EurekAgent: 자율적 과학 발견을 위한 에이전트 환경 엔지니어링의 모든 것

1일 전