AI검증

아마존 베드록 에이전트코어의 맞춤형 코드 기반 평가기 도입

아마존 웹 서비스가 베드록 에이전트코어에 코드 기반 평가기를 도입했습니다. 이를 통해 개발자는 에이전트 애플리케이션의 품질을 결정론적으로 검증할 수 있습니다.

2026년 5월 18일

주장아마존 베드록 에이전트코어는 에이전트 애플리케이션의 품질을 다각도로 측정하고자 코드 기반 평가기를 새롭게 도입했습니다. 이는 언어 모델의 판단을 넘어 도메인 특화 요구사항을 충족하기 위한 필수적인 단계입니다.

팩트맞춤형 코드 기반 평가기는 아마존 웹 서비스 람다 함수를 평가 엔진으로 활용합니다. 사용자는 정규식 검증과 외부 데이터 조회, 비즈니스 규칙 적용 등 원하는 평가 로직을 직접 제어합니다.

교차검증거대언어모델 기반 평가 방식은 비용이 많이 들고 결정론적 결과 도출이 어려울 수 있습니다. 반면 코드 기반 평가기는 동일한 입력에 대해 항상 같은 결과를 보장하므로 객관적인 검증이 필요한 영역에 적합합니다.

팩트금융 서비스와 같은 전문 분야에서는 주가 정보의 정확성과 개인정보 보호, 필수 워크플로우 준수 여부가 중요합니다. 코드 기반 평가기는 이러한 수치적 정확성과 규정 준수 여부를 결정론적으로 확인합니다.

주장코드 기반 평가와 거대언어모델 기반 평가를 결합하면 에이전트의 신뢰성을 크게 향상할 수 있습니다. 이는 에이전트가 단순히 그럴듯한 답변을 하는 수준을 넘어 계약과 규칙을 준수하도록 만듭니다.

팩트평가기는 에이전트의 오픈텔레메트리 스팬 데이터를 입력받아 실행됩니다. 성공 시 라벨과 점수, 설명을 반환하며 실패 시 오류 코드와 메시지를 반환하는 고정된 계약 구조를 따릅니다.

팩트평가 수준은 트레이스와 도구 호출, 세션의 세 가지 단계로 설정할 수 있습니다. 동일한 람다 함수를 여러 수준으로 등록하여 다양한 범위에서 에이전트의 품질을 점검합니다.

주장온디맨드 평가 방식은 개발 반복과 회귀 테스트, 지속적 통합 및 배포 관문에 활용됩니다. 이를 통해 새로운 에이전트 버전을 배포하기 전 품질을 자동으로 검증하여 운영 안정성을 확보합니다.

팩트온라인 평가 모드는 실시간 운영 트래픽을 지속적으로 샘플링하여 점수를 매깁니다. 개발 환경에서 사용한 동일한 평가기 식별자를 운영 환경에서도 그대로 사용하여 일관된 품질 관리를 지원합니다.

출처아마존 웹 서비스 공식 블로그를 통해 해당 기술의 도입 사실과 상세 사양을 교차 검증했습니다. (https://aws.amazon.com/blogs/machine-learning/build-custom-code-based-evaluators-in-amazon-bedrock-agentcore/)

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

France 24

Pentagon says it reduced US troop brigades in Europe from four to three — The Pentagon said on Tuesday it was cutting the number of US Brigade Combat Teams stationed in Europe from four to three, returning troop levels to those seen in 2021 as Washington presses European allies to assume greater responsibility for regional defence. The move will temporarily delay the depl

6시간 전

Al Jazeera

US President Trump, family granted immunity from pending tax audits — Democratic lawmakers blast move, which follows the establishment of a controversial 'Anti-Weaponization Fund'.

6시간 전

Al Jazeera

Nigeria says joint US strikes kill 175 ISIL fighters in country’s northeast — Nigerian Army lauds joint US operation as part of ongoing military campaign to 'hunt down and kill terrorists anywhere'.

6시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

이코노미스트의 생성형 AI 도입 및 저널리즘 혁신 전략

마케팅17시간 전

AI 검색 결과 내 브랜드 언급 90% 부재 현상

마케팅4시간 전

"AI에서 결제하는 시대 온다"…구글 유니버설 카트 도입

마케팅10시간 전

이스라엘의 소말릴란드 승인과 홍해 안보 전략의 변화

국제23시간 전

오디세이, 4인용 AI 게임 시뮬레이터 아고라-1 공개

AI17시간 전

릴리즈 & 논문

전체보기 →

RELEASES

Anthropicv0.103.1

v0.103.1

이번 릴리즈에서는 SessionToolRunner가 소유하지 않은 도구 호출을 건너뛰는 버그가 수정되었습니다. 이는 SDK의 안정성을 향상시키는 데 기여합니다.

17시간 전

Anthropicv0.103.0

0.103.0 (20260519) Full Changelog: v0.102.0...v0.103.0(https://github.com/anthropics/anthropicsdkpython/compare/v0.102

1일 전

LangChainlangchain-tests==1.1.8

langchain-tests==1.1.8

`langchain-core` 버전 제한이 설정되었으며, 여러 라이브러리의 잠금 파일이 업데이트되었습니다. 또한, OpenAI 모델 참조가 갱신되었고 `langsmith`, `urllib3`, `langchain-core`, `types-pyyaml` 등의 의존성이 최신 버전으로 업데이트되었습니다.

1일 전

OpenAIv2.37.0

v2.37.0

이번 릴리즈에서는 API의 responses compact 메서드에 service_tier 파라미터가 추가되었습니다. 또한, Pydantic 이터레이터에 대한 조기 유효성 검사를 지원하며, 워크로드 ID 공급자를 사용할 때 불필요한 client_id가 제거되었습니다. 파일 타입 오류 메시지에 누락된 f-string 접두사가 수정되었습니다.

4일 전

LangChainlangchain==1.3.1

langchain==1.3.1

langchain 1.3.1 릴리즈에서는 Bedrock 제공자를 요약 토큰 검사에서 별칭으로 지정하는 수정 사항이 포함되었습니다.

4일 전

PAPERS

cs.AI

QSTRBench: 언어 모델의 정성적 공간 및 시간 계산 추론 능력을 평가하기 위한 새로운 벤치마크

2일 전

cs.LG

LLM 파인튜닝에서의 정렬 역학

2일 전