AI검증

서울대·카네기멜론대 'SOOHAK 벤치마크', AI 수학적 한계 규명

카네기멜론대와 서울대 등 공동 연구진이 개발한 SOOHAK 벤치마크 논문이 세계 최대 오픈소스 AI 허브 허깅 페이스의 '오늘의 논문'(Paper of a Day)에 선정됐습니다. 인공지능 모델의 수학적 추론 역량을 분석한 연구입니다. 연구 결과, AI는 고난도 문제 해결과 오류 식별 능력에서 뚜렷한 한계를 보였습니다.

2026년 5월 17일

주장카네기멜론대와 엘류서AI, 서울대 공동 연구진이 개발한 SOOHAK 벤치마크는 현재 인공지능 모델이 연구 수준의 수학 문제를 해결하고 풀 수 없는 문제를 식별하는 데 한계를 지녔음을 보여줍니다. 기존 올림피아드 수준을 넘어선 고난도 문제에서 모델들의 성능 저하가 뚜렷하게 나타납니다.

팩트SOOHAK은 439개의 독창적인 문제로 구성됩니다. 이 중 340개는 대학원 및 연구 수준의 챌린지 문제이며, 99개는 의도적으로 오류를 포함한 거부 문제입니다. 모든 문제는 38명의 교수진과 25명의 박사 과정생, 5명의 국제수학올림피아드 메달리스트가 인공지능의 도움 없이 직접 작성했습니다.

팩트챌린지 문제 세트에서 구글의 제미나이 3 프로가 30퍼센트로 가장 높은 점수를 기록했습니다. GPT-5는 26퍼센트, 클로드 오퍼스 4.5는 10퍼센트의 성적을 보였으며, 오픈 웨이트 모델들은 대부분 15퍼센트 미만의 저조한 성적을 나타냈습니다.

교차검증연구진은 오픈 웨이트 모델들이 미발표 자료나 틈새 분야에 대한 학습 데이터 부족으로 인해 연구 수준의 수학 문제 해결 능력이 떨어진다고 분석했습니다. 이는 범용 모델이 특정 전문 분야의 수학적 추론을 일반화하는 데 어려움을 겪고 있음을 시사합니다.

팩트오류가 포함되어 풀 수 없는 문제들에 대해 모델들은 정답을 제시하려 시도하며, 50퍼센트 이상의 정답률을 기록한 모델은 없었습니다. 오픈 웨이트 모델인 GLM-5가 50퍼센트 미만으로 가장 좋은 성적을 냈으며, 큐웬3 모델군은 3퍼센트 미만으로 매우 낮은 성능을 보였습니다.

주장연구진은 모델의 규모가 커지고 계산 자원이 늘어나면 문제 해결 능력은 선형적으로 증가하지만, 문제가 잘못되었음을 인지하고 거부하는 능력은 비례해서 향상되지 않는다고 지적했습니다. 이는 현재의 인공지능 모델들이 오류 식별을 위한 최적화 목표를 직접적으로 다루지 않고 있음을 의미합니다.

팩트인간 전문가 그룹과의 비교에서 제미나이 3 프로는 61퍼센트의 정답률로 인간 그룹의 51퍼센트를 상회했습니다. 그러나 박사급 연구원들보다 올림피아드 경험이 있는 학생들이 더 높은 성적을 거두었는데, 이는 벤치마크가 연구의 깊이보다는 제한된 시간 내의 경쟁 수학 능력을 측정하기 때문입니다.

교차검증SOOHAK은 수치적 정답을 요구하는 형식으로 설계되어 있어 증명이나 반례 제시와 같은 고등 수학의 영역을 충분히 평가하지 못한다는 한계가 있습니다. 앞으로의 버전에서는 형식 증명 보조 도구나 전문가 검토 패널 등 더 풍부한 평가 형식이 필요합니다.

팩트필즈상 수상자인 티모시 가워스는 인공지능이 특정 정수론 문제를 해결하는 등 일부 성과를 냈음을 인정했습니다. 그러나 테렌스 타오 교수는 인공지능이 에르되시 문제 등에서 보여준 성공률은 1~2퍼센트에 불과하며, 화려한 결과와 실제 연구 역량 사이에는 큰 간극이 존재한다고 경고했습니다.

출처아카이브 관련 논문(https://arxiv.org/abs/2605.09063)과 더 디코더(https://the-decoder.com/new-math-benchmark-reveals-ai-models-confidently-solve-problems-that-have-no-solution/), 허빙페이스 게재본(https://huggingface.co/papers/2605.09063)을 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

France 24

Pentagon says it reduced US troop brigades in Europe from four to three — The Pentagon said on Tuesday it was cutting the number of US Brigade Combat Teams stationed in Europe from four to three, returning troop levels to those seen in 2021 as Washington presses European allies to assume greater responsibility for regional defence. The move will temporarily delay the depl

7시간 전

Al Jazeera

US President Trump, family granted immunity from pending tax audits — Democratic lawmakers blast move, which follows the establishment of a controversial 'Anti-Weaponization Fund'.

7시간 전

Al Jazeera

Nigeria says joint US strikes kill 175 ISIL fighters in country’s northeast — Nigerian Army lauds joint US operation as part of ongoing military campaign to 'hunt down and kill terrorists anywhere'.

7시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

이코노미스트의 생성형 AI 도입 및 저널리즘 혁신 전략

마케팅18시간 전

AI 검색 결과 내 브랜드 언급 90% 부재 현상

마케팅5시간 전

"AI에서 결제하는 시대 온다"…구글 유니버설 카트 도입

마케팅11시간 전

오디세이, 4인용 AI 게임 시뮬레이터 아고라-1 공개

AI18시간 전

르완다 드론 의료 물류 도입을 통한 사망률 감소 성과

경제18시간 전

릴리즈 & 논문

전체보기 →

RELEASES

Anthropicv0.103.1

v0.103.1

이번 릴리즈에서는 SessionToolRunner가 소유하지 않은 도구 호출을 건너뛰는 버그가 수정되었습니다. 이는 SDK의 안정성을 향상시키는 데 기여합니다.

18시간 전

Anthropicv0.103.0

0.103.0 (20260519) Full Changelog: v0.102.0...v0.103.0(https://github.com/anthropics/anthropicsdkpython/compare/v0.102

1일 전

LangChainlangchain-tests==1.1.8

langchain-tests==1.1.8

`langchain-core` 버전 제한이 설정되었으며, 여러 라이브러리의 잠금 파일이 업데이트되었습니다. 또한, OpenAI 모델 참조가 갱신되었고 `langsmith`, `urllib3`, `langchain-core`, `types-pyyaml` 등의 의존성이 최신 버전으로 업데이트되었습니다.

1일 전

OpenAIv2.37.0

v2.37.0

이번 릴리즈에서는 API의 responses compact 메서드에 service_tier 파라미터가 추가되었습니다. 또한, Pydantic 이터레이터에 대한 조기 유효성 검사를 지원하며, 워크로드 ID 공급자를 사용할 때 불필요한 client_id가 제거되었습니다. 파일 타입 오류 메시지에 누락된 f-string 접두사가 수정되었습니다.

4일 전

LangChainlangchain==1.3.1

langchain==1.3.1

langchain 1.3.1 릴리즈에서는 Bedrock 제공자를 요약 토큰 검사에서 별칭으로 지정하는 수정 사항이 포함되었습니다.

4일 전

PAPERS

cs.AI

QSTRBench: 언어 모델의 정성적 공간 및 시간 계산 추론 능력을 평가하기 위한 새로운 벤치마크

2일 전

cs.LG

LLM 파인튜닝에서의 정렬 역학

2일 전