AI미검

"AI에 욕하면 똑똑해진다?"...반박 논문 등장

인공지능에게 무례하게 명령하면 성능이 향상된다는 주장을 뒤집는 연구가 발표됐습니다. 다양한 언어 모델을 교차 검증한 결과, 정중하거나 중립적인 어조를 사용할 때 인공지능이 더 높은 정확도를 보였으며, 특히 인문학처럼 복잡한 추론이 필요한 분야에서는 무례한 어조가 성능을 하락시킨 것으로 나타났습니다.

2026년 5월 8일

팩트2025년 10월 아카이브에 공개된 펜실베이니아 주립대 소속 옴 도바리야와 아킬 쿠마르의 '말조심 하세요: 프롬프트의 정중함이 대규모언어모델 정확도에 미치는 영향 조사' 연구에서는 50개 문항으로 ChatGPT-4o에 실험한 결과, 무례한 프롬프트가 정중한 프롬프트보다 더 높은 답변 정확도를 기록한 것으로 나타났습니다.

교차검증2026년 노스웨스턴대, 듀크대, 카네기멜런대, 뉴욕대 소속 연합 연구진은 2026년 아카이브에 공개한 '어조가 답변을 바꾸는가' 논문에서 방대한 데이터셋으로 최신 대형 언어 모델을 교차 검증해 중립적이거나 정중한 프롬프트가 더 우수한 성능을 낸다는 기존 연구와 상반된 결과를 발표했습니다.

주장이전 연구는 평가 문항이 50개에 불과해 일반화에 한계가 있었다는 주장입니다.

팩트한유 차이(노스웨스턴대), 리어 진(듀크대), 빈치 쉔(노스웨스턴대), 란 후(카네기멜런대), 샤오징 판(뉴욕대) 등은 논문에서 GPT-4o mini, Gemini 2.0 Flash, Llama 4 Scout 등 3개 모델을 평가했습니다. 이들은 과학과 인문학 영역을 포괄하는 MMMLU 벤치마크의 6개 작업을 활용해 프롬프트의 어조가 정확도에 미치는 영향을 분석했습니다.

주장분석 결과, 중립적이거나 매우 정중한 프롬프트가 매우 무례한 프롬프트보다 전반적으로 높은 정확도를 기록한 것으로 나타났습니다.

주장연구진은 어조 효과가 특정 영역과 모델에 국한된다는 사실을 규명했습니다. 철학과 전문 법률 등 복잡한 해석과 판단을 요구하는 인문학 작업에서 매우 무례한 어조는 GPT와 Llama 모델의 정확도를 통계적으로 유의미하게 하락시켰습니다. 과학 영역에서는 긍정적 어조 효과가 나타났으나 통계적 유의성은 확보하지 못했습니다.

주장모델별로 어조 변화에 대한 민감도가 달랐습니다. GPT와 Llama 모델은 인문학 분야에서 무례한 어조에 취약성을 보였습니다. 반면 Gemini 모델은 평가된 모든 작업에서 어조 변화에 따른 통계적으로 유의미한 성능 차이를 보이지 않았습니다.

주장여러 주제를 혼합해 질문하는 일반적 상황에서는 사용자의 프롬프트 어조가 인공지능 성능에 미치는 영향이 미미했습니다. 특정 작업에서 나타나는 어조의 영향력은 사용 범위가 넓어질수록 희석됐습니다.

주장연구진이 각 영역 내 개별 작업 성능을 통합해 분석한 결과, 어조에 따른 통계적 유의성은 대부분 사라졌습니다. 현대 대형 언어 모델은 다양한 영역이 혼합된 일반적인 사용 환경에서 프롬프트 어조 변화에 강건하게 대응하는 경향이 있었습니다.

교차검증두 연구 모두 동료평가를 거치지 않은 상태로 일반화에 한계가 있습니다.

출처펜실베이니아 주립대 소속 연구진의 'Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy' 논문과 노스웨스턴대 등 연합 연구진의 'Does Tone Change the Answer? Evaluating Prompt Politeness Effects on Modern LLMs: GPT, Gemini, and LLaMA' 논문을 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

Social Links Blog

Brand Protection: The Evolving Threat Landscape — Social Links examines how brand threats continue to evolve beyond trademark and domain protection to include AI-driven impersonation, phishing infrastructure, deepfakes, and dark web exposure, and what effective brand protection now requires.

1시간 전

ECB Press

EU structural financial indicators: end of 2025

1시간 전

SCMP

China missed the World Cup. Its brands didn’t — Inside a sprawling broadcast hub in Dallas, thousands of devices supplied by Lenovo are helping Fifa manage and distribute content from stadiums across the United States, Canada and Mexico, forming part of the technological backbone of the largest World Cup ever staged. The central role played by th

1시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

AI 봇 트래픽 급증에 따른 서버 인프라 비용 관리 전략

마케팅19시간 전

아바타 AI의 인도 시장 맞춤형 영상 생성 모델 바리아 출시

AI14시간 전

구글 동적 검색 광고의 인공지능 전환 기한 연장

마케팅4시간 전

트럼프 이란 공격 취소와 평화 협상 기대에 따른 글로벌 증시 급등

경제19시간 전

걸프 국가들의 제한적 신뢰 기반 방어 체계 구축 방안

국제14시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain-core==1.4.7

langchain-core==1.4.7

이번 릴리즈에서는 tornado 라이브러리 버전이 6.5.5에서 6.5.6으로 업데이트되었습니다. 또한, Pydantic v1 지원 관련 버그가 수정되었으며, 패키지 버전 추적 메타데이터 이름이 변경되었습니다. 문서 문자열의 이중 백틱도 제거되었습니다.

5시간 전

LangChainlangchain==1.3.9

langchain==1.3.9

이번 릴리즈에서는 Anthropic 관련 라이브러리 버전이 1.4.6으로 업데이트되었습니다. 또한, 파일 검색 결과 범위를 제한하고 Anthropic의 `allowed_prefixes` 설정을 강화하는 수정 사항이 포함되었습니다.

8시간 전

Transformersv5.12.0

릴리즈 v5.12.0

이번 릴리즈에서는 MiniMax-M3-VL, PP-OCRv6, Parakeet-RNNT 모델이 추가되었습니다. 또한, CI 개선, Lfm2, DiffusionGemma 관련 버그 수정 및 기능 개선이 이루어졌습니다.

10시간 전

LangChainlangchain==1.3.8

langchain==1.3.8

langchain 1.3.8 릴리즈에서는 문서 문자열 내 이중 백틱을 제거하고, `create_agent`에 오버로드를 추가했습니다. 또한, 비동기 미들웨어 데코레이터 타이핑을 지원하고 구조화된 출력 모델의 폴백을 개선했습니다.

20시간 전

meta-llama/llama-stackv1.1.0

v1.1.0

이번 릴리즈에서는 라이브러리 클라이언트의 요청 빌드 전 헤더 정리, CI 환경에서 테스트 픽스처가 메인 서버 로그를 덮어쓰는 문제 수정, OpenAI 응답 스키마 드리프트 검사기 추가 등 다양한 수정 사항이 포함되었습니다. 또한, 라우터의 헬스 체크 및 벡터 스토어 팬아웃 병렬 처리, 비-OpenAI 모델을 위한 5단계 토크나이저 해석 체인 추가, pgvector에서 psycopg2를 asyncpg로 마이그레이션하는 등의 성능 개선 및 기능 추가가 이루어졌습니다. Anthropic Message Batches API가 추가되었으며, 여러 프로바이더의 비동기 안전성 개선 및 비밀 처리 강화 등 전반적인 안정성 향상에 초점을 맞추었습니다.

1일 전

PAPERS

cs.AI

LLM을 활용한 사회 및 행동 과학 분야의 자동화된 재현성 평가

2일 전

cs.AI

EurekAgent: 자율적 과학 발견을 위한 에이전트 환경 엔지니어링의 모든 것

2일 전

cs.AI

AgentBeats: 개방성, 표준화 및 재현성을 위한 에이전트 평가의 에이전트화

2일 전

cs.AI