19일(현지시간) 테크크런치 보도에 따르면, 오픈AI 자체 평가 결과 o3는 질문의 33%, o4 미니는 무려 48%에서 환각을 보였다. 이는 기존 모델인 o1(16%)과 o3 미니(14.8%) 대비 두세 배 높은 수치다. 기존 비추론 모델인 GPT-4o보다도 환각 빈도가 높게 나타났다.
이 모델들은 '이미지로 사고할 수 있는 첫 모델'로 소개되며 이미지 분석 및 코딩 능력 등에서 향상된 성능을 보였다. 하지만 정작 AI의 기본적 신뢰성과 직결되는 환각 문제는 오히려 악화된 것이다.
오픈AI는 이러한 환각 악화 현상의 정확한 원인을 파악 중이며, "더 많은 연구가 필요하다"고 밝혔다. 다만, 현재까지는 이 모델들이 "전반적으로 더 많은 주장을 하기에 부정확하거나 환각적인 주장을 하는 경우도 늘었다"고 설명했다.
업계에서는 주요 AI 기업들이 추론형 모델 개발에 집중하는 상황에서 이번 결과가 향후 추론형 AI의 신뢰성에 대한 우려를 키울 수 있다고 지적한다. 답변의 정확성이 특히 중요한 세무, 회계, 법조계 등에서는 환각 이슈가 해결되지 않을 경우 추론형 AI 사용에 제약이 따를 수 있다.
이에 대해 오픈AI는 "모든 문제에서 환각 해결은 지속적인 연구 분야"라며 "정확성과 신뢰성 개선을 위해 노력하고 있다"고 해명했다.
Copyright © 이코노믹데일리, 무단전재·재배포 금지

![[지다혜의 금은보화] 결제계좌만 바꿔도 혜택…하나·수협銀, 소상공인 체감형 포용금융 확대](https://image.ajunews.com/content/image/2026/01/09/20260109102331669247_388_136.jpg)
![[방예준의 캐치 보카] 계속되는 환율 상승에 달러보험 주목...위험보장·자금관리 한번에](https://image.ajunews.com/content/image/2026/01/09/20260109144830423872_388_136.jpg)
![[류청빛의 요즘 IT] 앱 설치는 늘었는데 사용은 없어…설치 수의 착시](https://image.ajunews.com/content/image/2026/01/09/20260109144056496651_388_136.jpg)
![[김아령의 오토세이프] 이번주 리콜·무상수리 0건…EV·하이브리드 관리 변수](https://image.ajunews.com/content/image/2026/01/09/20260109103643262435_388_136.png)
![[합법과 관행의 경계에 선 자본, 선박왕 권혁] ③ 글로벌 기준과 한국의 판단, 권혁 사건을 둘러싼 시선](https://image.ajunews.com/content/image/2026/01/07/20260107171156380846_388_136.png)
![[CES 2026] 정의선 승부수 결실…현대차그룹 아틀라스, CNET 선정 최고 로봇상](https://image.ajunews.com/content/image/2026/01/09/20260109112529826580_388_136.png)


![[현장] 젠슨황 GPU 26만장 거론됐지만…800MW 감당할 데이터센터 없는 한국](https://image.ajunews.com/content/image/2026/01/09/20260109141530683390_388_136.jpg)
