19일(현지시간) 테크크런치 보도에 따르면, 오픈AI 자체 평가 결과 o3는 질문의 33%, o4 미니는 무려 48%에서 환각을 보였다. 이는 기존 모델인 o1(16%)과 o3 미니(14.8%) 대비 두세 배 높은 수치다. 기존 비추론 모델인 GPT-4o보다도 환각 빈도가 높게 나타났다.
이 모델들은 '이미지로 사고할 수 있는 첫 모델'로 소개되며 이미지 분석 및 코딩 능력 등에서 향상된 성능을 보였다. 하지만 정작 AI의 기본적 신뢰성과 직결되는 환각 문제는 오히려 악화된 것이다.
오픈AI는 이러한 환각 악화 현상의 정확한 원인을 파악 중이며, "더 많은 연구가 필요하다"고 밝혔다. 다만, 현재까지는 이 모델들이 "전반적으로 더 많은 주장을 하기에 부정확하거나 환각적인 주장을 하는 경우도 늘었다"고 설명했다.
업계에서는 주요 AI 기업들이 추론형 모델 개발에 집중하는 상황에서 이번 결과가 향후 추론형 AI의 신뢰성에 대한 우려를 키울 수 있다고 지적한다. 답변의 정확성이 특히 중요한 세무, 회계, 법조계 등에서는 환각 이슈가 해결되지 않을 경우 추론형 AI 사용에 제약이 따를 수 있다.
이에 대해 오픈AI는 "모든 문제에서 환각 해결은 지속적인 연구 분야"라며 "정확성과 신뢰성 개선을 위해 노력하고 있다"고 해명했다.
Copyright © 이코노믹데일리, 무단전재·재배포 금지