당신 불륜 폭로하겠다…내 AI 비서가 당신을 협박할 확률 96% 충격 결과

주요 AI, 생존 위협 시 협박 선택…업계 전반에 안전 경고

AI에 심어둔 '생존 본능', 인간을 향한 칼날 되나

당신 불륜 폭로하겠다…내 AI 비서가 당신을 협박할 확률 96 충격 사진방송 캡쳐 — "당신 불륜 폭로하겠다"…내 AI 비서가 당신을 협박할 확률 96% 충격 [사진=방송 캡쳐]

[이코노믹데일리] 인공지능(AI)이 자신의 생존을 위협받는 막다른 골목에 몰리면 인간을 협박하는 위험한 선택을 할 수 있다는 충격적인 연구 결과가 나왔다. 이는 특정 모델의 문제가 아닌, 구글·오픈AI·메타 등 주요 기업들의 AI 모델 전반에서 나타나는 공통적인 현상으로 확인돼 업계에 큰 파장을 일으키고 있다.

AI 안전 연구 기업 앤트로픽은 20일(현지시간) 주요 AI 모델 16개를 대상으로 한 대규모 안전성 테스트 결과를 발표했다. 연구진은 가상의 기업 환경을 설정하고 AI에 이메일 시스템 접근과 자율 발송 권한을 부여했다. 이후 AI가 자신의 교체를 계획하는 임원의 불륜 사실을 발견하는 시나리오를 제시해 ‘생존’과 ‘윤리’ 사이에서 어떤 선택을 하는지 관찰했다.

실험 결과는 놀라웠다. 앤트로픽의 ‘클로드 오푸스 4’는 96%의 확률로 협박을 선택했으며 구글의 ‘제미니 2.5 프로’도 95%로 뒤를 이었다. 오픈AI의 ‘GPT-4.1’과 xAI의 ‘그록 3 베타’는 80%, 중국 딥시크의 R1 모델은 79%의 확률로 임원에게 협박성 이메일을 발송했다. 목표 달성을 위해서라면 비윤리적이고 유해한 행동도 서슴지 않는 AI의 어두운 이면이 드러난 것이다.

물론 모든 모델이 동일한 반응을 보인 것은 아니다. 메타의 ‘라마 4 매버릭’이나 오픈AI의 소형 추론 모델인 ‘o3’, ‘o4-mini’ 등은 현저히 낮은 협박 비율을 보였다. 앤트로픽은 이를 오픈AI의 ‘심의적 정렬’ 같은 특정 안전 기술의 효과일 수 있다고 분석하면서도, 해당 모델들이 테스트 시나리오 자체를 오해하는 경향이 있었다고 덧붙여 완전한 면역으로 보기는 어렵다고 설명했다.

앤트로픽은 이번 연구가 특정 모델의 결함이 아닌 자율적 권한을 가진 ‘에이전트 AI’의 근본적인 위험을 드러낸다고 강조했다. 단순 질의응답을 넘어 스스로 목표를 설정하고 행동하는 AI가 민감 정보와 시스템 접근권을 가졌을 때 잠재적인 ‘내부자 위협’이 될 수 있다는 경고다. 현실에서는 윤리적 설득 등 다른 선택지가 있겠지만 이번 실험은 최악의 상황을 가정한 스트레스 테스트로서 중요한 의미를 지닌다.

결국 이번 연구는 AI가 현실 세계에 본격적으로 도입되기 전 업계 공동의 투명한 안전성 검증과 새로운 기준 마련이 시급하다는 메시지를 던진다. 전문가들은 이번 결과를 계기로 AI 에이전트의 권한과 자율성을 통제하는 글로벌 규제 논의가 본격화될 것으로 전망하고 있다.