오픈AI, 차세대 AI 모델 개발 난항…데이터 확보 및 비용 문제에 발목

GPT-5 개발 지연 장기화…MS 기대와 괴리

데이터 부족에 자체 데이터 생산 시도

경쟁 심화 속 인력 유출도 심화

[이코노믹데일리] 챗GPT 개발사 오픈AI의 차세대 주력 인공지능(AI) 모델 개발에 차질이 빚어지고 있다는 보도가 나왔다. 22일(현지시간) 월스트리트저널(WSJ)은 복수의 소식통을 인용 오픈AI가 개발 중인 코드명 ‘오리온’(Orion) 즉 GPT-5의 개발이 상당 기간 지연되고 있으며 막대한 비용이 소요되고 있다고 보도했다.

오픈AI의 최대 투자자인 마이크로소프트(MS)는 금년 중반께 신규 모델 출시를 기대했으나 현재까지 이렇다 할 성과를 내지 못하고 있는 것으로 알려졌다. 지난 20일 샘 올트먼 오픈AI 최고경영자(CEO)가 공개한 고급 추론 AI 모델 ‘o3’ 역시 차세대 주력 모델로 보기에는 어렵다는 평가가 지배적이다.

WSJ에 따르면 오픈AI는 지난 18개월 이상의 개발 기간 동안 대규모 데이터 학습을 최소 두 차례 진행했으나 매번 예상치 못한 문제에 직면하며 만족할 만한 결과를 얻지 못했다. 새로운 모델의 성능은 기존 GPT-4보다는 개선되었지만 투입된 비용을 고려할 때 획기적인 발전이라고 보기는 어렵다는 것이 내부 관계자들의 전언이다. 업계에서는 통상적으로 대규모 AI 모델 학습에 6개월 기준 약 5억 달러(한화 약 7247억원)의 컴퓨팅 비용이 소요되는 것으로 추정하고 있다.

이전 모델 개발에서는 인터넷 뉴스 기사, 소셜미디어 게시글, 학술 논문 등 광범위한 데이터를 활용했으나 새로운 모델 개발 과정에서는 고도화된 학습에 필요한 양질의 데이터 확보에 어려움을 겪고 있는 것으로 분석된다. 이러한 문제 해결을 위해 오픈AI는 소프트웨어 엔지니어, 수학자 등 전문 인력을 투입, 새로운 소프트웨어 코드 생성이나 복잡한 수학 문제 해결 등 AI 자체 학습용 데이터 생산을 시도하고 있다. 그러나 이 방식은 기존 데이터 활용 방식에 비해 상당한 시간과 노력이 요구된다.

엎친 데 덮친 격으로 경쟁사들의 고액 연봉 제시를 통한 핵심 연구 인력 유출 시도 또한 오픈AI의 비용 부담을 가중시키고 있다. AI 모델 성능 향상의 정체에 대한 우려는 오픈AI뿐 아니라 업계 전반에서 제기되고 있는 상황이다.

오픈AI 공동 창립자이자 수석 과학자를 지낸 일리야 수츠케버는 지난 13일 강연에서 “컴퓨팅 파워는 계속 증가하고 있지만 학습에 필요한 데이터는 한정적”이라며 데이터 부족 문제를 지적했다. 그는 AI 모델 학습 데이터를 유한한 자원인 화석 연료에 비유하며 현재와 같은 방식의 생성형 AI 모델 사전 학습은 결국 한계에 직면할 것이라고 전망했다. 결국 오픈AI는 데이터 확보라는 근본적인 문제와 막대한 비용 부담이라는 현실적인 어려움 속에서 차세대 AI 모델 개발에 난항을 겪고 있는 것으로 보인다.