IT

오픈AI가 또 한번 세상을 놀라게 했다… 생성형 비디오 인공지능 '소라' 공개

선재관 2024-02-20 05:00:00
오픈AI의 생성형 비디오 인공지능(AI) 소라에 다양한 프로프트 명령어를 입력하고 얻은 결과물 [그래픽=강선영 기자]

[이코노믹데일리] 오픈AI가 새로운 생성형 비디오 인공지능(AI) '소라(Sora)'를 공개했다. 지난 16일(현지시간) 공개된 '소라'는 생성형 AI를 사용해 간단한 텍스트의 입력만으로 짧은 비디오를 만드는 텍스트-비디오 생성기다. 텍스트 입력 뿐만 아니라 단순 이미지를 기반으로 움직이는 동영상을 만들 수도 있다. 

이번 '소라'의 등장은 생성형 인공지능의 차세대 인공지능으로 AI 생성 비디오 분야에 혁명을 일으킬 수 있는 잠재력을 가지고 있다. 과거에 다른 유사한 기술이 등장했지만 이번 오픈AI의 '소라'는 고품질 비디오와 인상적인 기능으로 두각을 나타냈다. 

'소라' AI 모델은 단순하지만 실로 획기적인 혁신이다. DALL·E 및 GPT 모델의 단순 텍스트 설명만으로 '소라'는 뛰어난 이해력으로 장면 하나하나의 정확성을 보장하고 심지어 얼굴의 감정까지 효과적으로 표현하며 시각적으로 매력적인 콘텐츠를 제작한다. 심지어 야생 동물의 상호 작용, 풍경, 창의적인 애니메이션을 포함한 다양한 시나리오를 생성도 가능하다. 

오픈AI는 이미 '소라'를 활용해 제작한 다양한 비디오를 공개하고 복잡하고 상세한 장면을 묘사하는 능력을 입증했다. '소라'가 제작한 영상은 AI 영상의 기존 단점을 보완해 더욱 자연스럽고 사실적으로 묘사했다. 동영상 제작자는 '소라'AI로 제작된 동영상을 기존 콘텐츠에 통합하고 심지어 몇 가지 명령어로만으로 손쉽게 사실적인 스토리의 동영상을 만들 수도 있다.

오픈AI 테크니컬 리포트에 따르면 '소라'는 복잡한 카메라 모션과 여러 캐릭터를 포함하여 매우 상세한 장면을 '시각적 데이터 패치'란 단위로 구축한다. 각 패치는 GPT의 토큰과 유사하다. 그것을 초거대언어(LLM)로 통합해 구축한다. 데이터 표현 방법을 통합함으로써 다양한 기간, 해상도 및 종횡비에 걸쳐 이전보다 더 광범위한 시각적 데이터에 대한 확산 변환기를 교육할 수 있다.
 
오픈AI 테크니컬 리포트, '소라'는 복잡한 카메라 모션과 여러 캐릭터를 포함해 매우 상세한 장면을 시각적 데이터 패치라는 단위로 구축. 각 패치는 GPT의 토큰과 유사하다. [사진=오픈AI]
 
기술적 관점에서 볼 때 '소라'는 GPT의 확산 모델이다. 그 시작점은 정적인 노이즈처럼 보이는 영상이 점차 노이즈를 제거하면서 최종 결과물로 변모한다.

오픈AI는 '소라'에서 해결한 어려운 문제를 강조한다. 즉 모델이 한 번에 여러 프레임에서 작동하도록 함으로써 일시적으로 시야에서 사라질 때에도 피사체를 동일하게 유지하고 시각적 스타일을 유지함으로써 무엇을 알 수 있는지 알 수 있다. 

캘리포니아 대학교 버클리의 한니 파리드(Hany Farid) 교수는 "생성형 AI 기술이 다른 분야에서처럼 텍스트에서 비디오로 변환하는 기술도 빠르게 발전할 것이며, 이는 가짜와 진짜를 구별하기 어려운 시대로 접어들고 있음을 의미한다"고 말했다는 것이다. "이 기술은 AI 기반의 음성 복제와 결합되면 사람들이 한 적 없는 말과 행동을 하는 딥페이크를 만드는 새로운 전선을 열 수 있다."

'소라'는 오픈AI의 이미지 생성기 '달리(DALL-E)'와 대규모 언어 모델 'GPT'를 기반으로 한 부분이 있다. 텍스트에서 비디오로 변환하는 AI 모델은 실제성과 접근성 면에서 다른 기술들보다 뒤처졌었지만, '소라' 데모는 이전 것들에 비해 "훨씬 믿을 만하고 만화 같지 않다"고 소셜 엔지니어링에 초점을 맞춘 화이트 해커그룹 '소셜프루프 시큐리티(SocialProof Security)'의 공동 창립자 레이첼 토박(Rachel Tobac)은 이렇게 평가했다.

이러한 높은 수준의 사실성을 달성하기 위해 '소라'는 두 가지 서로 다른 AI 기법을 결합한다. 첫 번째는 '달리(DALL-E)'와 같은 AI 이미지 생성기에서 사용되는 확산 모델과 유사하다. 이 모델들은 무작위화된 이미지 픽셀을 일관된 이미지로 점진적으로 변환하는 방법을 학습한다. 
 
'소라'로 생성된 비디오 스크린샷

두 번째 AI 기술은 '트랜스포머 구조(transformer architecture)'로, 순차적 데이터를 문맥화하고 조각을 맞추는 데 사용된다. 예를 들어 대규모 언어 모델은 트랜스포머 구조를 사용해 단어들을 이해하기 쉬운 문장으로 조합한다. 이 경우 오픈AI는 비디오 클립을 '소라'의 트랜스포머 구조가 처리할 수 있는 시각적 '시공간 패치(spacetime patches)'로 분해했다.

오픈AI는 현재 모델에도 특정 약점이 있어 '소라'가 만든 비디오에는 아직 많은 오류가 나타난다. 예를 들어 걷는 사람의 왼쪽과 오른쪽 다리가 위치를 바꾸거나, 의자가 공중에 떠 있거나, 물린 쿠키의 자국이 마법처럼 사라지는 등의 문제가 발생한다. 그럼에도 불구하고 엔비디아(NVIDIA)의 선임 연구 과학자 짐 팬(Jim Fan)은 소셜 미디어 플랫폼 X에서 '소라'를 "데이터 기반 물리 엔진"이라고 칭찬하며, 이 기술이 세계들을 시뮬레이션할 수 있다고 언급했다.

'소라'가 복잡한 장면과 많은 움직임을 묘사할 때 여전히 이상한 오류를 보여주는 것은 현재로서는 이런 딥페이크 비디오를 감지할 수 있음을 시사한다고 프린스턴대학의 아빈드 나라야난(Arvind Narayanan) 교수는 지적한다. 그러나 그는 장기적으로 "우리 사회가 다른 방식으로 적응해야 할 필요가 있을 것"이라고 경고했다.

오픈AI 대변인은 '소라'를 공개적으로 사용하기 전에 전문가들이 AI 모델의 안전 장치를 검토하고 오용 가능성을 평가하는 '레드 팀' 연습을 진행하고 있다. 현재 '소라'를 테스트하는 소수의 사람들은 "오보, 증오 발언, 편향 등 분야 전문가들"이라고 밝혔다.

AI가 만든 딥페이크로 인한 오보와 잘못된 정보는 학계, 비즈니스, 정부 및 기타 분야의 리더들은 물론 AI 전문가들에게도 주요한 우려 사항이다. 레이첼 토박은 "'소라'는 분명히 일반인들을 속일 수 있는 비디오를 만들 수 있다"고 말했다. "비디오가 완벽할 필요는 없으며 많은 사람들이 여전히 비디오를 사진처럼 쉽게 조작할 수 있다는 사실을 인식하지 못하고 있다."

레이첼 토박은 AI 회사들이 '소라'를 대중에게 공개할 경우 발생할 수 있는 정보 오도와 잘못된 정보의 문제를 해결하기 위해 소셜 미디어 네트워크 및 정부와 협력해야 한다고 말한다. 방어책으로는 AI가 생성한 콘텐츠에 고유 식별자나 '워터마크(watermark)'를 추가하는 것이 포함될 수 있다.

2024년에 '소라'를 더 널리 사용할 수 있게 할 계획이 있는지에 대한 질문에 오픈AI 관계자는 "제품에서 '소라'를 사용하기 전 여러 중요한 안전 조치를 취하고 있다"고 답했다. 예를 들어 회사는 이미 극단적인 폭력, 성적 내용, 증오 표현 및 실제 정치인이나 유명 인사의 묘사 생성을 방지하기 위한 자동화된 절차를 도입하고 있다. 올해 그 어느 때보다 많은 사람들이 선거에 참여함에 따라 이러한 안전 조치는 매우 중요할 것이다.