[과학기술] 中, AI 기반 비디오 생성 제품 출시 봇물...콘텐츠 업계 지평 바뀔 것

(베이징=신화통신) 대화 상자에 문장을 입력하거나 사진을 추가하고 '동영상 생성' 버튼을 클릭하면 1분 이내에 6초 분량의 숏폼 동영상이 즉시 생성된다.

올 초 '텍스트 투 비디오 생성' 파운데이션 모델 소라(Sora)가 글로벌 인공지능(AI) 업계 안팎에서 큰 관심을 불러일으켰다. 최근 중국 테크기업이 독자적으로 개발한 동영상 생성 제품이 다수 출시돼 주목받고 있다.

비디오 생성 파운데이션 모델 비두(Vidu)를 사용해 제작된 애니메이션. (비디오 화면 캡처 화면)

성수(生数)테크는 올 4월 칭화대학과 함께 비디오 생성 파운데이션 모델 비두(Vidu)를 발표하고 7월 말 정식으로 출시했다.

"이번에 출시된 비두는 텍스트 투 비디오 생성, 이미지 투 비디오 생성 등 두 가지 기능을 지원합니다. 4초, 8초 중 하나를 선택할 수 있으며 해상도는 1080P에 달합니다." 탕자위(唐家渝) 성수테크 공동 설립자 겸 최고경영자(CEO)의 말이다.

비두 출시를 앞둔 며칠 전, 베이징의 또 다른 인공지능 회사 즈푸(智譜)AI가 자체 연구개발한 파운데이션 모델을 기반으로 개발한 비디오 생성 제품 칭잉(清影∙Ying)을 선보였다. 장펑(張鵬) 즈푸AI CEO는 "칭잉이 텍스트 투 비디오 생성, 이미지 투 비디오 생성 외에 비디오 투 비디오 생성도 지원한다"고 소개했다.

올 6월 콰이서우(快手)가 출시한 비디오 생성 파운데이션 모델 '커링(可靈)'은 텍스트 투 비디오 생성, 이미지 투 비디오 생성 시 실감 넘치는 액션 장면을 만들고 물리적 특성을 정확하게 시뮬레이션하는 능력과 잠재력을 보여줬다.

탕 CEO와 장 CEO 모두 현재 중국의 비디오 생성 파운데이션 모델은 딥러닝 모델과 확산 모델을 조합한 아키텍처를 주요 기술로 사용하고 있다며 알고리즘, 컴퓨팅 파워, 데이터에 강한 의존도가 높은 '규모의 법칙'을 따르고 있다고 입을 모았다.

비디오 생성 제품 칭잉(清影∙Ying)의 사용자 로그인 화면. (사진/신화통신)

현재 전 세계적으로 텍스트∙이미지 투 비디오 생성 모델링 분야에서 경쟁하고 있는 테크기업은 여러 곳이다. 오픈AI의 소라 외에도 런웨이(Runway)의 젠(Gen) 시리즈, MS의 누와(Nuwa), 메타(Meta)의 에무(Emu), 구글의 페나키(Phenaki) 등이 있다. 중국 역시 성수테크의 비두, 즈푸AI의 칭잉, 콰이서우의 커링, 상탕(商湯)의 르르신(日日新) 등이 일찍이 도전장을 내밀었다.

장 CEO는 중국의 동영상 생성 기술은 아직 초기 단계로 완벽하지 않다며 고품질 데이터와 알고리즘 등 앞으로 해결해야 할 문제가 산적해 있다고 말했다. 그러면서 기술을 실험실에 숨겨두는 것이 아니라 연구개발과 기술 적용을 동시에 가속화하는 것이 AI 기술 개발을 앞당기는 가장 좋은 방법이라고 제언했다.

"오늘날 기술 구현의 관점에서 볼 때 비디오 파운데이션 모델의 세대교체는 영화와 애니메이션 제작을 포함한 콘텐츠 산업의 지평을 완전히 바꾸어 놓을 것입니다." 탕 CEO는 향후 10년 내 영상 창작 및 제작의 문턱과 제작 비용이 더욱 낮아져 상상력과 창의성이 생산성으로 전환될 것이라고 예측했다.

[과학기술] 中, AI 기반 비디오 생성 제품 출시 봇물...콘텐츠 업계 지평 바뀔 것

전체메뉴