네이버, 하이퍼클로바X로 이미지·음성 처리 기술 공개

멀티모달 생성형 AI로 클로바X의 기능 확장

[이코노믹데일리] 네이버가 오는 27일 자사의 대화형 AI 에이전트 클로바X(CLOVA X)에 시각 정보 처리 기능을 새롭게 추가한다고 발표했다. 이번 업데이트로 사용자는 클로바X 대화창에 이미지를 업로드하고, 해당 이미지에서 추출된 정보를 바탕으로 AI와 대화를 나눌 수 있게 된다. 네이버는 하이퍼클로바X(HyperCLOVA X)를 텍스트뿐만 아니라 이미지와 음성까지 동시에 처리할 수 있는 '멀티모달(Multimodal)' AI로 고도화하며, 생성형 AI 기술의 경쟁력을 강화하고 있다.

이번 업데이트를 통해 클로바X는 사진 속 상황을 묘사하거나, 표·그래프 등 복잡한 이미지 정보를 분석하는 능력을 갖추게 된다. 예를 들어, 사용자가 업로드한 수학 도형 문제를 AI가 이해하고, 풀이하는 것도 가능해진다. 이러한 기능 확장은 클로바X의 활용 범위를 넓혀, 개인의 생산성을 크게 향상시킬 것으로 기대된다.

네이버 하이퍼클로바X 이미지 이해 코드 생성

네이버 하이퍼클로바X 이미지 이해 차트 이해

네이버는 하이퍼클로바X의 우수한 문서 처리 및 문자 인식 기술과 다양한 지식을 갖춘 거대 언어 모델(LLM)을 결합해 보다 정확하고 신뢰성 있는 서비스를 제공할 계획이다. 네이버는 이미 대한민국 초·중·고등학교 검정고시 문제 1,480개를 AI에 이미지 형태로 입력해 84%의 정답률을 기록하며, 오픈AI GPT-4의 78%를 능가하는 성과를 보였다.

네이버는 또한 20일, 자사 기술 블로그를 통해 하이퍼클로바X 기반의 음성 멀티모달 기술도 공개했다. 기존 음성 인식과 음성 합성 기술을 뛰어넘어, LLM의 문맥 이해 능력을 활용한 자연스러운 대화가 가능해졌다. 이 기술은 발음 정확도와 감정 표현까지 더해져 사용자와의 대화 경험을 더욱 향상시킨다.

네이버는 이미 클로바노트, 클로바 케어콜, 클로바더빙 등 다양한 음성 AI 서비스로 기술력을 입증했으며, 이번 멀티모달 LLM 기술로 더 편리하고 진보된 서비스를 제공할 계획이다. 실시간 음성 번역, 언어 학습, 상담 등 여러 분야에서 활용 가능성을 제시한 바 있다.

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 "하이퍼클로바X는 이미지와 음성까지 이해하는 거대 시각 언어 모델로 발전하고 있다"며 "이를 통해 네이버의 다양한 서비스에 새로운 사용자 가치를 창출하고, 기업용 AI 솔루션으로도 제공할 것"이라고 밝혔다.

한편, 네이버는 하이퍼클로바X의 멀티모달 기능을 고도화하는 과정에서도 'AI 안전성'을 최우선으로 고려하고 있다. 네이버는 지난 6월 발표한 '네이버 ASF(AI Safety Framework)'를 바탕으로 AI 시스템의 잠재적 위험을 평가하고, 특히 음성 AI 기술의 경우 다각적인 검토를 통해 안전한 서비스를 제공할 계획이다.