[이코노믹데일리] 엔씨소프트의 AI 전문 자회사 NC AI가 멀티모달 인공지능(AI) 시장의 주도권 확보에 나섰다. NC AI는 16일 이미지와 텍스트는 물론 영상까지 이해하는 멀티모달 AI 모델 ‘바르코 비전(VARCO-VISION) 2.0’ 시리즈 4종을 오픈소스로 공개했다.
특히 주력 모델은 글로벌 최고 성능의 중국 모델을 능가했다고 밝혀, 정부가 추진하는 ‘소버린 AI’ 전략의 핵심 기술 파트너로 나서겠다는 의지를 분명히 했다.
이번 발표는 NC AI가 자체 거대언어모델(LLM) 개발 능력에 이어 멀티모달 모델 구축 능력까지 갖췄음을 입증한 것이다. AI 기술의 흐름이 텍스트를 넘어 이미지와 영상을 함께 이해하는 방향으로 전환되는 가운데 한국의 기술 주권을 지키겠다는 신호탄으로 풀이된다.
공개된 모델은 총 4종이다. 플래그십 모델인 ‘바르코 비전 2.0 14B’는 140억 파라미터 규모로 여러 장의 이미지를 동시에 분석하고 고도의 추론이 가능하다. NC AI는 이 모델이 한국어와 영어 이미지 이해 능력에서 중국의 ‘인턴VL3’ 등 글로벌 최상위 비전언어모델(VLM)을 능가했다고 밝혔다. ‘1.7B 경량 모델’은 스마트폰 등 개인 기기에서 원활하게 동작하도록 설계해 AI 기술의 접근성을 높였다.
‘1.7B-OCR 특화 모델’은 광학문자판독(OCR) 성능을 극대화했다. 특히 이미지를 여러 조각으로 나눠 고해상도 정보를 유지하는 ‘애니 레스’ 기술을 적용해 흐릿하거나 한글과 영어가 섞인 이미지에서도 문자를 정확히 인식한다. 마지막으로 ‘멀티모달 임베딩 모델’은 텍스트로 이미지나 비디오를 검색하는 데 특화됐다. 추가 학습 없이도 검색 성능을 강화하는 독자 기술로 비디오 검색 벤치마크에서 최고 성능을 기록했다.
이번에 공개된 모델들은 금융권의 문서 자동 분석부터 미디어 분야의 영상 검색, 커머스 분야의 상품 설명 자동 생성에 이르기까지 산업 현장 전반에 즉시 활용될 수 있다. NC AI는 고품질 데이터 선별과 합성 기술을 통해 적은 컴퓨팅 자원으로도 효율적인 학습을 이뤄냈다고 설명했다.
이연수 NC AI 대표는 “글로벌 트렌드가 텍스트만 처리하는 언어모델을 넘어 비전 모델을 함께 활용하는 비전언어모델로 전환되고 있다”며 “이번 4종 모델 공개를 통해 NC AI가 비전언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다”고 밝혔다.
Copyright © 이코노믹데일리, 무단전재·재배포 금지