엔씨소프트, 한국어 특화 AI 모델 및 벤치마크로 멀티모달 혁신 선도

'VARCO-VISION' 및 한국어 멀티모달 벤치마크 5종 공개…성능과 확장성 주목 한국어 벤치마크로 성능 평가의 기준 제시

엔씨소프트 바르코

[이코노믹데일리] 엔씨소프트가 한국어에 특화된 비전언어모델(VLM) VARCO-VISION과 한국어 멀티모달 벤치마크 5종을 4일 공개했다. 이번 발표는 AI 연구와 콘텐츠 제작 분야에서 엔씨소프트의 기술적 선도성을 입증하는 자리로 평가받고 있다.

엔씨소프트의 VARCO-VISION은 텍스트와 이미지를 동시에 처리할 수 있는 중소형 오픈소스 VLM 모델이다. 특히 한국어 부문에서 동종 크기 모델 중 최고의 성능을 자랑하며, 텍스트 기반 작업뿐 아니라 이미지 분석과 설명 생성에도 뛰어난 기능을 제공한다.

이 모델은 △이미지-텍스트 질의응답 △글자인식(OCR) △사물 위치 검출(그라운딩) 등 다양한 작업에서 탁월한 결과를 보여준다. 기존에는 이러한 작업을 위해 대형 언어모델(LLM)과 비전언어모델(VLM)을 따로 운용해야 했지만, VARCO-VISION은 이를 단일 모델로 처리할 수 있어 효율성을 극대화했다.

콘텐츠 제작 기업은 이 모델을 통해 이미지 기반 설명을 자동으로 생성하거나 텍스트 인식 기능을 활용해 기획 속도를 높일 수 있다. AI 개발자들에게는 다양한 멀티모달 서비스를 손쉽게 구현할 수 있는 기반을 제공한다.

엔씨소프트는 VLM의 성능 평가를 위해 한국어 멀티모달 벤치마크 5종을 함께 공개했다. 기존에는 한국어 AI 모델 평가 기준이 부족해 성능 측정이 어려웠지만, 이번 벤치마크 발표로 한국어 AI 연구가 새로운 전기를 맞게 됐다.

비전언어모델 작동 예시 참고자료. [그래픽=엔씨소프트]

새로운 벤치마크는 △MMBench △SEED-Bench △MMStar △LLava-in-the-wild 등 영미권에서 활용되던 기존 벤치마크를 기반으로 개발되었으며, 여기에 한국어 문서, 표, 차트 이해력을 평가하는 ‘K-DTCBench’가 추가됐다. 이를 통해 AI 연구자들은 더욱 객관적이고 정밀한 평가 도구를 활용할 수 있게 됐다.

이연수 엔씨소프트 NC Research 본부장은 “VARCO-VISION과 벤치마크 5종 공개로 멀티모달 AI 분야에서 선도적 위치를 확보했다”며 “앞으로 VLM 기술을 오디오, 비디오 영역까지 확대해 콘텐츠 제작 지원 기능을 강화할 것”이라고 밝혔다. 또한, 멀티모달 AI모델은 엔씨소프트의 콘텐츠 제작 플랫폼 바르코 스튜디오(VARCO Studio)에 적용돼 다양한 산업에서 활용될 예정이다.

한편 이번 발표는 한국어 기반 AI 모델의 독립성과 경쟁력을 강화하며, 글로벌 AI 생태계에서 한국어 모델의 입지를 확대할 계기가 될 것으로 기대를 모은다.

엔씨소프트, 한국어 특화 AI 모델 및 벤치마크로 멀티모달 혁신 선도

전체메뉴