IT

글로벌 AI 생태계의 국내 AI스타트업의 대담한 도전

선재관 기자 2024-12-11 08:25:57
한국어 특화 AI 모델, 글로벌 언어 장벽 넘어선다   국내 AI 스타트업, 한국어 거대 언어 모델로 경쟁력 강화 언어적 한계 극복과 글로벌 경쟁 한국어 AI 생태계 확대 전망
오픈AI '달리(DALL-E)'를 이용해 만든 이미지. [자료=DALL-E]

[이코노믹데일리] 국내 AI 기업들이 한국어에 특화된 인공지능(AI) 모델을 공개하며 글로벌 AI 생태계에서 새로운 돌파구를 찾고 있다. 영어와 중국어 중심의 기존 AI 생태계를 넘어서기 위한 시도다.

11일 정보통신기술(ICT) 업계에 따르면 국내 AI 전문 스타트업 모레(MOREH)는 자체 개발한 한국어 거대언어모델(LLM) ‘모티프(MOTIF)’를 세계 최대 AI 플랫폼 ‘허깅페이스’에 오픈소스로 공개했다. 모티프는 웹사이트 데이터뿐 아니라 국내 특허와 연구 보고서 등 전문 문서를 학습 데이터로 활용한 점이 강점이다. 이 모델은 한국판 AI 성능 평가 지표인 ‘KMMLU’에서 64.74점을 기록하며 오픈AI, 메타 등 글로벌 경쟁 모델을 능가하는 성능을 입증했다.

AI 전문 기업 디노티시아도 LLM 파운데이션 모델 ‘DNA’를 허깅페이스에 오픈소스로 공개하고 생성형 AI 어시스턴트의 베타 테스트를 시작했다. DNA는 KMMLU 벤치마크에서 평균 53.26점을 기록하며 LG의 ‘엑사원 3.5’와 엔씨소프트의 ‘바르코’ 등 경쟁 모델보다 우수한 성과를 보였다.

이 같은 한국어 특화 AI 모델 개발은 글로벌 빅테크 기업들의 AI 모델이 영어와 중국어에 편중된 데 따른 한계를 극복하기 위한 노력으로 평가된다. AI 모델은 기본 패턴을 학습하는 ‘프리-트레이닝’과 특정 분야에 특화하는 ‘파인 튜닝’ 과정을 거치는데 대부분의 데이터가 영어와 중국어 기반으로 구성되어 있다. 이에 따라 언어적 한계와 문화적 차이가 번역 오류나 정보 왜곡을 초래할 수 있다는 우려가 제기돼 왔다.

모레 관계자는 "AI 시장 규모가 가장 크고 연구가 활발한 국가가 미국과 중국"이라며 “GPT-4 등 글로벌 AI 모델은 특정 표현에 대한 설명이 문화적 편향성을 가질 수 있다”며 “모티프는 독도와 같은 민감한 주제에 대해 명확히 한국적 관점에서 답변한다”고 설명했다.

AI 전문가들은 한국어 특화 AI 모델이 장기적으로 글로벌 AI 생태계에서 한국어를 포함한 다양한 언어의 데이터 접근성을 높이고 국내 기업의 경쟁력을 강화할 수 있을 것으로 보고 있다.

한국어 AI 모델은 텍스트뿐 아니라 이미지, 법률, 의료 등 다양한 전문 분야로 확장되고 있다. 엔씨소프트는 시각언어모델(VLM) ‘바르코 비전’을 공개하며 이미지와 텍스트를 통합적으로 처리할 수 있는 기술을 선보였다. 모레는 텍스트 입력을 기반으로 이미지를 생성하는 ‘모티프 비전’을 이달 중 출시하고 오픈소스로 공개할 예정이다.

한국 AI 업계의 이 같은 노력이 앞으로 글로벌 AI 시장에서 독자적인 입지를 구축하며 국내 기술력을 입증할 계기가 될지 주목된다.