카카오, 추론·멀티모달 결합한 차세대 언어모델 성능 공개

한국어 그대로 이해·사고…KoNET 92.8점으로 성능 입증

일반·추론 모드 자동 전환 목표…에이전틱 AI 고도화 추진

[이코노믹데일리] 카카오(대표 정신아)는 가벼운 일상 대화부터 논리적 사고가 필요한 복잡한 문제 해결까지 하나의 모델로 처리할 수 있는 자체 개발 신규 AI 모델 'Kanana-v-4b-hybrid'의 성능을 공개했다고 5일 밝혔다.

지난해 7월 허깅페이스를 통해 오픈소스로 공개한 'Kanana-1.5-v-3b'를 기반으로 개발된 이번 모델은 단순히 이미지를 텍스트로 변환하거나 설명하는 수준을 넘어 사람처럼 정보를 종합하고 계산하며 스스로 검산하는 자기 점검 과정을 거치는 것이 특징이다. 이를 통해 인공지능 모델의 대표적인 한계로 꼽히는 환각 현상을 최소화했으며 복잡한 표나 영수증, 수학 문제 등 복합적인 상황에서 발생하기 쉬운 계산 오류나 조건 누락을 크게 줄이고 정확도를 높였다.

카카오는 Kanana-v-4b-hybrid의 성능 고도화를 위해 단계별로 정교하게 설계된 학습 과정을 적용했다. 기초 학습을 시작으로 장문 사고 사슬, 오프라인 강화학습, 온라인 강화학습으로 이어지는 4단계 학습 절차를 거쳤다.

카카오가 개발한 신규 AI 모델 Kanana-v-4b-hybrid의 성능표 이미지 사진카카오 — 카카오가 개발한 신규 AI 모델 'Kanana-v-4b-hybrid'의 성능표 이미지 [사진=카카오]

한국어 논리 전개 능력에서도 경쟁력을 입증했다. 기존 글로벌 모델들이 한국어 질문을 영어로 번역해 사고한 뒤 다시 번역하는 과정에서 맥락과 논리가 약화되는 한계를 보인 반면, 해당 모델은 한국어 질문을 그대로 이해하고 추론하도록 학습됐다. 이를 바탕으로 대학수학능력시험(수능) 사회탐구와 수학 문제 등에서 한국어 특유의 미묘한 조건을 정확히 반영하며 높은 정답률을 기록했다. 한국 교육 체계를 기반으로 한 AI 학력 평가 벤치마크 'KoNET(Korea National Educational Test Benchmark)'에서는 92.8점을 획득했다.

또한 유사한 규모의 글로벌 모델인 'Qwen3-VL-4B', 'InternVL3.5-4B', 'GPT-5-nano' 및 국내 모델과의 성능 비교 평가에서 과학·공학, 일반 시각 질의응답, 문서 이해 등 다양한 영역에서 우수한 성능을 보였다. 특히 수학·과학 등 고난도 추론 영역과 일반 시각 이해 능력에서는 일부 글로벌 모델을 상회하는 성과를 기록했다.

카카오는 향후 사용자가 직접 모델을 선택하지 않아도 AI가 질문의 복잡도를 판단해 일반 모드와 추론 모드를 자동 전환하는 방향으로 모델을 고도화해 갈 계획이다. 하나의 대화창에서 단순 질의와 복잡한 분석 요청을 자연스럽게 처리하면서도 최적의 리소스를 활용하는 비용 효율적인 AI 서비스를 구현한다는 전망이다.

김병학 카카오 카나나 성과리더는 "'Kanana-v-4b-hybrid'는 한국어 환경에서 가장 자연스럽고 정확하게 생각하고 답변할 수 있는 모델로 일상과 복잡한 작업을 모두 하나의 AI에 맡길 수 있는 혁신적인 연구 성과"라며 "한국어에 특화된 높은 성능과 효율을 갖춘 자체 AI 모델 개발을 통해 글로벌 무대에서 경쟁력을 높이고 국내 AI 생태계 발전의 선도 역할을 이어가겠다"고 말했다.

한편 카카오는 지난달 고도화된 멀티모달 언어모델 'Kanana-o'와 'Kanana-v-embedding'의 연구개발 성과를 공개한 데 이어 에이전틱 AI 구현에 최적화된 고성능·고효율 언어모델 'Kanana-2'를 오픈소스로 공개하는 등 기술 경쟁력을 지속적으로 강화하며 국내 AI 연구 생태계 활성화에 기여하고 있다.