카카오, AI 언어모델 성능 평가 새 기준…국내 IT사 최초

외부 정보 불러오는 '펑션콜' 성능 평가

국내 IT사 최초…'오픈소스'로 무료 공개

[이코노믹데일리] 카카오가 인공지능(AI) 언어모델과 외부 애플리케이션(앱) 간 연동 성능을 평가하는 체계를 마련하며 AI 기술 생태계 활성화에 나섰다.

카카오는 AI 언어모델의 펑션콜(함수 호출) 성능을 평가할 수 있는 데이터셋(정보의 묶음) '펑션 챗 벤치(FunctionChat-Bench)'를 구축하고 이를 오픈소스(공개 코드)로 내놨다고 27일 밝혔다.

펑션콜이란 인간의 언어를 이해하는 도구인 AI 언어모델이 자체적으로 수행할 수 없는 동작을 지시하거나 미리 학습하지 않은 정보를 외부에서 불러오는 연동 기술이다. 예를 들어 음성인식 프로그램이 일기예보를 알려줄 때 외부 애플리케이션(앱)에서 기상 정보를 가져오는데 이때 필요한 기술이 펑션콜이다.

이 때문에 펑션콜은 언어모델 기반 서비스 구현에 필수적인 요소로 언어모델이 가진 한계를 해결해 AI가 학습하지 못한 정보까지 사용자에게 제공하도록 돕는 역할을 한다.

카카오는 펑션콜 기술 고도화를 위해 국내 정보기술(IT) 기업 최초로 한국어 대화 환경에서 성능을 다면적으로 평가할 수 있는 데이터셋을 갖췄다. 기존 펑션콜 성능 평가 데이터셋은 대부분 해외에서 구축돼 영어가 기반이다. 따라서 한국어 언어모델 성능을 평가하기 어려웠다.

데이터셋은 △프로그램 작동 명령인 함수의 이름과 인자를 얼마나 정확하게 추출하는지 △함수 호출 결과를 얼마나 정확하게 전달하는지 △누락된 정보를 인지해 추가할 수 있는지 △호출 가능한 함수와의 관련성을 감지할 수 있는지 등을 평가하는 항목으로 구성됐다.

다른 데이터셋이 주로 언어모델의 함수 호출 메시지 생성에 초점이 맞춰진 데 반해 카카오의 펑션 챗 벤치는 함수 호출 전후로 요구되는 다양한 성능을 평가 영역에 포함했다.

카카오는 한국어 AI 언어모델의 생태계 활성화와 개방적 AI 개발 환경을 조성하기 위해 펑션 챗 벤치를 오픈소스 커뮤니티 '깃허브'에 게재했다. 카카오는 향후 펑션 챗 벤치의 규모를 키우고 영어 버전을 추가하는 등 사용 범위를 확장한다는 계획이다.

카카오의 AI 전담 조직인 '카나나 알파'를 이끄는 김병학 성과리더는 "이번 펑션 챗 벤치 구축과 오픈소스 공개는 한국어 기반 AI 생태계 확대에 기여할 것"이라며 "펑션콜 기술의 성능 평가 토대를 처음으로 마련한 만큼 데이터셋 활용성을 꾸준히 높이려 노력하겠다"고 말했다.