"AI 유해성 막는다" 카카오, 안전 검증 모델 카나나 세이프가드 공개

한국어 특화 AI 가드레일 모델 3종 공개 '카나나 세이프가드' 오픈소스로 푼다

카카오, AI 안전성 검증 위한 가드레일 모델 ‘Kanana Safeguard’ 공개

[이코노믹데일리] 카카오가 인공지능(AI) 서비스의 안전성과 신뢰성을 검증할 수 있는 AI 가드레일 모델 ‘카나나 세이프가드’를 개발하고 국내 기업 최초로 모델 3종을 오픈소스로 공개한다고 27일 밝혔다.

최근 다양한 생성형 AI 서비스 출시로 유해 콘텐츠 위험성에 대한 사회적 우려가 커짐에 따라 기술적·제도적 장치를 마련한 것이다. 주요 빅테크 기업들도 생성형 AI로 발생 가능한 위험 요소를 감지하는 특화 모델을 운영 중이다.

‘카나나 세이프가드’는 카카오가 자체 개발한 언어모델 ‘카나나’를 기반 기술로 활용했으며 한국어와 한국 문화를 반영한 자체 구축 데이터셋을 통해 한국어에 특화된 성능을 갖췄다. 카카오는 AI 모델의 정밀도와 재현율을 평가하는 F1 스코어를 기준으로 한국어 성능에서 글로벌 모델 이상의 성과를 기록했다고 설명했다.

이번에 오픈소스로 공개된 모델은 리스크 유형에 따라 유해성과 위험성을 효과적으로 탐지할 수 있는 3종이다. △사용자의 발화 또는 AI 답변에서 증오, 괴롭힘, 성적 콘텐츠 등에 대한 유해성을 탐지하는 ‘카나나 세이프가드’ △개인정보나 지식재산권 등 법적 측면에서 주의가 필요한 요청을 탐지하는 ‘카나나 세이프가드 사이렌’ △AI 서비스를 악용하려는 사용자 공격을 탐지하는 ‘카나나 세이프가드 프롬프트’이며 모두 허깅페이스를 통해 다운로드 가능하다.

카카오는 안전한 AI 생태계 구축에 기여하고자 해당 모델에 상업적 이용과 수정·재배포 등이 자유로운 아파치 2.0 라이선스를 적용했다. 향후 지속적인 업데이트를 통해 모델을 고도화할 예정이다.

김경훈 카카오 AI 세이프티 리더는 "생성형 AI의 등장 이래 기술 발전과 더불어 AI 윤리와 안전성에 대한 중요성이 국내외에서 점차 부각되고 있다"며 "책임감 있는 AI 구축에 대한 인식을 널리 확산시키고 사회적 가치를 고려한 기술 개발이 이어질 수 있도록 선제적인 대응을 이어갈 계획"이라고 말했다.

"AI 유해성 막는다" 카카오, 안전 검증 모델 '카나나 세이프가드' 공개

전체메뉴