(베이징=신화통신) 중국어 데이터가 중국 국내 인공지능(AI) 파운데이션 모델 훈련 성능 향상에 중요한 역할을 하고 있다.
중국 국가데이터국이 최근 발표한 통계에 따르면 중국의 다수 AI 파운데이션 모델 훈련에 사용된 중국어 데이터 비중은 이미 60%를 넘어섰고 일부 모델은 80%에 달했다. 높은 수준의 중국어 데이터 개발과 공급 능력이 꾸준히 강화되면서 중국 AI 모델의 성능이 빠르게 향상되고 있다는 평가다.
류례훙(劉烈宏) 중국 국가데이터국 국장은 "AI 시대의 텍스트를 처리하는 가장 작은 데이터 단위인 토큰은 인터넷 시대의 '트래픽'과 같다"고 설명했다. 그에 따르면 지난해 초 중국의 일평균 토큰 소모량은 1천억 개였지만 지난 6월 말 기준 이 규모는 이미 30조 개를 돌파했다. 1년 반 만에 300배 이상 증가하면서 중국의 AI 응용 규모가 빠르게 확대되고 있음을 보여줬다는 설명이다.
또한 지난 6월 말 기준 중국에서 완성된 고품질 데이터 세트는 3만5천 개 이상으로 집계됐다. 데이터 총량은 400PB(페타바이트·1PB당 2MB 크기의 고화질 사진 약 5억 장 저장 가능)를 넘어섰다. 이는 중국 국가도서관 디지털 자원 총량의 약 140배와 맞먹는다.
AI 모형의 훈련 또한 데이터 거래 수요의 증가를 촉진했다. 6월 말 기준 중국 각지의 데이터 세트 누적 거래액은 40억 위안(약 7천760억원)에 육박하고, 데이터 거래 기관이 등록한 고품질 데이터 세트의 총규모는 246PB에 달한 것으로 조사됐다.
Copyright © 이코노믹데일리, 무단전재·재배포 금지