이번 데이터셋 공개는 카카오모빌리티가 레벨4 자율주행 기술 개발을 목표로 참여한 과기정통부 국책과제 <자율주행 기술개발 혁신사업>의 일환으로 진행됐다. 카카오모빌리티는 이 사업을 통해 차량, 엣지-인프라, 지능 학습을 융합한 자율주행 데이터 생성, 관리, 배포 자동화 기술 개발을 완료했으며 국내 도로 환경에서 수집된 비식별화된 AI 학습용 데이터셋을 무상으로 공개하여 국내 자율주행 연구 활성화에 기여하고자 한다.
그동안 자율주행 분야 연구를 수행하는 중소기업, 학계, 연구기관 등에서는 고가의 센서 장비와 데이터 수집 비용 부담으로 자체적인 데이터 확보에 어려움을 겪어왔다. 기존에 공개된 데이터셋 역시 해외 환경이나 특정 조건에 편중되어 국내 실정에 맞는 연구 개발에 한계가 있었다.
이에 카카오모빌리티는 국내 도로 환경에 최적화된 자율주행 AI 모델 개발을 지원하기 위해 이번 데이터셋을 공개했다. 데이터셋은 국내 주요 도로에 설치된 라이다, 카메라 센서 기반 엣지-인프라와 카카오모빌리티 자율주행차를 통해 수집되었으며 사람, 차량, 자전거와 같은 3D 동적 객체와 신호등, 표지판 등 2D 정적 객체를 포함하여 총 10가지 유형 15만 건으로 구성됐다.
특히 이번 데이터셋은 도로 종류(고속도로, 국도, 지하차도, 터널 등), 시간대(주간, 야간), 날씨(맑음, 강우, 안개 등) 등 31개 이상의 다양한 환경 조건에서 수집되었다는 특징을 갖는다. 또한 라이다 센서로 취득한 포인트클라우드 좌표값과 함께 사람, 사물 등 객체의 속성을 세밀하게 구분하는 Pointcloud segmentation 데이터까지 포함되어 있어 실제 자율주행 기술 연구에 유용하게 활용될 수 있을 것으로 기대된다.
실제로 ETRI는 공개된 데이터셋을 자율주행 차량에 학습시킨 결과, 3D 동적 객체 검출 AI 성능이 약 5~8%, 신호등 인식 AI 성능이 약 2% 향상되는 것을 확인하며 데이터의 신뢰성을 입증했다. 특히 도심 야간 교통 혼잡 상황이나 보행자 신호등과 같이 데이터 확보가 어려운 희소 환경에서의 AI 성능 향상이 두드러졌다. 이는 데이터셋이 실제 자율주행 환경에서 AI 객체 인식 및 판단 성능 향상에 기여할 수 있음을 시사한다.
카카오모빌리티는 데이터셋 공개에 앞서 지난해 8월 과기정통부가 주최한 ‘제1회 자율주행 인공지능 챌린지’에 데이터셋 일부를 활용하여 참가자들에게 자율주행 AI 데이터 활용 역량 강화 기회를 제공하기도 했다. 당시 챌린지를 통해 데이터셋의 활용 가능성을 확인하고 자율주행 기술 개발 촉진에 대한 기대감을 높였다.
정부는 2027년 융합형 레벨4+ 자율주행 상용화 기반 구축을 목표로 <자율주행 기술개발 혁신사업>을 추진하고 있으며 카카오모빌리티는 과기정통부, IITP, KADIF의 지원을 받아 본 사업 과제를 수행하고 있다. 이번 데이터셋 공개는 정부의 자율주행 기술 상용화 목표 달성에도 기여할 것으로 전망된다.
장성욱 카카오모빌리티 미래이동연구소장은 “이번 데이터셋 공개가 국내 자율주행 기술 상용화와 발전에 기여하는 초석이 되기를 바란다”며 “앞으로도 다양한 공공 및 민간 기업과의 협력을 통해 자율주행 기술 혁신과 공공 데이터 활용 확대를 위해 노력하겠다”고 밝혔다.
정광복 KADIF 단장은 “미래의 석유라고 불리는 융합형 자율주행 학습 데이터셋 15만 건을 공개하게 되어 기쁘다”며 “이번 데이터 공개가 학계와 스타트업 성장의 발판이 되고, 나아가 국내 AI 자율주행 기술 고도화에 크게 기여할 수 있기를 기대한다”고 덧붙였다.
Copyright © 이코노믹데일리, 무단전재·재배포 금지