전체메뉴 검색
IT

애플 자체 '온디바이스 및 서버 파운데이션 모델' 평가 보고서 공개... 신뢰성 논란

선재관 2024-06-13 08:13:15

자체 벤치마크, 구글·MS 제친 '최고' 성능 주장

평가 방식 불투명성 지적 등 논란

NPU 성능도 관심…삼성전자 경쟁

애플 파운데이션 모델 '인간 만족도' 조사 결과 [애플 머신러닝 웹페이지 캡처.]


[이코노믹데일리] 애플이 자사 AI 시스템 성능을 자체 평가한 '온디바이스 및 서버 파운데이션 모델 성능 보고서'를 공개하면서 신뢰성 논란이 일고 있다. 

이 보고서에서 애플은 자사 AI 모델이 '인간 만족도' 평가에서 구글, 오픈AI, 마이크로소프트(MS) 등 주요 기업의 AI보다 앞선 성능을 보였다고 밝혔다. 구체적으로 30억 개 매개변수를 가진 '온디바이스' 모델은 구글의 '파이-3 미니', '미스트랄-7B', '젬마-7B' 등 대형 모델보다 성능이 우수했다고 한다. 또 서버 기반 AI 모델 역시 데이터브릭스, 미스트랄, GPT-3.5 터보보다 효율적이라고 설명했다.

애플은 '사람의 평가에 중점을 둔 이유는 사용자 경험과 높은 상관관계가 있기 때문'이라며 750개의 '신중히 선별된 응답 세트'를 활용해 평가했다고 밝혔다.

그러나 이같은 주장에 대해 업계에서는 평가 방식의 불투명성을 지적하고 있다. 애플이 자체 개발한 비공개 AI 모델과 이미 공개된 타사 모델을 비교했기 때문에 외부에서 실험 결과를 재현하거나 검증하기 어렵다는 지적이다. 

또한 모델 정확도를 사람의 주관적 평가로 판단했지만, 평가 참여자 수와 특징 분포, 구체적인 평가 방법 등을 공개하지 않았다는 점도 문제로 꼽혔다.

음성 AI를 연구하는 장준혁 한양대 교수는 "객관적 검증 없이 자기 벤치마크만 내세우는 것은 의미가 없다"며 "제3자 평가가 중요하다"고 지적했다. 그는 이어 "애플이 AI 인력과 데이터 투자가 부족했기 때문에 내세울 게 없는 것 아니냐"며 의구심을 제기했다.

한편 애플 측은 단순 AI 파운데이션 모델이 아닌, 요약·이모티콘 생성 등 사용처에 맞게 모듈화한 AI 성능을 평가한 것이라고 해명했다. 또 향후 알려지지 않은 피해를 파악하고 개선할 계획이라고 덧붙였다.

AI 스마트폰의 '두뇌' 역할을 하는 신경망처리장치(NPU) 성능에서도 애플과 삼성전자의 경쟁이 주목된다. 애플 'A16 바이오닉' NPU는 17TOPS(초당 1조 번 연산) 수준인 반면 퀄컴 '헥사곤'은 50TOPS, 삼성전자 '엑시노스2400'은 42TOPS로 알려졌다. 삼성전자는 최근 엣지퓨전 모델 개발을 완료하고 AP 탑재를 검토 중인 것으로 전해졌다.

AI 기술 경쟁이 치열해지면서 주요 기업들의 AI 모델 성능을 둘러싼 다툼도 불가피해 보인다. 업계는 객관적이고 공정한 평가 기준 마련이 시급하다고 입을 모으고 있다.
0개의 댓글
0 / 300
댓글을 삭제 하시겠습니까?
닫기
로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?
닫기
기사 이미지 확대 보기
닫기