신화통신

[테크] 中 딥시크 R1 성능 및 동료 평가 '네이처'에 실려

郭爽,Larry Neild,黄宗治 2025-09-19 15:45:57
사용자가 지난 2월 17일 딥시크(DeepSeek·深度求索) 모바일 앱(APP)에 질문을 하고 있다. (사진/신화통신)

(런던=신화통신) 중국 인공지능(AI) 스타트업 딥시크(DeepSeek·深度求索)가 개발한 AI 모델 R1은 최초로 정식 동료 평가를 받은 대형 언어 모델(LLM)로 자리매김했다고 18일(현지시간) 국제 학술지 '네이처(Nature)'에 발표된 연구가 전했다. 딥시크 측은 자사 혁신적 접근 방식이 경쟁사 성과에 의존하지 않고 독자적으로 성과를 거두었다고 강조했다.

지난 1월 출시된 R1은 수학·프로그래밍 등 추론 집약적 작업에서 뛰어난 성능을 발휘하며, 미국 기술 기업들이 개발한 유사 도구들의 비용 효율적인 대안으로 자리매김하고 있다.

R1은 자유롭게 다운로드할 수 있는 오픈웨이트 모델이다. 현재까지 1천90만 건 이상의 다운로드를 기록하며 AI 커뮤니티 플랫폼 허깅페이스(Hugging Face)에서 가장 인기 있는 모델로 꼽힌다.

논문은 R1이 정식 동료평가를 거친 최초의 LLM이라고 강조하며 올해 초 발표된 사전공개 논문(preprint)을 바탕으로 딥시크가 어떻게 기존 LLM을 강화해 복잡한 추론 과제를 해결하도록 했는지 상세히 설명했다.

자료에 따르면 R1의 훈련 비용은 약 29만4천 달러에 불과하다. 경쟁 모델에 수천만 달러가 투입된 것과 비교해 현저히 낮은 수준이다. R1의 기반이 되는 기초 모델 구축에는 약 600만 달러가 소요된 것으로 나타났다.

논문은 딥시크가 R1 개발을 위해 '순수 강화학습(RL)'으로 불리는 자동화된 시행착오 방식을 새롭게 활용했다고 설명했다. 사람이 선별한 추론 사례를 단순히 학습하는 대신, 정확한 답변을 도출했을 때 보상을 받도록 설계됐다.

또 효율성 제고를 위해 R1은 별도의 알고리즘에 의존하기보다 '그룹 상대 정책 최적화(group relative policy optimization, GRPO)' 기법을 통해 산출물을 스스로 평가하는 방법을 택했다.

루이스 턴스톨 허깅페이스 머신러닝 엔지니어는 다른 연구자들이 R1 개발에 사용된 방법을 기존 LLM 추론 능력 향상에 적용하고 나아가 수학과 코딩을 넘어선 분야로 확장하려는 시도를 하고 있다고 밝혔다.