스퀴즈비츠, 거대 언어 모델 서빙 최적화 솔루션 '핏츠 온 칩스' 출시

선재관 기자 2024-12-03 09:22:08

시간·비용 절감과 하드웨어 호환성 강화로 LLM 효율 극대화

LLM 서빙의 모든 단계를 원스톱으로 지원

[이코노믹데일리] AI 경량화 및 최적화 전문 스타트업 스퀴즈비츠가 대형 언어 모델(LLM) 서빙을 효율적으로 지원하는 맞춤형 솔루션 ‘핏츠 온 칩스(Fits on Chips)’를 출시했다고 3일 밝혔다. 이번 솔루션은 LLM 서빙 과정에서 시간과 비용을 획기적으로 절감하고 다양한 하드웨어와의 호환성을 확장하는 데 초점을 맞췄다.

핏츠 온 칩스는 모델 선택부터 서빙 설정, 성능 평가, 배포까지 LLM 서빙에 필요한 모든 과정을 단순화하고 최적화한다. 오픈소스 라이브러리인 허깅페이스와 연동해 다양한 LLM 모델을 쉽게 통합할 수 있으며 이를 통해 최적의 서빙 설정을 빠르게 찾아낸다.

스퀴즈비츠는 기존 엔지니어가 30시간 이상 소요하던 작업 시간을 3시간 내로 단축하고, 비용도 절반 수준으로 줄일 수 있다. 김형준 스퀴즈비츠 대표는 “누구나 쉽게 LLM 서빙을 시뮬레이션하고 분석할 수 있도록 설계된 제품”이라며 “LLM 서비스 기업들의 성능 최적화와 비용 절감에 기여하겠다”고 강조했다.

스퀴즈비츠는 이번 솔루션을 통해 엔비디아 GPU와 인텔 가우디를 비롯한 다양한 하드웨어에서 LLM 서빙이 가능하도록 지원 범위를 확대했다. 특히 인텔, 네이버와 협력해 인텔의 가우디에서 LLM을 최적화하는 프로젝트를 진행 중이다. 이를 기반으로 사용자가 하드웨어별 비용과 속도를 비교 분석해 최적의 옵션을 선택할 수 있도록 한다는 방침이다.

또한 TensorRT-LLM 및 vLLM과 같은 다양한 프레임워크를 비교 분석할 수 있는 기능도 포함됐다. 이를 통해 사용자는 최적화된 서빙 환경을 구축해 인프라의 효율성을 극대화할 수 있다.

스퀴즈비츠는 핏츠 온 칩스를 AMD, 아마존, 구글 등의 하드웨어로 지원 범위를 넓히고, AI Agent와의 연동 기능도 추가할 계획이다. 김형준 대표는 “다양한 기술 개발을 통해 AI 서비스 기업들이 혁신적인 성능을 발휘할 수 있도록 돕겠다”고 말했다.

한편 스퀴즈비츠는 2022년 설립 이후 AI 경량화와 최적화 기술을 바탕으로 주요 학회에 70편 이상의 논문을 발표했으며, 카카오벤처스, 네이버 D2SF, 삼성넥스트 등으로부터 투자를 유치했다.