IT

업스테이지, 차세대 문서 처리 AI 'Document Parse' 공개  

선재관 기자 2024-10-17 09:13:06
AWS·MS와 비교해 정확성 5% 앞서 대규모 언어 모델(LLM) 최적화 금융·제조업 등 다양한 산업에서 활용
타사 속도 및 성능 비교표

[이코노믹데일리] 업스테이지가 차세대 OCR(광학 문자 인식) 모델인 Document Parse를 17일 공개했다. 이 모델은 복잡한 문서 구조에서도 정확하고 빠른 분석을 자랑하며 LLM(대규모 언어 모델) 활용에 최적화되어 다양한 산업 분야에서 업무 혁신을 이끌 것으로 기대된다.

Document Parse는 기존 OCR 기술의 한계를 넘어 다중 열이나 테이블을 포함한 복잡한 문서 구조에서도 탁월한 분석 성능을 보인다. 이를 통해 문서를 HTML과 같은 구조화된 형식으로 변환해 기업과 기관이 대규모 언어 모델을 활용할 수 있도록 지원한다. 업스테이지는 Document Parse의 공개를 통해 데이터 전처리 정확성, 속도, 사용성 등에서 가장 앞선 기술을 선보였다.

업스테이지는 성능 측정을 위한 문서 구조 분석 벤치마크 DP-Bench도 함께 발표했다. 이 결과에 따르면 Document Parse는 AWS와 MS 등 빅테크 기업의 관련 서비스보다 정확도가 5% 이상 높은 것으로 나타났다. 또한 1분에 100장을 처리할 수 있는 속도를 기록해 AWS Texttract와 비교해 10배, LamaParse보다 5배 빠른 성능을 자랑했다.

특히 DOCX, PDF, PPTX, PNG 등 다양한 문서 형식의 처리가 가능하며 수식 인식과 이미지 추출 기능도 추가됐다. HTML 외에도 헤더와 테이블을 마크다운 형식으로 제공해 LLM 사용자가 문서의 토큰 크기를 줄일 수 있어 효율성을 높였다.

업스테이지는 2023년 AI OCR 경진대회 ICDAR에서 아마존, 엔비디아 등을 제치고 1위를 차지한 바 있다. 이를 바탕으로 보안이 중요한 금융권과 제조업 등에서 주요 고객을 확보했으며 Document Parse를 통해 대규모 문서의 디지털 전환과 LLM 활용을 원하는 다양한 산업 분야에서 중요한 역할을 할 것으로 전망된다.

김성훈 업스테이지 대표는 “Document Parse는 기업의 기존 문서를 가장 정확하게 자산화하여 대규모 언어 모델에 효율적으로 적용할 수 있도록 돕는 최적의 도구”라며 “업무 혁신을 현실화할 수 있을 것”이라고 밝혔다.