문서 데이터 추출 '파이뮤PDF 프로', 올해 설치 수 5배 증가 작성일 12-11 16 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">2024년 대비 다운로드 수 5배 증가…최근 두 달만 1.2억회<br>이파피루스 "GPU 필요한 제품보다 10배 빠르게 문서 데이터 추출"</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="qVOjR0DgYd"> <figure class="figure_frm origin_fig" contents-hash="fc3b70d12c87f485868d6a1f98b6b402086aad2f547f2766ac71b9ba8da44a97" dmcf-pid="BfIAepwaGe" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/11/newsis/20251211161141038jqtq.jpg" data-org-width="720" dmcf-mid="zXHCAVTsGJ" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/11/newsis/20251211161141038jqtq.jpg" width="658"></p> </figure> <p contents-hash="1a76083ca46470f45e82577b01f3fb60cd20bd6218c470861d784fc36f4a92a0" dmcf-pid="b4CcdUrNZR" dmcf-ptype="general"><br> [서울=뉴시스]오동현 기자 = 이파피루스는 자사 문서 데이터 추출 라이브러리 '파이뮤PDF 프로(PyMuPDF Pro)'의 올해 다운로드 수가 지난해 연간 대비 5배 이상 증가했다고 11일 밝혔다.</p> <p contents-hash="7f1ad018c1f4e7cf9d37523678024ed7d7415c5fb5691f92eb6fe7f186d462a7" dmcf-pid="K8hkJumjZM" dmcf-ptype="general">‘파이뮤PDF 프로’는 인공지능(AI) 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. </p> <p contents-hash="cf862854fda92e221c413351c22f481c908d8c6b1ac385ff8fe95fe598344ffd" dmcf-pid="96lEi7sAXx" dmcf-ptype="general">파이썬 개발자들을 위한 패키지 저장소인 PyPI에서 올해 1월부터 11월까지 총 2억2000만 회 이상 다운로드 됐다. 이는 작년 1월부터 12월까지의 다운로드 합계인 4400만 건을 크게 상회하는 수치다. 특히 올해 9월을 기점으로 폭발적으로 증가, 10월부터 11월까지의 다운로드 수만 1억2000만 회에 이른다.</p> <p contents-hash="49acac23cb6c54c153e8d89fd113ab6e614f76f5aa3a7ae65c7bb63e012ddf5c" dmcf-pid="2PSDnzOcXQ" dmcf-ptype="general">김정아 이파피루스 부사장은 "'파이뮤 PDF 프로'는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(말뭉치)를 생성할 수 있으며, 추출한 문서 데이터를 LLM(대규모 언어 모델) 및 RAG(검색 증강 생성) 친화적인 제이슨(JSON)과 마크다운(Markdown), 라마인덱스 리더(LlamaIndex Reader) 파일로 출력할 수 있어 AI 학습용 데이터 추출이나 문서 기반 대화형 서비스 개발에 매우 유리하다"고 소개했다.</p> <p contents-hash="cac6f4fad0d53594ff8f2835d545a21d9cb95073dd314ed90d0713371039a6aa" dmcf-pid="VQvwLqIkXP" dmcf-ptype="general">현재 AI 전처리를 위해 사용되는 시중의 문서 데이터 추출 솔루션 대부분은 문서를 고해상도 이미지로 인식한 뒤 데이터를 추출하는 VLM(비전 언어 모델) 방식을 기반으로 한다. </p> <p contents-hash="1c3f0d92deb4fbb1f549833bad234ed8e3ef5a1e49ddd96232e14b87c94c8bb0" dmcf-pid="fxTroBCEX6" dmcf-ptype="general">이와 달리 ‘파이뮤PDF 프로’는 자체 개발한 머신러닝 기반 레이아웃 분석기를 통해 문서 구조 자체를 파악해 데이터로 추출, VLM 방식을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 속도로 정확한 데이터 처리가 가능하다. 특히 테두리가 없거나 병합 셀 등을 포함한 표 문서, 스캔 이미지와 디지털 데이터가 혼합된 복잡한 문서 추출에 있어서 독보적인 정확도와 속도를 자랑한다.</p> <p contents-hash="0af98b5a28fa7115d2d3288f61288e8022acfdee966da10d9350c3b2ba32f560" dmcf-pid="4MymgbhDX8" dmcf-ptype="general">‘파이뮤PDF 프로’는 그래픽처리장치(GPU)가 필요한 VLM 방식과 달리 중앙처리장치(CPU)만으로도 동작해 비용 부담이 적은 것도 강점이다. 추출 대상 문서로 PDF, MS오피스, 한글 문서, 이미지 외 다양한 포맷을 지원한다.</p> <p contents-hash="1565cb5fd6baba0f01975f49f09bd98e576ff232096349dc3b829a4a144ec293" dmcf-pid="8RWsaKlwX4" dmcf-ptype="general">‘파이뮤PDF 프로’는 오픈AI, 오라클(Oracle), 보쉬(Bosch), DHL, 도큐싸인(DocuSign), 슈나이더일렉트릭(Schneider Electric) 등 유수의 글로벌 기업으로부터 성능을 인정받고 있다. 테스트가 필요한 고객들을 위해 홈페이지 내 데모 페이지와 60일 무료 체험 라이선스를 제공한다.</p> <p contents-hash="f4ad4902975443a140f8c1b0435a8ad0092592e3d929a4d5229dfb4d37092a5a" dmcf-pid="6eYON9SrYf" dmcf-ptype="general"><span>☞공감언론 뉴시스</span> odong85@newsis.com </p> </section> </div> <p class="" data-translation="true">Copyright © 뉴시스. 무단전재 및 재배포 금지.</p> 관련자료 이전 게임계 오스카 'TGA' 하루 앞 임박…스마일게이트·넥슨 웃을까 12-11 다음 "한국 배드민턴, 둘이나 11관왕? 역사의 문 앞에 섰다!"…세계가 놀란 배드민턴 절대 1강 대한민국! 안세영+서승재-김원호 동시 대기록 정조준 12-11 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.