جمعوجور اما پرقدرت؛ هوش مصنوعی چینی PP-OCRv5 معرفی شد
جمعوجور اما پرقدرت؛ هوش مصنوعی چینی PP-OCRv5 معرفی شد
بایدو مدل هوش مصنوعی جدیدی به نام PP-OCRv5 را معرفی کرده است. این مدل شناسایی متن نوری (OCR) که در پلتفرم Hugging Face دردسترس قرار دارد، برای شناسایی دقیق متن در تصاویر طراحی شده و برخلاف مدلهای سنگین، از پارامترهای کمتری برخوردار است. این مدل سبک و کارآمد میتواند تحولی در زمینهی پردازش اسناد و فرمها ایجاد کند.
PP-OCRv5 برخلاف مدلهای پیچیدهی بینایی-زبان، تمرکز خود را روی شناسایی دقیق متنهای ساختاریافته گذاشته است. این مدل در دو مرحلهی اصلی عمل میکند: ابتدا موقعیت متن را در تصویر شناسایی میکند و سپس به خواندن متن میپردازد. این قابلیت، مخصوصاً برای استخراج دادهها از اسناد یا تجزیه و تحلیل فرمها بسیار مفید است.
بهنوشتهی ITHome، یکی از ویژگیهای برجستهی مدل PP-OCRv5، کارایی بالا در پردازش سریع است. با فقط ۰٫۰۷ میلیارد پارامتر، این مدل میتواند بیش از ۳۷۰ کاراکتر در هر ثانیه پردازش کند و حتی روی دستگاههای معمولی یا موبایلها قابل اجرا است. این ویژگی به مدل امکان میدهد بدون نیاز به سرورهای بزرگ و پرهزینه، در دستگاههای مختلف کار کند.
مقالههای مرتبط:
مدل PP-OCRv5 درمقایسه با مدلهای شناخته شده مانند GPT-4o و جمنای ۲٫۵ پرو در پردازش متنهای چاپی و دستنویس عملکرد بهتری داشته است. این مدل علاوهبر زبان انگلیسی، از بیش از ۴۰ زبان شامل چینی سادهشده، چینی سنتی، ژاپنی و پینیین پشتیبانی میکند و میتواند در محیطهای چندزبانه به خوبی عمل کند.
هوش مصنوعی PP-OCRv5 با فرایندهای ساده و هوشمندانه برای تمیز کردن تصویر و شناسایی خطوط متن طراحی شده است. این مدل به ویژه برای اسکن فاکتورها و فرمها که نیاز به دقت بالا دارند، ایدئال بهنظر میرسد و میتواند به راحتی متن را از دل تصویر بیرون بکشد. بایدو این مدل را برای عموم در دسترس قرار داده است و برای توسعهدهندگان و کسبوکارهایی که به OCR دقیق و کارآمد نیاز دارند، گزینهی بسیار مناسبی بهنظر میرسد.
منبع : زومیت