zoomit

مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخه‌ی جدیدی از مدل زبانی کوچک خود را به نام Phi-3-vision رونمایی کرد.

Phi-3-vision یک مدل زبانی کوچک چندوجهی محسوب می‌شود که با بهره‌مندی از ۴٫۲ میلیارد پارامتر، قابلیت درک تصاویر و ویدئو‌ها را دارد. به‌نظر می‌رسد که هوش مصنوعی کوچک مایکروسافت با مدل‌های زبانی دیگر مانند جمنای ۱ پرو گوگل و مدل Claude 3 Haiku هم‌سطح است.

طبق تحقیق منتشرشده در سایت Arxiv، هوش مصنوعی کوچک مایکروسافت توانست در بنچمارک‌های ScienceQA و MathVista و MMMU و ChartQA در برخی موارد از همه‌ی مدل‌های زبانی کوچک پیشی بگیرد. Phi-3-vision می‌تواند هنگام مطرح‌شدن سؤال درباره‌ی تصاویر یا تحلیل نمودار، استدلال بصری انجام دهد.

 Phi-3-vision در بنچمارک

Arxiv

Phi-3-vision برخلاف مدل‌های هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion، توانایی تولید تصویر را ندارد.

نسخه‌ی پیش‌نمایش Phi-3-vision اکنون دردسترس است و کاربران می‌توانند Phi-3 mini و Phi-3 Medium را از طریق پلتفرم هوش مصنوعی مایکروسافت آژور تهیه کنند.

Phi Silica یکی‌ دیگر از مدل‌های هوش مصنوعی مایکروسافت محسوب می‌شود که برای پیشتیبانی از اپلیکیشن‌های هوش مصنوعی ویندوز منتشر شده و این مدل به‌طور سفارشی برای NPU کامپیوترهای کوپایلت‌پلاس در نظر گرفته شده است.

مدل هوش مصنوعی Phi Silica می‌تواند در هر ثانیه ۶۵۰ توکن ورودی را پردازش کند و بدون درگیرکردن پردازنده‌ی مرکزی و گرافیکی فقط ۱٫۵ وات برق مصرف خواهد کرد.

حتما بخوانید :

منبع : زومیت

مشاهده بیشتر
دانلود نرم افزار

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا