مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخهی جدیدی از مدل زبانی کوچک خود را به نام Phi-3-vision رونمایی کرد.
Phi-3-vision یک مدل زبانی کوچک چندوجهی محسوب میشود که با بهرهمندی از ۴٫۲ میلیارد پارامتر، قابلیت درک تصاویر و ویدئوها را دارد. بهنظر میرسد که هوش مصنوعی کوچک مایکروسافت با مدلهای زبانی دیگر مانند جمنای ۱ پرو گوگل و مدل Claude 3 Haiku همسطح است.
طبق تحقیق منتشرشده در سایت Arxiv، هوش مصنوعی کوچک مایکروسافت توانست در بنچمارکهای ScienceQA و MathVista و MMMU و ChartQA در برخی موارد از همهی مدلهای زبانی کوچک پیشی بگیرد. Phi-3-vision میتواند هنگام مطرحشدن سؤال دربارهی تصاویر یا تحلیل نمودار، استدلال بصری انجام دهد.
Phi-3-vision برخلاف مدلهای هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion، توانایی تولید تصویر را ندارد.
نسخهی پیشنمایش Phi-3-vision اکنون دردسترس است و کاربران میتوانند Phi-3 mini و Phi-3 Medium را از طریق پلتفرم هوش مصنوعی مایکروسافت آژور تهیه کنند.
Phi Silica یکی دیگر از مدلهای هوش مصنوعی مایکروسافت محسوب میشود که برای پیشتیبانی از اپلیکیشنهای هوش مصنوعی ویندوز منتشر شده و این مدل بهطور سفارشی برای NPU کامپیوترهای کوپایلتپلاس در نظر گرفته شده است.
مدل هوش مصنوعی Phi Silica میتواند در هر ثانیه ۶۵۰ توکن ورودی را پردازش کند و بدون درگیرکردن پردازندهی مرکزی و گرافیکی فقط ۱٫۵ وات برق مصرف خواهد کرد.
منبع : زومیت