مدل زبانی «کوچک» جدید مایکروسافت، تصاویر را درک میکند

مدل زبانی «کوچک» جدید مایکروسافت، تصاویر را درک میکند
مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخهی جدیدی از مدل زبانی کوچک خود به نام Phi-3-vision را معرفی کرد که میتواند تصاویر را بررسی کند و به شما بگوید چه چیزهایی در آنها وجود دارد.
Phi-3-vision مدل زبانی چندحالته است. این یعنی میتواند هم متن و هم تصاویر را درک کند. مایکروسافت میگوید Phi-3-vision که درحالحاضر بهصورت آزمایشی دردسترس است، مدلی با ۴٫۲ میلیارد پارامتر محسوب میشود و میتواند استدلال بصری در هنگام مطرحکردن سؤال دربارهی نمودارها یا تصاویر را انجام دهد.
Phi-3-vision بهمراتب کوچکتر از سایر مدلهای هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion است. برخلاف آن مدلها، Phi-3-vision تصویر تولید نمیکند؛ اما میتواند آنچه در تصویر وجود دارد، بفهمد و آن را برای کاربر تجزیهوتحلیل کند.
با افزایش تقاضا برای استفاده از خدمات هوش مصنوعی مقرونبهصرفهتر، توسعهدهندگان مدلهای هوش مصنوعی کوچک و سبک مانند Phi-3 را ارائه میدهند. مدلهای کوچک میتوانند برای اجرای قابلیتهای هوش مصنوعی روی دستگاههایی مانند گوشی و لپتاپ بدون نیاز به اشغال فضای رم، استفاده شوند.
منبع : زومیت