گوگل دیپمایند و گامی بزرگ به سوی آینده: ادغام جمینای و Veo

گوگل دیپمایند و گامی بزرگ به سوی آینده: ادغام جمینای و Veo
در یکی از قسمتهای اخیر پادکست «Possible» که توسط رید هافمن، یکی از بنیانگذاران لینکدین، اجرا میشود، دمیس هاسابیس، مدیرعامل گوگل دیپمایند، اعلام کرد که این شرکت قصد دارد مدلهای هوش مصنوعی جمینای (Gemini) را با فناوری تولید ویدیو Veo ترکیب کند. هدف از این کار، افزایش درک مدلهای جمینای از جهان فیزیکی است.
هاسابیس تأکید کرد: «ما از ابتدا مدل پایه جمینای را به صورت چندوجهی (multimodal) طراحی کردیم. این طراحی بر اساس چشمانداز ما برای خلق یک دستیار دیجیتال جهانی است که بتواند واقعاً در دنیای واقعی به کاربران کمک کند.»
با رشد تدریجی صنعت هوش مصنوعی، تمرکز به سمت توسعه مدلهای «همهجانبه» (Omni) حرکت کرده است؛ مدلهایی که توانایی درک و تولید انواع مختلف رسانهها را دارند.
جدیدترین مدلهای جمینای گوگل قادر به تولید صدا، تصویر و متن هستند، درحالی که مدل پیشفرض اوپن اِیآی (OpenAI) در چتجیپیتی (ChatGPT) اکنون میتواند تصاویر (از جمله آثار به سبک استودیو جیبلی) ایجاد کند. آمازون نیز برنامههایی برای راهاندازی یک مدل «هرچیزی به هرچیزی (any-to-any)» تا پایان سال جاری اعلام کرده است.
برای آموزش مدلهای همهجانبه، نیاز به حجم زیادی از دادههای آموزشی شامل تصاویر، ویدیوها، صدا و متن وجود دارد. هاسابیس اشاره کرد که دادههای ویدیویی مورد استفاده در آموزش Veo عمدتاً از یوتیوب، که متعلق به گوگل است، تأمین شدهاند. وی توضیح داد: «Veo 2 از طریق مشاهده تعداد زیادی ویدیو در یوتیوب، توانسته به درک بهتری از فیزیک جهان دست یابد.»
گوگل پیشتر به TechCrunch اعلام کرده بود که مدلهایش «ممکن است» با استفاده از «برخی» محتوای یوتیوب و مطابق با توافق با خالقان محتوا آموزش داده شوند. گزارشها حاکی از آن است که این شرکت سال گذشته شرایط خدمات خود را گسترش داد تا دسترسی به دادههای بیشتر برای آموزش مدلهای هوش مصنوعی خود را فراهم کند.