zoomit

هوش مصنوعی پیشرفته اپل می‌تواند ویدیوهای بی‌صدا را صدادار کند

هوش مصنوعی پیشرفته اپل می‌تواند ویدیوهای بی‌صدا را صدادار کند

مدل هوش مصنوعی جدید اپل به‌نام VSSFlow، با معماری نوآورانه‌ای معرفی شده و قادر است ویدیو‌های بی‌صدا را به‌صورت یکپارچه صدادار کند. نمونه‌هایی از این مدل در دسترس عموم قرار گرفته‌اند.

اکثر مدل‌های تبدیل ویدیو به صدا، در تولید گفتار و بیشتر مدل‌های تبدیل متن به گفتار، در تولید صداهای محیطی ضعیف عمل می‌کنند. تلاش‌های قبلی برای ترکیب هر دو وظیفه چندان موفق نبود و پیچیدگی‌های زیادی به‌همراه داشت.

محققان اپل و دانشگاه رنمین چین با توسعه‌ی VSSFlow نشان دادند که یک مدل هوش مصنوعی می‌تواند هم‌زمان جلوه‌های صوتی و گفتاری را به‌صورت یکپارچه از ویدیو‌های صامت تولید کند. آموزش گفتار و صدای مدل نام‌برده با یکدیگر رابطه‌ی دوسویه دارند و هر یک عملکرد دیگری را بهبود می‌دهد.

مقاله‌های مرتبط

VSSFlow به کمک روش‌هایی نظیر بازسازی صدا از نویز، صدا و گفتار را هم‌زمان تولید می‌کند. برای آموزش مدل، ترکیبی از ویدیوهای بی‌صدا با صداهای محیطی، ویدیوهای گفتاری همراه با متن و داده‌های متن به گفتار استفاده شده است.

مدل VSSFlow در تعداد زیادی از آزمایش‌ها نتایج خوبی ارائه می‌دهد و در مقایسه با بسیاری از مدل‌های اختصاصی بهتر عمل می‌کند.

منبع : زومیت

مشاهده بیشتر
دانلود نرم افزار

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا