هوش مصنوعی پیشرفته اپل میتواند ویدیوهای بیصدا را صدادار کند

هوش مصنوعی پیشرفته اپل میتواند ویدیوهای بیصدا را صدادار کند
مدل هوش مصنوعی جدید اپل بهنام VSSFlow، با معماری نوآورانهای معرفی شده و قادر است ویدیوهای بیصدا را بهصورت یکپارچه صدادار کند. نمونههایی از این مدل در دسترس عموم قرار گرفتهاند.
اکثر مدلهای تبدیل ویدیو به صدا، در تولید گفتار و بیشتر مدلهای تبدیل متن به گفتار، در تولید صداهای محیطی ضعیف عمل میکنند. تلاشهای قبلی برای ترکیب هر دو وظیفه چندان موفق نبود و پیچیدگیهای زیادی بههمراه داشت.
محققان اپل و دانشگاه رنمین چین با توسعهی VSSFlow نشان دادند که یک مدل هوش مصنوعی میتواند همزمان جلوههای صوتی و گفتاری را بهصورت یکپارچه از ویدیوهای صامت تولید کند. آموزش گفتار و صدای مدل نامبرده با یکدیگر رابطهی دوسویه دارند و هر یک عملکرد دیگری را بهبود میدهد.
VSSFlow به کمک روشهایی نظیر بازسازی صدا از نویز، صدا و گفتار را همزمان تولید میکند. برای آموزش مدل، ترکیبی از ویدیوهای بیصدا با صداهای محیطی، ویدیوهای گفتاری همراه با متن و دادههای متن به گفتار استفاده شده است.
مدل VSSFlow در تعداد زیادی از آزمایشها نتایج خوبی ارائه میدهد و در مقایسه با بسیاری از مدلهای اختصاصی بهتر عمل میکند.
منبع : زومیت



