آمازون هوش مصنوعی جدیدی برای پردازش صدای طبیعی معرفی کرد

آوریل 9, 2025آخرین بروزرسانی: آوریل 9, 2025

آمازون هوش مصنوعی جدیدی برای پردازش صدای طبیعی معرفی کرد

آمازون مدل جدید هوش مصنوعی مولد خود با نام Nova Sonic را معرفی کرد؛ مدلی که توانایی پردازش صوت به‌صورت بومی و تولید گفتار طبیعی دارد. آمازون ادعا می‌کند که عملکرد Nova Sonic در زمینه‌هایی مانند سرعت و تشخیص گفتار و کیفیت مکالمه، با پیشرفته‌ترین مدل‌های صوتی OpenAI و گوگل رقابت‌کردنی است.

Nova Sonic پاسخ آمازون به مدل‌های جدید صوتی هوش مصنوعی همچون مدلی است که حالت گفتاری ChatGPT را قدرت می‌بخشد. مدل‌ها در مقایسه با نمونه‌های اولیه‌ی دستیار صوتی الکسا، بسیار طبیعی‌تر به نظر می‌رسند. پیشرفت‌های اخیر در حوزه‌ی فناوری باعث شده‌اند تا مدل‌های قدیمی و دستیارهای دیجیتال سنتی، مانند سیری اپل یا نسخه‌ی اولیه‌ی الکسا، بسیار خشک و ماشینی به نظر برسند.

Nova Sonic ازطریق پلتفرم Bedrock، بستری برای توسعه‌ی اپلیکیشن‌های هوش مصنوعی سازمانی و ازطریق API جدید دوطرفه‌ی استریم، در دسترس توسعه‌دهندگان قرار می‌گیرد. آمازون در بیانیه‌ای مطبوعاتی، Nova Sonic را «به‌صرفه‌ترین مدل صوتی هوش مصنوعی بازار» توصیف کرده و گفته است که هزینه‌ی استفاده از آن حدود ۸۰ درصد کمتر از GPT-4o است.

بخش‌هایی از Nova Sonic اکنون در نسخه‌ی ارتقایافته‌ی دستیار صوتی آمازون با نام +Alexa به کار گرفته شده‌اند. به گفته روهیت پراساد، معاون ارشد آمازون و رئیس واحد AGI، این مدل برپایه‌ی تجربه‌ی گسترده‌ی آمازون در سیستم‌های ارکستراسیون بزرگ توسعه یافته است. این‌ها همان زیرساخت‌های فنی هستند که عملکرد الکسا را ممکن می‌کنند.

پراساد می‌گوید که Nova Sonic در هدایت درخواست‌های کاربر به APIهای مختلف عملکردی برتر دارد. این توانایی باعث می‌شود تا مدل بتواند تشخیص دهد چه زمانی باید اطلاعاتی را از اینترنت دریافت و منبع داده‌ی اختصاصی را پردازش کند یا اقدامی را در اپلیکیشن خارجی انجام دهد و ابزار مناسب برای هرکدام را به‌درستی انتخاب کند.

براساس اظهارات آمازون، در جریان مکالمه‌ی دوطرفه، Nova Sonic منتظر زمان مناسب برای پاسخ‌گویی می‌ماند و مکث‌های احتمالی در صحبت را در نظر می‌گیرد. همچنین، برای گفتار کاربران متن پیاده‌سازی‌شده (Transcript) تولید می‌کند که توسعه‌دهندگان می‌توانند از آن در کاربردهای مختلف استفاده کنند.

مقاله‌های مرتبط

پراساد می‌گوید که دقت تشخیص گفتار Nova Sonic در مقایسه با بسیاری از مدل‌های صوتی هوش مصنوعی دیگر بیشتر است؛ به‌گونه‌ای که این مدل حتی در شرایطی که کاربر در صحبتش مکث می‌کند و اشتباه حرف می‌زند یا در محیطی پرسر‌وصدا قرار دارد، بازهم در تشخیص منظور کاربر عملکرد موفقی از خود نشان می‌دهد.

براساس آزمایشی با نام Multilingual LibriSpeech برای ارزیابی تشخیص گفتار در زبان‌ها و لهجه‌های مختلف، Nova Sonic به نرخ خطای کلمه‌ای (WER) برابر با ۴٫۲ درصد در زبان‌های انگلیسی، فرانسوی، ایتالیایی، آلمانی و اسپانیایی دست یافت. این یعنی تنها ۴ کلمه از هر ۱۰۰ کلمه با نسخه‌ی انسانی متفاوت بوده‌اند.

حتما بخوانید : نجات زمین دیگر صرفه اقتصادی ندارد؛ غول‌های بانکی به سودآوری در جهانی گرم‌تر می‌اندیشند

منبع : زومیت

آوریل 9, 2025آخرین بروزرسانی: آوریل 9, 2025