مورد عجیب هوش مصنوعی o3 اوپنایآی

مورد عجیب هوش مصنوعی o3 اوپنایآی
اختلاف بین نتایج یک آزمایش جدید با اطلاعات اولیه درباره مدل هوش مصنوعی «o3» شرکت «اوپنایآی»(OpenAI)، پرسشهایی را درباره شفافیت و شیوههای آزمایش مدل هوش مصنوعی این شرکت ایجاد میکند.
به گزارش نیوزلن از ایسنا، وقتی اوپنایآی در ماه دسامبر از o3 رونمایی کرد، مدعی شد این مدل میتواند به بیش از یک چهارم پرسشهای «FrontierMath» که مجموعه چالشبرانگیزی از مسائل ریاضی است، پاسخ دهد. این امتیاز، رقابت را از بین برد؛ زیرا بهترین مدل بعدی تنها توانست به حدود دو درصد از مسائل FrontierMath به درستی پاسخ دهد.
«مارک چن»(Mark Chen)، مدیر ارشد تحقیقات اوپنایآی در جریان یک پخش زنده گفت: امروز همه مدلها کمتر از دو درصد امتیاز را در FrontierMath دارند. ما شاهد هستیم که با o3 میتوانیم به امتیاز بیش از ۲۵ درصد برسیم.
همان طور که مشخص شد، این احتمالا امتیاز بالاتری بود که توسط یک نسخه از o3 با محاسبات بیشتر نسبت به مدل عرضهشده اوپنایآی در هفته گذشته به دست آمد.
مؤسسه تحقیقاتی «Epoch AI» مسئول FrontierMath، نتایج آزمایش مستقل خود درباره o3 را در روز جمعه منتشر کرد. این مؤسسه دریافت o3 حدود ۱۰ درصد امتیاز کسب کرده که بسیار کمتر از بالاترین امتیاز ادعاشده توسط اوپنایآی است.
این بدان معنا نیست که اوپنایآی دروغ گفته است. نتایج آزمایشی که این شرکت در ماه دسامبر منتشر کرد، یک امتیاز پایینتر را نشان میدهد که با امتیاز مشاهدهشده در آزمایش Epoch AI مطابقت دارد. همچنین، Epoch خاطرنشان کرد که تنظیمات آزمایشی آن احتمالا با اوپنایآی تفاوت دارد و از نسخه بهروزرسانیشده FrontierMath برای ارزیابیهای خود استفاده کرده است.
Epoch نوشت: تفاوت بین نتایج ما و اوپنایآی ممکن است به دلیل ارزیابی این شرکت با چارچوب داخلی قویتر و استفاده از زمان آزمایش بیشتر یا به این دلیل باشد که این نتایج در زیرمجموعه دیگری از FrontierMath به دست آمدهاند.