نبرد غولهای هوش مصنوعی: برنده نهایی چیزی نبود که فکرش را میکردیم!

نبرد غولهای هوش مصنوعی: برنده نهایی چیزی نبود که فکرش را میکردیم!
یکی دیگر از آزمونها، نگارش یک نامه رسمی برای درخواست همزمان مرخصی و افزایش حقوق بود؛ موقعیتی که نیازمند لحنی متقاعدکننده و هوشمندانه است.
چتبات ChatGPT یک متن قابلقبول، مختصر و کارراهانداز نوشت. گراک نیز متنی خوب ارائه داد و با هوشمندی به مسائلی مانند تورم و تعادل کار و زندگی اشاره کرد. اما جمنای عملکرد بسیار متمایزی داشت و پیشنهاد داد که در نامه به دستاوردهای مشخص فرد اشاره شود؛ مثلاً: «در مدتی که افتخار همکاری با این مجموعه را داشتهام، به کاهش فلان درصدی خطاها و افزایش فلان درصدی بهرهوری کمک کردهام.»
این رویکرد دادهمحور، شانس متقاعد کردن هر مدیری را به مراتب بالاتر میبرد و برتری واضح جمنای را در این آزمون رقم زد.
جدال با منطق، ریاضیات و تحلیل داده
انتظار داریم هوش مصنوعی نهتنها در کارهای ارتباطی بلکه در وظایفی که به تحلیل، استدلال و حل مسائل پیچیده نیاز دارند هم مفید واقع شود.
معمای ریاضی که غولها را به زانو درآورد
یک معمای ریاضی ساده اما هوشمندانه به هر سه مدل ارائه شد تا قدرت استدلال منطقی آنها سنجیده شود. پاسخ صحیح معما عدد ۶ بود که از یک الگوی محاسباتی خاص بین ستونهای اعداد به دست میآمد. اما در این بخش هر سه مدل شکست خوردند.
ChatGPT پس از محاسبات و استدلالهای فراوان، به اشتباه به عدد ۱۰ رسید. جمنای نیز با وجود تلاش برای یافتن الگو، همان پاسخ اشتباه چتجیپیتی را تکرار کرد. گراک اما رویکردی متفاوت داشت؛ زیرا به جای محاسبات، ادعا کرد که پاسخ براساس «ظاهر و تقارن» به دست میآید و عدد ۳ را به عنوان جواب اعلام کرد.
این آزمون نشان داد که فعلاً حتی پیشرفتهترین مدلهای هوش مصنوعی هم در برابر چالشهای منطقی غیرمتعارف آسیبپذیرند و بهتبع هیچکدام امتیازی کسب نکردند.
خلاصهسازی و تجسم دادهها
در آزمون بعدی، یک متن ۶۰۰ کلمهای در مورد تفاوت خودروهای بنزینی و برقی به مدلها داده شد و از آنها خواسته شد تا آن را در ۱۰۰ کلمه خلاصه کرده، یک جدول مقایسه و یک نمودار ستونی ایجاد کنند.
ChatGPT به سرعت متن را به درستی خلاصه کرد و هم جدول و هم نمودار را ساخت، اما یک نقص فنی داشت: حروف فارسی در نمودار به صورت چپچین و برعکس نمایش داده شدند. جمنای متن را عالی خلاصه کرد و جدول را نیز کشید، اما برای نمودار، یک لینک از کار افتاده و سرکاری تحویل داد. گراک نیز پس از خلاصهسازی و ایجاد جدول، برای ساخت نمودار به ابزار کدنویسی متوسل شد که در نهایت هیچ خروجی ملموسی نداشت.
باوجود نقص کوچک در نمایش متن، ChatGPT تنها مدلی بود که تمام وظایف خواسته شده را به طور کامل انجام داد و برنده این بخش شد.
تحلیل یک نمودار تخصصی
برای سنجش قدرت تحلیل بصری، تصویری از یک نمودار مقایسه پایداری عملکرد چند گوشی هوشمند در یک «آزمون استرس» به آنها داده شد.
ChatGPT کلیت نمودار را درک کرد اما در تحلیل جزئیات دچار اشتباه شد و به غلط، گوشی S24 اولترا را بهعنوان پایدارترین دستگاه معرفی کرد، درحالی که نمودار به وضوح برتری آیفون ۱۶ پرو مکس را نشان میداد.
در مقابل، جمنای و گراک هر دو تحلیلی بینقص ارائه دادند. آنها نه تنها نمودار را به درستی خواندند، بلکه با قاطعیت برنده آزمون، یعنی آیفون ۱۶ پرو مکس را نیز به درستی شناسایی کردند. این آزمون، بلوغ نسبی جمنای و گراک را در تحلیل بصری و درک داده به نمایش گذاشت.
میدان نبرد کدنویسان
منبع : زومیت