نبرد غول‌های هوش مصنوعی: برنده نهایی چیزی نبود که فکرش را می‌کردیم!

آگوست 20, 2025آخرین بروزرسانی: آگوست 20, 2025

نبرد غول‌های هوش مصنوعی: برنده نهایی چیزی نبود که فکرش را می‌کردیم!

یکی دیگر از آزمون‌ها، نگارش یک نامه رسمی برای درخواست هم‌زمان مرخصی و افزایش حقوق بود؛ موقعیتی که نیازمند لحنی متقاعدکننده و هوشمندانه است.

چت‌بات ChatGPT یک متن قابل‌قبول، مختصر و کارراه‌انداز نوشت. گراک نیز متنی خوب ارائه داد و با هوشمندی به مسائلی مانند تورم و تعادل کار و زندگی اشاره کرد. اما جمنای عملکرد بسیار متمایزی داشت و پیشنهاد داد که در نامه به دستاوردهای مشخص فرد اشاره شود؛ مثلاً: «در مدتی که افتخار همکاری با این مجموعه را داشته‌ام، به کاهش فلان درصدی خطاها و افزایش فلان درصدی بهره‌وری کمک کرده‌ام.»

این رویکرد داده‌محور، شانس متقاعد کردن هر مدیری را به مراتب بالاتر می‌برد و برتری واضح جمنای را در این آزمون رقم زد.

جدال با منطق، ریاضیات و تحلیل داده

انتظار داریم هوش مصنوعی نه‌تنها در کارهای ارتباطی بلکه در وظایفی که به تحلیل، استدلال و حل مسائل پیچیده نیاز دارند هم مفید واقع شود.

معمای ریاضی که غول‌ها را به زانو درآورد

یک معمای ریاضی ساده اما هوشمندانه به هر سه مدل ارائه شد تا قدرت استدلال منطقی آن‌ها سنجیده شود. پاسخ صحیح معما عدد ۶ بود که از یک الگوی محاسباتی خاص بین ستون‌های اعداد به دست می‌آمد. اما در این بخش هر سه مدل شکست خوردند.

ChatGPT پس از محاسبات و استدلال‌های فراوان، به اشتباه به عدد ۱۰ رسید. جمنای نیز با وجود تلاش برای یافتن الگو، همان پاسخ اشتباه چت‌جی‌پی‌تی را تکرار کرد. گراک اما رویکردی متفاوت داشت؛ زیرا به جای محاسبات، ادعا کرد که پاسخ براساس «ظاهر و تقارن» به دست می‌آید و عدد ۳ را به عنوان جواب اعلام کرد.

این آزمون نشان داد که فعلاً حتی پیشرفته‌ترین مدل‌های هوش مصنوعی هم در برابر چالش‌های منطقی غیرمتعارف آسیب‌پذیرند و به‌تبع هیچ‌کدام امتیازی کسب نکردند.

خلاصه‌سازی و تجسم داده‌ها

در آزمون بعدی، یک متن ۶۰۰ کلمه‌ای در مورد تفاوت خودروهای بنزینی و برقی به مدل‌ها داده شد و از آن‌ها خواسته شد تا آن را در ۱۰۰ کلمه خلاصه کرده، یک جدول مقایسه و یک نمودار ستونی ایجاد کنند.

ChatGPT به سرعت متن را به درستی خلاصه کرد و هم جدول و هم نمودار را ساخت، اما یک نقص فنی داشت: حروف فارسی در نمودار به صورت چپ‌چین و برعکس نمایش داده شدند. جمنای متن را عالی خلاصه کرد و جدول را نیز کشید، اما برای نمودار، یک لینک از کار افتاده و سرکاری تحویل داد. گراک نیز پس از خلاصه‌سازی و ایجاد جدول، برای ساخت نمودار به ابزار کدنویسی متوسل شد که در نهایت هیچ خروجی ملموسی نداشت.

باوجود نقص کوچک در نمایش متن، ChatGPT تنها مدلی بود که تمام وظایف خواسته شده را به طور کامل انجام داد و برنده این بخش شد.

تحلیل یک نمودار تخصصی

برای سنجش قدرت تحلیل بصری، تصویری از یک نمودار مقایسه پایداری عملکرد چند گوشی هوشمند در یک «آزمون استرس» به آن‌ها داده شد.

ChatGPT کلیت نمودار را درک کرد اما در تحلیل جزئیات دچار اشتباه شد و به غلط، گوشی S24 اولترا را به‌عنوان پایدارترین دستگاه معرفی کرد، درحالی که نمودار به وضوح برتری آیفون ۱۶ پرو مکس را نشان می‌داد.

در مقابل، جمنای و گراک هر دو تحلیلی بی‌نقص ارائه دادند. آن‌ها نه تنها نمودار را به درستی خواندند، بلکه با قاطعیت برنده آزمون، یعنی آیفون ۱۶ پرو مکس را نیز به درستی شناسایی کردند. این آزمون، بلوغ نسبی جمنای و گراک را در تحلیل بصری و درک داده به نمایش گذاشت.