وقتی هوش مصنوعی به دیوار ریاضی میخورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!

وقتی هوش مصنوعی به دیوار ریاضی میخورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!
در میان شرکتکنندگان انسانی، رایجترین دلیل شکست آن بود که نمیتوانستند راهحل درستی برای مسئله پیدا کنند. نکتهی جالب اینجاست که انسانها معمولاً خودشان بهخوبی میدانند که آیا مسئلهای را درست حل کردهاند یا نه. اما مدلهای زبانی داستان کاملاً متفاوتی دارند: تقریباً همهی مدلها با اعتمادبهنفسی عجیب، ادعا میکردند که مسئله را بهدرستی حل کردهاند؛ حتی وقتی راهحلشان کاملاً غلط بود.
این تفاوت فاحش، چالشی جدی برای کاربردهای ریاضی LLMها ایجاد میکند؛ به این دلیل که اگر بخواهیم به نتایج ریاضی این مدلها تکیه کنیم، حتماً باید صحت آنها را با بازبینی دقیق انسانی تأیید کنیم.
پشت پرده خطاها؛ منطق گمشده هوش مصنوعی
در بخش قبل، با چهار دلیل اصلی شکست مدلهای مختلف هوش مصنوعی در حل مسائل اثباتی المپیاد آمریکا آشنا شدیم. اما نکتهی جالبتر، بررسی دلایل پشتِ این شکست بود. تیم تحقیقاتی با همراهی چند نفر از اعضای سابق تیم ملی المپیاد ریاضی، به تحلیل دقیق پاسخهای تولیدشده توسط مدلها پرداخت. این افراد با دقت بالا، الگوهای خطا را شناسایی کردند؛ خطاهایی که نشان میدادند مدلها در مواجهه با مفاهیم انتزاعی و زنجیرههای پیچیدهی استدلالی بهراحتی دچار لغزش میشوند.
فقدان منطق
پژوهشگران با بررسی دقیقترِ پاسخهای تولیدشده توسط مدلهای زبانی، متوجه شدند مدلها یا استدلال درستی ارائه نمیدهند یا بهدرستی متوجه نمیشوند چه چیزی را قبلاً ثابت کردهاند. یکی از رایجترین خطاها، جهشهای منطقی بدون پشتوانه بود. یعنی مدلها بدون طی کردن مراحل لازم یا آوردن دلیل کافی، مستقیماً به نتیجهای میرسیدند که نیازمند اثبات دقیق بود.
مدلها در فهم زنجیرههای استدلالی پیچیده و مفاهیم انتزاعی ناتوانند
بهعنوان مثال، مدل Claude 3.7 توانسته بود برای یک مقدار خاص، نکتهای را بهدرستی ثابت کند؛ اما بدون اینکه دلیل بیاورد، همان نتیجه را بدون هیچ منطقی برای همهی مقادیر ممکن تعمیم داد. این دقیقاً شبیه همان اشتباهی است که در کلاسهای ریاضی معلم به آن ایراد میگیرد: نمیتوان فقط به این دلیل که چیزی در یک حالت درست است، آن را برای تمام حالتها هم درست فرض کرد.
فرضهای بیدلیل و بدون پشتوانهی علمی
اشتباه پرتکرار دیگر، فرضهای بیدلیل و بیپشتوانه بود. مدلها گاهی نکات کلیدی در روند اثبات را طوری بیان میکردند که انگار بدیهی یا پیشفرض هستند، درحالیکه هیچ توضیحی برای آنها ارائه نمیدادند.
بهعنوان مثال، در یک مسئلهی هندسه، یکی از مدلها موقعیت یک نقطه نسبت به دایرهی محیطی را بدون هیچ اثبات یا توجیهی مشخص کرده بود. این نوع استدلالها روی زمینِ سست بنا میشوند و مثل ساختمانی هستند که با کوچکترین لرزش، فرو میریزند. اما همهی مسئله صرفاً اشتباه در منطق یا فرض نبود.
فقدان خلاقیت
پژوهشگران به نکتهی مهمتری هم اشاره کردند: فقدان خلاقیت در رویکرد حل مسئله. برخلاف شرکتکنندگان انسانی در المپیاد که گاهی با دیدگاههای نوآورانه و غیرمنتظره به حل مسئله میپردازند، مدلهای زبانی معمولاً از الگوهای تکراری و سادهسازیهای سطحی استفاده میکنند.
به بیان دیگر، این مدلها بیشتر شبیه کسانی رفتار میکنند که فقط میخواهند فرمولی پیدا کنند و سریع به جواب برسند، نه کسانی که واقعاً مسئله را درک میکنند و برای آن راهحل هوشمندانهای ارائه میدهند.
در میان مدلهای بررسیشده، مدلِ Flash Thking تا حدی از این قاعده مستثنی بود؛ چراکه در برخی موارد تلاش کرده بود در یک پاسخ از چند روش مختلف استفاده کند. اما بررسی دقیقتر نشان داد این تنوع، بیشتر سطحی و اتفاقی بود تا آگاهانه و هدفمند.
بهبیان دیگر، مدل صرفاً راهحلها را بهصورت تصادفی امتحان میکرد، بدون آنکه عمیقاً مسئله را تحلیل یا بهدرستی بین گزینهها انتخاب کند. این موضوع نشان میدهد که خلاقیت واقعی و هوشمندانه در حل مسائل ریاضی همچنان از توان این مدلها خارج است.
منبع : زومیت