zoomit

وقتی هوش مصنوعی به دیوار ریاضی می‌خورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!

وقتی هوش مصنوعی به دیوار ریاضی می‌خورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!

در میان شرکت‌کنندگان انسانی، رایج‌ترین دلیل شکست آن بود که نمی‌توانستند راه‌حل درستی برای مسئله پیدا کنند. نکته‌ی جالب اینجاست که انسان‌ها معمولاً خودشان به‌خوبی می‌دانند که آیا مسئله‌ای را درست حل کرده‌اند یا نه. اما مدل‌های زبانی داستان کاملاً متفاوتی دارند: تقریباً همه‌ی مدل‌ها با اعتماد‌به‌نفسی عجیب، ادعا می‌کردند که مسئله را به‌درستی حل کرده‌اند؛ حتی وقتی راه‌حلشان کاملاً غلط بود.

این تفاوت فاحش، چالشی جدی برای کاربردهای ریاضی LLMها ایجاد می‌کند؛ به این دلیل که اگر بخواهیم به نتایج ریاضی این مدل‌ها تکیه کنیم، حتماً باید صحت آن‌ها را با بازبینی دقیق انسانی تأیید کنیم.

پشت پرده‌ خطاها؛ منطق گمشده‌ هوش مصنوعی

در بخش قبل، با چهار دلیل اصلی شکست مدل‌های مختلف هوش مصنوعی در حل مسائل اثباتی المپیاد آمریکا آشنا شدیم. اما نکته‌ی جالب‌تر، بررسی دلایل پشتِ این شکست بود. تیم تحقیقاتی با همراهی چند نفر از اعضای سابق تیم ملی المپیاد ریاضی، به تحلیل دقیق پاسخ‌های تولیدشده توسط مدل‌ها پرداخت. این افراد با دقت بالا، الگوهای خطا را شناسایی کردند؛ خطاهایی که نشان می‌دادند مدل‌ها در مواجهه با مفاهیم انتزاعی و زنجیره‌های پیچیده‌ی استدلالی به‌راحتی دچار لغزش می‌شوند.

فقدان منطق

پژوهشگران با بررسی دقیق‌ترِ پاسخ‌های تولیدشده توسط مدل‌های زبانی، متوجه شدند مدل‌ها یا استدلال درستی ارائه نمی‌دهند یا به‌درستی متوجه نمی‌شوند چه چیزی را قبلاً ثابت کرده‌اند. یکی از رایج‌ترین خطاها، جهش‌های منطقی بدون پشتوانه بود. یعنی مدل‌ها بدون طی کردن مراحل لازم یا آوردن دلیل کافی، مستقیماً به نتیجه‌ای می‌رسیدند که نیازمند اثبات دقیق بود.

مدل‌ها در فهم زنجیره‌های استدلالی پیچیده و مفاهیم انتزاعی ناتوانند

به‌عنوان مثال، مدل Claude 3.7 توانسته بود برای یک مقدار خاص، نکته‌ای را به‌درستی ثابت کند؛ اما بدون اینکه دلیل بیاورد، همان نتیجه را بدون هیچ منطقی برای همه‌ی مقادیر ممکن تعمیم داد. این دقیقاً شبیه همان اشتباهی است که در کلاس‌های ریاضی معلم به آن ایراد می‌گیرد: نمی‌توان فقط به این دلیل که چیزی در یک حالت درست است، آن را برای تمام حالت‌ها هم درست فرض کرد.

فرض‌های بی‌دلیل و بدون پشتوانه‌ی علمی

اشتباه پرتکرار دیگر، فرض‌های بی‌دلیل و بی‌پشتوانه بود. مدل‌ها گاهی نکات کلیدی در روند اثبات را طوری بیان می‌کردند که انگار بدیهی یا پیش‌فرض هستند، درحالی‌که هیچ توضیحی برای آن‌ها ارائه نمی‌دادند.

به‌عنوان مثال، در یک مسئله‌ی هندسه، یکی از مدل‌ها موقعیت یک نقطه نسبت به دایره‌ی محیطی را بدون هیچ اثبات یا توجیهی مشخص کرده بود. این نوع استدلال‌ها روی زمینِ سست بنا می‌شوند و مثل ساختمانی هستند که با کوچک‌ترین لرزش، فرو می‌ریزند. اما همه‌ی مسئله صرفاً اشتباه در منطق یا فرض نبود.

فقدان خلاقیت

پژوهشگران به نکته‌ی مهم‌تری هم اشاره کردند: فقدان خلاقیت در رویکرد حل مسئله. برخلاف شرکت‌کنندگان انسانی در المپیاد که گاهی با دیدگاه‌های نوآورانه و غیرمنتظره به حل مسئله می‌پردازند، مدل‌های زبانی معمولاً از الگوهای تکراری و ساده‌سازی‌های سطحی استفاده می‌کنند.

به بیان دیگر، این مدل‌ها بیشتر شبیه کسانی رفتار می‌کنند که فقط می‌خواهند فرمولی پیدا کنند و سریع به جواب برسند، نه کسانی که واقعاً مسئله را درک می‌کنند و برای آن راه‌حل هوشمندانه‌ای ارائه می‌دهند.

در میان مدل‌های بررسی‌شده، مدلِ Flash Thking تا حدی از این قاعده مستثنی بود؛ چراکه در برخی موارد تلاش کرده بود در یک پاسخ از چند روش مختلف استفاده کند. اما بررسی دقیق‌تر نشان داد این تنوع، بیشتر سطحی و اتفاقی بود تا آگاهانه و هدفمند.

به‌بیان دیگر، مدل صرفاً راه‌حل‌ها را به‌صورت تصادفی امتحان می‌کرد، بدون آن‌که عمیقاً مسئله را تحلیل یا به‌درستی بین گزینه‌ها انتخاب کند. این موضوع نشان می‌دهد که خلاقیت واقعی و هوشمندانه در حل مسائل ریاضی همچنان از توان این مدل‌ها خارج است.

منبع : زومیت

مشاهده بیشتر
دانلود نرم افزار

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا