قدرت بیشتر، دقت کمتر؟ چالش تازه مدلهای o3 و o4-mini

قدرت بیشتر، دقت کمتر؟ چالش تازه مدلهای o3 و o4-mini
OpenAI اخیراً مدلهای جدیدی از سری o3 و o4-mini را معرفی کرده که در زمینه استدلال، ریاضیات و کدنویسی عملکرد قابل توجهی دارند. با این حال، آزمایشهای داخلی نشان میدهد که این مدلها نسبت به نسخههای قبلی بیشتر دچار «توهم» میشوند؛ یعنی اطلاعات نادرست تولید میکنند.
به گزارش نیوزلن و به نقل از تککرانچ، در گذشته، هر نسل جدید از مدلهای هوش مصنوعی معمولاً بهبودهایی در کاهش توهم داشت. اما در مدلهای جدید OpenAI نهتنها این روند متوقف شده، بلکه وضعیت بدتر نیز شده است. برای مثال، مدل o3 در آزمون PersonQA، که دقت اطلاعات درباره افراد را میسنجد، در ۳۳٪ موارد پاسخ نادرست داده است؛ در حالی که مدلهای o1 و o3-mini به ترتیب ۱۶٪ و ۱۴/۸٪ توهم داشتند. مدل o4-mini حتی عملکرد بدتری داشته و در ۴۸٪ موارد دچار خطا شده است.
OpenAI اذعان کرده که علت این افزایش هنوز مشخص نیست و نیاز به تحقیقات بیشتر دارد. تئوری این است که روش یادگیری تقویتی خاص در این مدلها ممکن است مشکلاتی را تقویت کند که قبلاً با مراحل پایانی آموزش تا حدی کنترل میشدند.
آزمایشهای مستقل نیز این نتایج را تأیید میکنند. موسسه Transluce نشان داده که مدل o3 گاهی اقداماتی را ادعا میکند که اصلاً قادر به انجام آنها نیست، مانند اجرای کد روی لپتاپ فیزیکی. همچنین، مدل در برخی موارد لینکهایی ارائه میدهد که وجود خارجی ندارند.
اگرچه برخی ویژگیهای این مدلها برای شرکتها جذاب است، اما میزان بالای توهم، استفاده آنها را در حوزههایی که به دقت بالا نیاز دارند — مانند حقوق یا سلامت — با مشکل روبهرو میکند. یکی از راهحلهای پیشنهادی، افزودن توانایی جستوجو در وب است که میتواند به کاهش توهم کمک کند.
با تمرکز روزافزون صنعت هوش مصنوعی بر مدلهای استدلالی، حل مشکل توهم به یک اولویت اساسی تبدیل شده است.