نتیجه یک تحقیق: مدلهای جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم میشوند

نتیجه یک تحقیق: مدلهای جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم میشوند
شرکت OpenAI اخیراً مدلهای هوش مصنوعی o3 و o4-mini را معرفی کرد که در حوزههایی مثل کدنویسی و ریاضیات عملکرد بهتری از خود نشان میدهند. اکنون بررسیهای داخلی نشان میدهد این مدلها بیش از نسلهای قبلی دچار «توهم» یا تولید اطلاعات نادرست میشوند؛ مشکلی قدیمی که حالا با شدت بیشتری بازگشته است.
مدل o3 در تستهای OpenAI در ۳۳ درصد از پاسخهایش در آزمون PersonQA دچار توهم شد؛ درحالیکه مدلهای قبلی مانند o1 و o3-mini نرخهایی حدود ۱۵ درصد داشتند. عملکرد o4-mini حتی ضعیفتر بود و در ۴۸ درصد از موارد اطلاعات اشتباه ارائه کرد.
محققان Transluce گزارش دادهاند که مدل o3 گاهی اقدامات ساختگی ازجمله اجرای کد در محیطی خارج از تواناییهای خود را گزارش میکند. به گفتهی آنها، نحوهی آموزش تقویتی مدلها میتواند عامل اصلی تقویت چنین رفتارهایی باشد.
مقالههای مرتبط:
اگرچه مدل o3 در برخی کاربردهای واقعی مثل برنامهنویسی در شرکت Workera، نتایج رضایتبخشی داشت، اما پاسخهای ساختگی همچنان دقت آن را زیر سؤال میبرند. این مسئله برای مشاغل حساس ازجمله وکالت یا درمان میتواند دردسرساز باشد.
یکی از راهکارهای مطرح برای کاهش توهم، استفاده از ابزار جستوجوی وب در مدلهای زبانی است؛ قابلیتی که در GPT-4o باعث افزایش دقت شد بههرحال درصورتیکه مدلهای استدلالی با گسترش ویژگیهایشان، توهم بیشتری پیدا کنند، اهمیتِ یافتن راهحلی قطعی افزایش مییابد.
منبع : زومیت