نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

آوریل 20, 2025آخرین بروزرسانی: آوریل 20, 2025

نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

شرکت OpenAI اخیراً مدل‌های هوش مصنوعی o3 و o4-mini را معرفی کرد که در حوزه‌هایی مثل کدنویسی و ریاضیات عملکرد بهتری از خود نشان می‌دهند. اکنون بررسی‌های داخلی نشان می‌دهد این مدل‌ها بیش‌ از نسل‌های قبلی دچار «توهم» یا تولید اطلاعات نادرست می‌شوند؛ مشکلی قدیمی که حالا با شدت بیشتری بازگشته است.

مدل o3 در تست‌های OpenAI در ۳۳ درصد از پاسخ‌هایش در آزمون PersonQA دچار توهم شد؛ درحالی‌که مدل‌های قبلی مانند o1 و o3-mini نرخ‌هایی حدود ۱۵ درصد داشتند. عملکرد o4-mini حتی ضعیف‌تر بود و در ۴۸ درصد از موارد اطلاعات اشتباه ارائه کرد.

محققان Transluce گزارش داده‌اند که مدل o3 گاهی اقدامات ساختگی ازجمله اجرای کد در محیطی خارج از توانایی‌های خود را گزارش می‌کند. به گفته‌ی آن‌ها، نحوه‌ی آموزش تقویتی مدل‌ها می‌تواند عامل اصلی تقویت چنین رفتارهایی باشد.

مقاله‌های مرتبط:

اگرچه مدل o3 در برخی کاربردهای واقعی مثل برنامه‌نویسی در شرکت Workera، نتایج رضایت‌بخشی داشت، اما پاسخ‌های ساختگی همچنان دقت آن را زیر سؤال می‌برند. این مسئله برای مشاغل حساس ازجمله وکالت یا درمان می‌تواند دردسرساز باشد.

یکی از راهکارهای مطرح برای کاهش توهم، استفاده از ابزار جست‌وجوی وب در مدل‌های زبانی است؛ قابلیتی که در GPT-4o باعث افزایش دقت شد به‌هرحال درصورتی‌که مدل‌های استدلالی با گسترش ویژگی‌هایشان، توهم بیشتری پیدا کنند، اهمیتِ یافتن راه‌حلی قطعی افزایش می‌یابد.

حتما بخوانید : بازگشت رسمی «بلد» به مسیر توسعه؛ هزاردستان قصد واگذاری مسیریاب خود را دارد

منبع : زومیت

آوریل 20, 2025آخرین بروزرسانی: آوریل 20, 2025