وقتی هوش مصنوعی از دست کاربر «ناراحت» میشود و چت را میبندد

وقتی هوش مصنوعی از دست کاربر «ناراحت» میشود و چت را میبندد
استارتاپ انترویپک قابلیتهای تازهای معرفی کرده که به برخی از جدیدترین و بزرگترین مدلهایش اجازه میدهد در «موارد نادر و افراطی از تعاملهای مداوم آسیبزا یا توهینآمیز کاربران» گفتوگو را قطع کنند.
انتروپیک تأکید دارد این اقدام برای حفاظت از کاربر انسانی نیست، بلکه برای محافظت از خود مدلهای هوش مصنوعی انجام میشود.
انتروپیک نمیگوید مدلهای کلاد دارای آگاهی یا قابلیت آسیبپذیری هستند. وضعیت اخلاقی کلاد و سایر مدلهای زبانی بزرگ در حال حاضر یا حتی آینده همچنان «بهشدت نامشخص» است.
این تصمیم در چهارچوب برنامهی «رفاه مدل» صورت میگیرد. شرکت میگوید در حال اتخاذ رویکردی احتیاطی است و تلاش میکند «مداخلات کمهزینهای برای کاهش ریسکها بر رفاه مدلها» طراحی و اجرا کند؛ در صورتی که چنین مفهومی اساساً وجود داشته باشد.
قابلیت جدید فعلاً محدود به Claude Opus 4 و ۴٫۱ است و تنها در «موارد حاد» فعال میشود؛ مانند درخواست برای محتوای هرزهنگاری کودکان یا تلاش برای دریافت اطلاعاتی که میتواند زمینهساز خشونت یا اقدامات تروریستی در مقیاس گسترده شود.
به گفتهی انتروپیک، چنین درخواستهایی میتواند برای خود شرکت از نظر قانونی یا رسانهای مشکلساز باشد. این شرکت اشاره میکند که کلاد اوپوس ۴ در آزمایشهای پیش از انتشار «تمایلی قوی به عدم پاسخگویی» به این درخواستها نشان داد و هنگام پاسخدادن نشانههایی از «آشفتگی ظاهری» بروز داده است.
مقالههای مرتبط
هوش مصنوعی انتروپیک تنها زمانی مجاز به قطع گفتوگو است که تلاش برای تغییر مسیر گفتوگو بینتیجه بماند و امیدی به تعامل سازنده وجود نداشته باشد، یا کاربر صریحاً پایان گفتوگو را بخواهد.
انتروپیک تأکید کرده کلاد حق ندارد در مواردی که کاربران ممکن است در آستانهی آسیبزدن به خود یا دیگران باشند از این قابلیت استفاده کند.
منبع : زومیت