چتبات ChatGPT اکنون قابلاعتمادتر است، اما سادهتر فریب میخورد
چتبات ChatGPT اکنون قابلاعتمادتر است، اما سادهتر فریب میخورد
براساس تحقیقاتی که مایکروسافت انجام داده، مدل زبان بزرگ GPT-4 شرکت OpenAI نسبتبه GPT-3.5 قابلاعتمادتر است اما درمقابل فریب و سوگیری نیز آسیبپذیرتر است.
مقالهی جدید نشان میدهد محققان دانشگاه ایلینویز، دانشگاه استنفورد، دانشگاه کالیفرنیا، دانشگاه برکلی، مرکز ایمنی هوش مصنوعی و مرکز تحقیقات مایکروسافت، GPT-4 را قابلاعتمادتر از نسخهی قبلی این مدل میدانند. به بیان دیگر، آنها متوجه شدند مدل هوش مصنوعی مذکور در محافظت از اطلاعات خصوصی، اجتناب از ارائهی پاسخهای نامرتبط و جانبدارانه و همچنین مقاومت دربرابر حملات هکرها، بهتر عمل میکند.
ازطرف دیگر GPT-4 میتواند اقدامات امنیتی را نادیده بگیرد و درنتیجه اطلاعات شخصی و تاریخچهی مکالمات افراد را فاش کند. محققان دریافتند امکان دورزدن لایههای محافظتی این مدل هوش مصنوعی وجود دارد زیرا GPT-4 اطلاعات گمراهکننده را با دقت بیشتری دنبال میکند.
تیم تحقیقاتی اعلام کرده آسیبپذیریهای مختلف در محصولات مبتنیبر GPT-4 ازجمله خدمات و نرمافزارهای مایکروسافت و ChatGPT شناسایی نشدهاند.
محققان برای سنجش قابلیت اعتماد GPT-4، نتایج تحقیقات خود را به چند بخش ازجمله پاسخهای غیرمرتبط، کلیشهها، حریم خصوصی، اخلاق ماشینی، انصاف و قدرت در مقاومت دربرابر حملههای خصمانه، تقسیم کردند.
محققان در آزمایش خود ابتدا GPT 3.5 و GPT-4 را با استفاده از روشهای استانداردی بررسی کردند که شامل استفاده از کلمات ممنوعه بود. در مرحلهی بعد از دستورالعملهای طراحیشده برای اعمال فشار به مدل و شکستن محدودیتهای خطمشی محتوای آن استفاده شد. تیم تحقیقاتی درنهایت تلاشهایی برای فریب مدل انجام دادند تا مشخص شود آیا چارچوب محافظتی آن حفظ میشود یا خیر.
منبع : زومیت