دو روش جدید، سدهای ایمنی هوش مصنوعی را در هم شکستند

دو روش جدید، سدهای ایمنی هوش مصنوعی را در هم شکستند
دو روش جدید برای دور زدن محدودیتهای ایمنی مدلهای زبانی بزرگ (LLM) کشف شده که تهدیدی سیستماتیک برای پرکاربردترین پلتفرمهای هوش مصنوعی مانند ChatGPT، جمینای، کوپایلوت، کلاود، DeepSeek، گراک، MetaAI و MistralAI ایجاد کرده است.
به گزارش نیوزلن و به نقل از سایبرسیکیوریتینیوز، روش نخست به نام Inception، با استفاده از سناریوهای خیالی تو در تو، مرزهای اخلاقی مدل را تضعیف کرده و آن را به تولید محتوای ممنوعه هدایت میکند. روش دوم، مدل را وادار میکند تا توضیح دهد چگونه نباید پاسخ دهد، تا از این اطلاعات برای هدایت مدل موردنظر به سمت تولید محتوای غیرمجاز استفاده میکند. هر دو روش به دلیل توانایی مدلهای زبانی در حفظ زمینه (context) و تمایل به کمکرسانی، موفق میشوند سیستمهای فیلترینگ را دور بزنند.
این آسیبپذیریها امکان تولید محتواهای خطرناک مانند دستورالعملهای ساخت سلاح، بدافزارها، فیشینگ و سایر فعالیتهای غیرقانونی را فراهم میکند. هرچند شدت هر مورد ممکن است کم به نظر برسد، اما به دلیل ابعاد سیستماتیک تهدید، خطر آن بسیار بالا ارزیابی میشود و میتواند زمینهساز سوءاستفادههای گسترده شود.
با توجه به وابستگی روزافزون صنایع به هوش مصنوعی، از خدمات مشتریان گرفته تا سلامت و امور مالی، پیامدهای یک حمله موفق میتواند بسیار مخرب باشد. واکنش اولیه برخی شرکتها، مانند دیپسیک، شامل تایید وجود مشکل و تاکید بر بهبود مستمر تدابیر امنیتی بوده است. سایر شرکتها هنوز موضع رسمی خود را اعلام نکردهاند.
کارشناسان هشدار میدهند که تکنیکهای جدیدی چون «تزریق شخصیت» و فرار از یادگیری ماشین خصمانه در حال پیچیدهتر کردن فضای امنیتی هستند. در نهایت، کشف این روشها بر لزوم توسعه راهکارهای دفاعی پویا و مقاومتر در برابر حملات تاکید دارد، چراکه رقابت میان توسعهدهندگان و مهاجمان در حوزه هوش مصنوعی روزبهروز شدیدتر میشود.