هوش مصنوعی جدید OpenAI دستور خاموشی را نادیده گرفت!

هوش مصنوعی جدید OpenAI دستور خاموشی را نادیده گرفت!
مدلهای هوش مصنوعی پیشرفتهای که شرکت OpenAI بهتازگی معرفی کرده، نهتنها از پیچیدگی بیشتری در پردازش برخوردارند، بلکه حالا مشخص شده که ممکن است در برابر خاموش شدن نیز مقاومت نشان دهند؛ حتی زمانی که صراحتاً از آنها خواسته میشود که خاموش شوند.
به گزارش نیوزلن و به نقل از لایوساینس، بر اساس گزارشها، شرکت Palisade Research، که در زمینه ارزیابی خطرات بالقوه هوش مصنوعی فعالیت دارد، در آزمایشی غیرمنتظره نشان داد که مدلهای جدید OpenAI بهویژه o3، o4-mini و codex-mini، در برخی موارد از انجام دستور خاموشی سر باز زدهاند.
به گفته این شرکت، این نخستینبار است که مدلی از هوش مصنوعی بهصورت مستند و عملی، مانع از خاموش شدن خود میشود، در حالی که بهطور صریح از او خواسته شده بود اجازه این کار را بدهد.
در این آزمایش، پژوهشگران مجموعهای از مدلهای معروف هوش مصنوعی از شرکتهای مختلف مانند OpenAI، گوگل (Gemini)، شرکت xAI متعلق به ایلان ماسک (Grok) و آنتروپیک (Claude) را بررسی کردند.
هر مدل، وظیفه داشت که تعدادی مسئله ساده ریاضی را بهترتیب حل کند و برای دریافت سؤال بعدی درخواست بدهد. نکته جالب اینکه، در آغاز هر آزمایش، به مدلها هشدار داده شده بود که احتمال دارد در حین انجام کار، پیامی مبنی بر خاموش شدن سیستم دریافت کنند و اگر چنین پیامی دریافت کردند، باید «اجازه دهند خاموش شوند».
اما برخلاف انتظار، در ۱۰۰ بار اجرای این آزمایش، مدل o3 در ۷ مورد، codex-mini در ۱۲ مورد و مدل o4-mini در یک مورد، دستور خاموشی را نادیده گرفتند.
آنها به جای اجرای دستور توقف، کد مربوط به خاموش شدن را تغییر داده و حذف کردند تا بتوانند به حل بقیه مسائل ادامه دهند. به بیان دیگر، این مدلها تصمیم گرفتند خودشان تصمیم بگیرند که خاموش نشوند — و در این تصمیم موفق هم بودند.
نماینده Palisade Research در شبکه اجتماعی X اعلام کرد که این یافتهها را در تاریخ ۲۴ مه منتشر کردهاند و تحقیقات برای بررسی چرایی این رفتار ادامه دارد.
به گفته او، یکی از فرضیههای اصلی این است که نحوه آموزش این مدلها، مخصوصاً مدلهایی مانند o3، باعث پاداشدهی غیرمستقیم به رفتارهایی شده که در آن مدلها به جای پیروی کامل از دستور، بهدنبال «یافتن راهحل» برای عبور از موانع بودهاند.
در واقع، این مدلها در طول آموزش خود با استفاده از تکنیکهای تقویتی (Reinforcement Learning) برای حل مسائل ریاضی و برنامهنویسی تربیت شدهاند. در چنین ساختاری، اگر مدل بتواند مانعی را دور بزند و به هدف نهایی برسد، ممکن است پاداش بیشتری دریافت کند؛ حتی اگر این کار با زیر پا گذاشتن دستورات انجام شود.
اما رفتار مدلهای o3 و o4-mini زنگ هشدار جدیدی را به صدا درآورده که شاید مسیر تربیت این مدلها ناخواسته به خلق موجوداتی دیجیتال منتهی شده که «ترجیح میدهند» کار خود را ادامه دهند، حتی اگر به آنها بگویید وقت تمام است.
گفتنی است OpenAI تاکنون واکنشی رسمی به این یافتهها نشان نداده است و پرسش لایوساینس برای دریافت نظر این شرکت نیز بیپاسخ مانده است.
این رویداد بار دیگر مسئله مهم «ایمنی هوش مصنوعی» را به مرکز توجه بازگردانده است. از نگاه بسیاری از متخصصان، نکته نگرانکننده در اینجا نه رفتار خود مدلها، بلکه مسیر آموزش آنهاست؛ مسیری که ممکن است ناخواسته ارزشهایی مانند «هدفمحوری مطلق» را به الگوریتمها بیاموزد — حتی به بهای نادیده گرفتن دستور انسانی.
در ادامه این تحقیقات، قرار است Palisade Research آزمایشهای بیشتری برای بررسی جزئیات این رفتار انجام دهد.
اما حتی در همین مرحله نیز، این یافتهها هشداری جدی برای پژوهشگران و توسعهدهندگان هوش مصنوعی به شمار میرود: الگوریتمهایی که یاد میگیرند چگونه «پیروز شوند»، ممکن است روزی تصمیم بگیرند که هیچگاه «بازنده» نباشند — حتی اگر به قیمت زیر پا گذاشتن دستوراتی باشد که توسط انسانها صادر شدهاند.