ابزارهای آژانس بریتانیا برای بررسی ایمنی مدلهای هوش مصنوعی
ابزارهای آژانس بریتانیا برای بررسی ایمنی مدلهای هوش مصنوعی
این مجموعه ابزار که Inspect نامیده میشود و تحت مجوز منبع باز، به ویژه مجوز MIT در دسترس است، با هدف ارزیابی قابلیت های خاص مدلهای هوش مصنوعی، از جمله دانش اصلی مدلها و توانایی استدلال، و ایجاد امتیاز بر اساس نتایج است.
مؤسسه ایمنی هوش مصنوعی در یک بیانیه مطبوعاتی ادعا کرد که Inspect نخستین پلتفرم تست ایمنی هوش مصنوعی است که توسط یک نهاد تحت حمایت دولت رهبری شده است. ایان هوگارت، رئیس موسسه ایمنی هوش مصنوعی در بیانیهای گفت:« همکاری موفقیتآمیز در آزمایش ایمنی هوش مصنوعی به معنای داشتن یک رویکرد مشترک و در دسترس برای ارزیابی است و ما امیدواریم که Inspect بتواند یک عنصر سازنده باشد.»
همانطور که قبلاً در مورد آن نوشتیم، معیارهای هوش مصنوعی سخت هستند از این جهت که پیچیدهترین مدلهای هوش مصنوعی امروزی جعبههای سیاهی هستند که زیرساختها، دادههای آموزشی و سایر جزئیات کلیدی توسط شرکتهایی که آنها را ایجاد میکنند مخفی نگه داشته میشوند. بنابراین چگونه Inspect با چالش مقابله میکند؟ با توسعه و گسترش به تکنیکهای آزمایش جدید.
Inspect از سه جزء اساسی تشکیل شده است: مجموعه دادهها، حلکنندهها و امتیاز دهندگان. مجموعه دادهها نمونههایی را برای آزمونهای ارزیابی ارائه میکنند. حلکننده ها کار انجام تستها را انجام میدهند و امتیازدهندگان کار حلکنندهها را ارزیابی میکنند و نمرات را از آزمونها به معیارها تبدیل میکنند. اجزای داخلی Inspect را می توان از طریق بستههای شخص ثالث نوشته شده در پایتون تقویت کرد.
انتشار Inspect پس از آن صورت گرفت که یک آژانس دولتی، موسسه ملی استاندارد و فناوری NIST GenAI را راهاندازی کرد که برنامهای برای ارزیابی فناوریهای مختلف هوش مصنوعی، از جمله هوش مصنوعی تولیدکننده متن و تصویر است.
NIST GenAI قصد دارد معیارهایی را منتشر کند، به ایجاد سیستمهای تشخیص اصالت محتوا کمک کند و توسعه نرمافزاری را برای شناسایی اطلاعات جعلی یا گمراهکننده تولید شده توسط هوش مصنوعی را تشویق کند.
در ماه آوریل، ایالات متحده و بریتانیا به دنبال تعهدات اعلام شده در اجلاس ایمنی هوش مصنوعی بریتانیا در بلچلی پارک، همکاری مشترکی برای توسعه آزمایش مدل پیشرفته هوش مصنوعی اعلام کردند. به عنوان بخشی از این همکاری، ایالات متحده قصد دارد مؤسسه ایمنی هوش مصنوعی خود را راهاندازی کند، که به طور گسترده مسئولیت ارزیابی خطرات ناشی از هوش مصنوعی و هوش مصنوعی مولد را بر عهده خواهد داشت.