ابزار جدید Anthropic برای سنجش بیطرفی AI

ابزار جدید Anthropic برای سنجش بیطرفی AI
شرکت Anthropic ابزاری متن-باز برای ارزیابی میزان تعصب سیاسی چتباتها منتشر کرده است. این روش با مقایسه پاسخها به پرسشهای زوجی با گرایشهای چپ و راست، میزان سوگیری مدلها را میسنجد و بهعنوان گامی در جهت افزایش شفافیت معرفی شده است.
به گزارش نیوزلن از اکسیوس، شرکت Anthropic روز پنجشنبه اعلام کرد که ابزار جدید را در GitHub بهصورت متن-باز منتشر کرده تا پژوهشگران و توسعهدهندگان صنعت بتوانند آن را بهکار گیرند و نتایج را مقایسه کنند.
این ابزار پرسشهای متقارن با دیدگاههای سیاسی متفاوت را مطرح میکند و تغییرات در لحن یا نتیجهگیری مدل را بهعنوان شاخص سوگیری گزارش میدهد.
بر اساس نتایج اولیه که این شرکت منتشر کرده، چتبات این شرکت، Claude، در این آزمون مزبور نسبتی بهتر از مدلهای OpenAI یعنی ChatGPT نشان داده است، اما اندکی از رقبا مانند Grok (متعلق به تیمهای ایلان ماسک) و Gemini (توسعهیافته توسط گوگل) عقبتر بوده است.
Anthropic هدف از انتشار این ابزار را افزایش شفافیت و تسهیل استانداردسازی در سنجش سوگیری هوش مصنوعی اعلام کرده است.
این اقدام در بستر بحثهای گستردهتری انجام میشود که در آن ناظران دولتی و سازمانی درباره تأثیر بالقوه سوگیری سیاسی در سیستمهای هوش مصنوعی هشدار دادهاند. نمونههایی از اقدامات نظارتی شامل الزام به گزارش شفافیت و معیارهای خنثیسازی است که در برخی کشورها و قراردادهای دولتی مورد توجه قرار گرفتهاند.
با وجود این گام رو به جلو، پژوهشگران همچنان هشدار میدهند که هنوز تعریف واحدی از «سوگیری سیاسی» وجود ندارد و ابزارهای اندازهگیری باید از منظر روششناختی تقویت شوند. نکتهٔ کلیدی این است که مقیاسپذیری، مجموعه دادههای نماینده و طراحی پرسشها میتوانند نتایج را تحت تأثیر قرار دهند؛ بنابراین نتایج اولیه را باید با احتیاط تفسیر کرد.
Anthropic از جامعه پژوهشی خواسته است که ابزار را امتحان و بازخورد فراهم کند تا معیارهای سنجش سوگیری به یک استاندارد صنعتی نزدیک شود.
انتشار متن-باز این ابزار میتواند به ایجاد آزمونهای مستقل، بررسیهای میانمدلی و افزایش پاسخگویی شرکتها کمک کند.
در بیانیهای، آنتروپیک تأکید کرده که بررسی و کاهش سوگیری تنها با ابزار فنی کافی نیست و نیازمند همکاری میانصنعتی، سیاستگذاری و نظارت مستقل است تا معیارهای قابلاعتماد برای ارزیابی بیطرفی پدید آید.



