نتایج یک تحقیق: عملکرد مدلهای هوش مصنوعی متا بهتر از واقعیت جلوه داده شده است

نتایج یک تحقیق: عملکرد مدلهای هوش مصنوعی متا بهتر از واقعیت جلوه داده شده است
یکی از مدلهای هوش مصنوعی جدید متا بهنام Maverick در آزمون LM Arena رتبهی دوم را کسب کرد. این آزمون از سوی ارزیابان انسانی انجام شده است که خروجی مدلها را مقایسه و نتایج خود را اعلام میکنند.
اکنون به نظر میرسد نسخهای از Maverick که متا در LM Arena به کار گرفته، با نسخهای که برای توسعهدهندگان ارائه شده، متفاوت است.
چندین محقق هوش مصنوعی در شبکهی اجتماعی ایکس اشاره کردند که متا در بیانیهاش گفته نسخهای که در LM Arena استفاده شده، نسخهای آزمایشی مخصوص مکالمه است.
نموداری در وبسایت رسمی Llama نشان میدهد که آزمایشهای LM Arena با استفاده از نسخهی Llama 4 Maverick و «بهینهسازیشده برای مکالمه» انجام شده است.
مقالههای مرتبط
اگر مدلی برای یک آزمون خاص تنظیم شود و نسخهی معمولیاش در اختیار کاربران قرار بگیرد، توسعهدهندگان نمیتوانند دقیقاً عملکرد مدل را در زمینههای مختلف پیشبینی کنند؛ موضوعی که میتواند گمراهکننده باشد. آزمونهای ارزیابی، هرچند ناکافی، باید تصویری کلی از نقاط قوت و ضعف مدل را در طیف وسیعی از وظایف ارائه دهند.
متا هنوز به یافتهی جدید محققان واکنشی نشان نداده است.
منبع : زومیت