zoomit

آیا ایلان ماسک در مورد توانایی‌های هوش مصنوعی گراک ۳ دروغ گفته است؟

آیا ایلان ماسک در مورد توانایی‌های هوش مصنوعی گراک ۳ دروغ گفته است؟

یکی از کارکنان OpenAI، شرکت xAI متعلق‌ به ایلان ماسک را به انتشار نتایج گمراه‌کننده درباره‌ی هوش مصنوعی Grok 3، متهم کرد؛ اما ایگور بابوشکین، یکی از بنیان‌گذاران xAI، تأکید دارد که این شرکت درست عمل کرده است.

xAI در وبلاگ خود نموداری منتشر کرد که عملکرد گراک ۳ را در آزمون AIME 2025 نشان می‌دهد؛ مجموعه‌ای از پرسش‌های ریاضی دشوار که از یک مسابقه‌ی ریاضی گردآوری شده‌اند. برخی کارشناسان درباره‌ی اعتبار AIME به‌عنوان معیاری برای سنجش هوش مصنوعی تردید دارند. بااین‌حال، AIME 2025 و نسخه‌های پیشین این آزمون معمولاً برای ارزیابی توانایی مدل‌ها در حل مسائل ریاضی استفاده می‌شوند.

در نمودار xAI، دو نسخه از گراک ۳، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، عملکرد بهتری نسبت‌ به بهترین مدل فعلی OpenAI با نام o3-mini-high در آزمون AIME 2025 داشتند. بااین‌حال، کارکنان OpenAI در شبکه‌ی اجتماعی X اشاره کردند که نمودار xAI امتیاز مدل o3-mini-high را در حالت cons@64 برای آزمون AIME 2025 درج نکرده است.

cons@64 مخفف عبارت consensus@64 است که به مدل اجازه می‌دهد هر مسئله در آزمون را ۶۴ بار حل کند و پاسخی را که بیشترین تکرار را داشته باشد، به‌عنوان پاسخ نهایی انتخاب می‌کند. cons@64 معمولاً امتیاز مدل‌ها را در آزمون‌ها به میزان قابل‌ توجهی افزایش می‌دهد و حذف آن از نمودار می‌تواند باعث شود عملکرد یک مدل بهتر از دیگری به نظر برسد، درحالی‌که در واقعیت چنین نیست.

امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در آزمون AIME 2025 با معیار 1@ (اولین پاسخی که مدل‌ها ارائه داده‌اند) پایین‌تر از امتیاز مدل o3-mini-high است.

همچنین، Grok 3 Reasoning Beta با اختلافی جزئی پشت سر مدل o1 شرکت OpenAI قرار می‌گیرد که در حالت پردازشی medium تنظیم شده است. xAI همچنان Grok 3 را به‌عنوان «باهوش‌ترین هوش مصنوعی جهان» معرفی می‌کند.

مقاله‌های مرتبط

بابوشکین استدلال می‌کند که OpenAI نیز پیش‌تر نمودارهایی با نتایج گمراه‌کننده منتشر کرده بود؛ البته آن نمودارها صرفاً عملکرد مدل‌های خود اوپن‌ای‌آی را مقایسه می‌کردند.

منبع : زومیت

مشاهده بیشتر
دانلود نرم افزار

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا