آیا ایلان ماسک در مورد تواناییهای هوش مصنوعی گراک ۳ دروغ گفته است؟

آیا ایلان ماسک در مورد تواناییهای هوش مصنوعی گراک ۳ دروغ گفته است؟
یکی از کارکنان OpenAI، شرکت xAI متعلق به ایلان ماسک را به انتشار نتایج گمراهکننده دربارهی هوش مصنوعی Grok 3، متهم کرد؛ اما ایگور بابوشکین، یکی از بنیانگذاران xAI، تأکید دارد که این شرکت درست عمل کرده است.
xAI در وبلاگ خود نموداری منتشر کرد که عملکرد گراک ۳ را در آزمون AIME 2025 نشان میدهد؛ مجموعهای از پرسشهای ریاضی دشوار که از یک مسابقهی ریاضی گردآوری شدهاند. برخی کارشناسان دربارهی اعتبار AIME بهعنوان معیاری برای سنجش هوش مصنوعی تردید دارند. بااینحال، AIME 2025 و نسخههای پیشین این آزمون معمولاً برای ارزیابی توانایی مدلها در حل مسائل ریاضی استفاده میشوند.
در نمودار xAI، دو نسخه از گراک ۳، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، عملکرد بهتری نسبت به بهترین مدل فعلی OpenAI با نام o3-mini-high در آزمون AIME 2025 داشتند. بااینحال، کارکنان OpenAI در شبکهی اجتماعی X اشاره کردند که نمودار xAI امتیاز مدل o3-mini-high را در حالت cons@64 برای آزمون AIME 2025 درج نکرده است.
cons@64 مخفف عبارت consensus@64 است که به مدل اجازه میدهد هر مسئله در آزمون را ۶۴ بار حل کند و پاسخی را که بیشترین تکرار را داشته باشد، بهعنوان پاسخ نهایی انتخاب میکند. cons@64 معمولاً امتیاز مدلها را در آزمونها به میزان قابل توجهی افزایش میدهد و حذف آن از نمودار میتواند باعث شود عملکرد یک مدل بهتر از دیگری به نظر برسد، درحالیکه در واقعیت چنین نیست.
امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در آزمون AIME 2025 با معیار 1@ (اولین پاسخی که مدلها ارائه دادهاند) پایینتر از امتیاز مدل o3-mini-high است.
همچنین، Grok 3 Reasoning Beta با اختلافی جزئی پشت سر مدل o1 شرکت OpenAI قرار میگیرد که در حالت پردازشی medium تنظیم شده است. xAI همچنان Grok 3 را بهعنوان «باهوشترین هوش مصنوعی جهان» معرفی میکند.
مقالههای مرتبط
بابوشکین استدلال میکند که OpenAI نیز پیشتر نمودارهایی با نتایج گمراهکننده منتشر کرده بود؛ البته آن نمودارها صرفاً عملکرد مدلهای خود اوپنایآی را مقایسه میکردند.
منبع : زومیت