رونمایی Anthropic از Opus ۴.۵ با ادغامهای جدید Chrome و Excel

رونمایی Anthropic از Opus ۴.۵ با ادغامهای جدید Chrome و Excel
شرکت Anthropic روز دوشنبه از نسخه جدید مدل پرچمدار خود، Opus ۴.۵، رونمایی کرد. این نسخه جدید بخشی از سری ۴.۵ آنتروپیک است و پس از انتشار مدلهای Sonnet ۴.۵ در سپتامبر و Haiku ۴.۵ در اکتبر، عرضه میشود.
به گزارش نیوزلن و به نقل از Techcrunch، نسخه Opus ۴.۵ در معیارهای متعددی عملکرد برجستهای از خود نشان داده است؛ از جمله معیارهای کدنویسی SWE-Bench و Terminal-bench، ابزارهای کمکی tau2-bench و MCP Atlas، و حل مسائل عمومی مانند ARC-AGI ۲ و GPQA Diamond. نکته قابل توجه این است که Opus ۴.۵ اولین مدلی است که در SWE-Bench توانسته امتیاز بالای ۸۰ درصد را کسب کند، آماری که نشاندهنده پیشرفت قابل توجه این مدل در حوزه کدنویسی است.
شرکت Anthropic همچنین قابلیتهای محاسباتی و صفحهگستردهای Opus را برجسته کرده و مجموعهای از محصولات جانبی را برای نمایش تواناییهای مدل در این محیطها معرفی کرده است. از جمله این محصولات، Claude for Chrome و Claude for Excel هستند که پیشتر به صورت آزمایشی در دسترس قرار داشتند و اکنون به طور گسترده برای کاربران ارائه میشوند. افزونه Chrome برای همه کاربران Max در دسترس است، در حالی که مدل مبتنی بر Excel برای کاربران Max، Team و Enterprise قابل استفاده خواهد بود.
Opus ۴.۵ همچنین با بهبودهای چشمگیر در حافظه برای عملیاتهای طولانی (long-context) همراه است، که نیازمند تغییرات اساسی در مدیریت حافظه توسط مدل بوده است. دایان نا پن، رئیس مدیریت محصول در تحقیقات Anthropic گفت: «در آموزش با Opus ۴.۵، کیفیت متنهای طولانی بهبود یافته است، اما صرف داشتن پنجرههای متنی طولانی کافی نیست. دانستن جزئیات صحیح برای به خاطر سپردن، همراه با حافظه مناسب، اهمیت دارد.»
این ارتقاءها همچنین قابلیت «چت بیپایان» (endless chat) را برای کاربران پولی Claude فعال کرده است. این ویژگی اجازه میدهد تا چتها حتی پس از پر شدن پنجره متن مدل، بدون وقفه ادامه پیدا کنند و مدل بهطور خودکار حافظه متن را فشرده میکند، بدون آنکه نیازی به اطلاع کاربر باشد.
بسیاری از بهبودها با تمرکز بر موارد استفاده عاملمحور انجام شدهاند، به ویژه در سناریوهایی که Opus به عنوان عامل اصلی، گروهی از عاملهای فرعی مبتنی بر Haiku را مدیریت میکند. این نوع کاربردها نیازمند تسلط بالای مدل بر حافظه کاری هستند، جایی که بهبودهای حافظهای به وضوح ارزش خود را نشان میدهند.
پن توضیح میدهد: «اینجاست که اصول پایه مانند حافظه اهمیت پیدا میکنند، زیرا Claude باید قادر باشد پایگاههای کد و اسناد بزرگ را بررسی کند و بداند چه زمانی لازم است به عقب برگردد و اطلاعاتی را دوباره مرور کند.»
Opus ۴.۵ با رقابت جدی از سوی دیگر مدلهای frontier روبرو خواهد شد، بهویژه GPT ۵.۱ شرکت OpenAI (منتشر شده در ۱۲ نوامبر) و Gemini ۳ گوگل (منتشر شده در ۱۸ نوامبر).



