الخبر:
كانت أوبن إيه آي تعتزم إطلاق GPT-5.6 على نطاق واسع. لم يحدث ذلك. بعد أن اطّلعت الحكومة الأمريكية على خطط الإطلاق وقدرات النموذج قبيل الإعلان، طلبت تقليص النطاق. يُتاح النموذج حالياً لعدد محدود من الشركاء عبر واجهة برمجة التطبيقات API ومنصة Codex، فيما تعمل الشركة على توسيع الوصول في الأسابيع المقبلة.
تفصيل:
• GPT-5.6 عائلة من ثلاثة نماذج: Sol وهو النموذج الرئيسي، وTerra للاستخدام المتوازن، وLuna الأسرع والأقل تكلفة. الأسعار تبدأ من دولار واحد لكل مليون رمز للإدخال في Luna وترتفع إلى 5 دولارات في Sol.
• أوبن إيه آي تقول إن Sol سجّل 91.9% على معيار TerminalBench 2.1 في وضع Ultra، متقدماً على Claude Mythos 5 الذي سجّل 88%. هذه أرقام الشركة ولم تخضع لتحقق مستقل.
• النموذج يُقدّم وضع Ultra الذي يوزّع المهام المعقدة على وكلاء فرعيين متوازيين، ما يرفع الأداء في مهام البرمجة الممتدة والتحليل الأمني والبحث العلمي.
• أوبن إيه آي تقول إن Sol لا يتجاوز عتبة “Cyber Critical” في إطار Preparedness الخاص بها: النموذج حدّد ثغرات وأولياتها في اختبارات Chromium وFirefox، لكنه لم يُنتج سلاسل استغلال كاملة تلقائياً في الظروف المُختبرة.
• الشركة استخدمت أكثر من 700,000 ساعة GPU معادلة على A100 لاختبار ثغرات الاختراق الشاملة، وتعمل مع مختبرين خارجيين خلال فترة المعاينة.
• الرئيس التنفيذي سام ألتمان قال إن هذا النوع من الإطلاق المقيّد قد يكون مبرراً عند بلوغ النماذج قدرات جديدة كبرى، لكنه وصفه بأنه ليس النموذج الأمثل للشركة على المدى البعيد.
• أنثروبيك أوقفت Fable 5 وMythos 5 في وقت سابق بعد توجيه أمريكي بشأن ضوابط التصدير يتعلق بالوصول الأجنبي. في الحالتين، قرّرت الحكومة من يصل إلى النماذج المتقدمة ومتى.
ماذا بعد؟
السؤال الفعلي لم يعد عن قدرات النموذج بل عمّا يعقب فترة المعاينة: ما المعايير التي تحكم التوسّع في الوصول، ومن يقرّر متى تكون الضمانات كافية؟ أوبن إيه آي تقول إنها تعمل مع الإدارة الأمريكية على إطار قابل للتكرار للإطلاقات المستقبلية. حتى يتضح هذا الإطار ويُختبر، ستحمل كل عملية إطلاق لنموذج متقدم السؤال ذاته.