CHATGPT تقنية 12 مشاهدة

📌 SWE-bench Pro vs Verified - ما الفرق ولماذا يعتبر Pro المعيار الأصدق لقياس نماذج البرمجة

اكتب مقالاً عن معياري SWE-bench Verified و SWE-bench Pro، وكيف أصبح Pro المعيار الأكثر موثوقية في مايو 2026 [citation:10]. يشمل: ما هو SWE-bench Verified (500 مهمة Python، لكنه أصبح ملوثاً بالتسريبات [citation:10])، ما هو SWE-bench Pro (1,865 مهمة عبر 41 مستودعاً نشطاً بلغات متعددة، أغلقت Scale AI التسريب باحتواء مهام من أكواد بدء تشغيل خاصة [citation:10])، الفرق بينهما (Verified تسجل نماذج 80-95%، Pro تسجل 46-77% - الفارق 30 نقطة هو الفجوة الحقيقية في قدرة البرمجة [citation:10])، والتصنيف الحالي (Claude Mythos Preview 77.8% على Pro، Claude Opus 4.7 64.3% [citation:10]).
(0 تقييم)