في عطلة نهاية الأسبوع ، ماليان جديدان نموذج لاما 4: نموذج صغير يدعى Scout و Maverick ، وهو نموذج متوسط الحجم تدعي الشركة التغلب على GPT-4O و Gemini 2.0 Flash “في النطاق الواسع من المعايير القياسية الموحدة.”
Maverick Security للنقطة الثانية في Lmarena ، وهو موقع ويب قياسي لمنظمة العفو الدولية يقارن البشر المخرجات من أنظمة مختلفة والتصويت في أفضل الأشياء في META. أخبارتركز الشركة على درجة ELO’s ELO في عام 1417 ، والتي تم وضعها فوق 4O من Openai وتحت Gemini 2.5 Pro (درجات ELO العليا ، مما يعني النموذج الذي يفوز في كثير من الأحيان في المرحلة عند التنافس مع المنافسين).
يبدو أن النجاح يضع Llama 4 ، وهو الوزن المفتوح لـ Meta كمنافس خطير للأسلوب الحديث ، مغلق من Openai و Manthropic و Google.
في طباعة جيدة ، تعترف Meta بأن نسخة Maverick التي تم اختبارها في Lmarena ليست هي نفسها الجمهور وفقًا لمادة التعريف نفسها. “إصدار الدردشة” من مافريك إلى Lmarena ، التي تم تحسينها ، خاصة للمحادثات. ” TechCrunch أول واحد تقرير–
“إن تفسير سياستنا لا يتطابق مع ما نتوقعه من مزود الخدمة النموذجية.” lmarena بريد في X بعد يومين من إطلاق النموذج “يجب أن يوضح Meta أن” Llama-4-Maverick-03-26-Trial “هو شكل مخصص ليكون مناسبًا للإعدادات البشرية لأننا نحسن سياسة القيادة الخاصة بنا لتعزيز التزامنا.
لم يرد المتحدث باسم Meta على بيان Lmarena في الوقت المنشور.
على الرغم من أن ما فعله Meta مع Maverick لا يتوافق بوضوح مع قواعد Lmarena ، ولكن الموقع الإلكتروني لديه مخاوف مشتركة. عن لعب ألعاب الألعاب والمضي قدماً في الخطوات “لمنع الكثير من المساحة والمعايير القياسية” عندما تتمكن الشركة من إرسال نموذج نموذج خاص للاختبار ، مع إصدار إصدارات مختلفة للترتيب العام ، مثل Lmarena لديها مؤشر أقل جدوى في العالم الحقيقي.
وقال باحثون من الذكاء الاصطناعي: “إنها المعايير القياسية الأكثر قبولًا على نطاق واسع لأن جميع الآخرين تمتص”. قال سيمون ويليسون. حافة– “عندما خرج لاما 4 ، حقيقة أن الأمر وصل إلى المركز الثاني في المسرح الخلفي ، Gemini 2.5 Pro – الذي جعلني أعجب حقًا وركلت نفسي لأنني لم أقرأ طبعة صغيرة.”
لم يمض وقت طويل على إطلاق Meta The Maverick and Scout ، بدأ مجتمع الذكاء الاصطناعي. تحدث عن الشائعات مارس Meeta نموذج Llama 4 للعمل بشكل أفضل على المعيار مع إخفاء القيود الحقيقية. ذكر نائب رئيس أصل الذكاء الاصطناعى في ميتا ، أحمد الداهل هذه الادعاءات. في المنشور على x: “لقد سمعنا الادعاء بأننا قد تم تدريبنا على مجموعة الاختبار – هذا غير صحيح ولن نفعل ذلك. أفضل فهمنا هو جودة المتغيرات التي يتم رؤيتها من الاستخدام المستقر.”
“إنه إصدار مربك للغاية بشكل عام.”
رفيع لا يزال يلاحظ تم إصدار Llama 4 في وقت غريب. في يوم السبت ، لم يكن من المحتمل أن تنخفض أخبار منظمة العفو الدولية بعد أن تم إطلاق سراح شخص ما عن سبب إصدار Llama 4 في الرئيس التنفيذي لشركة Mark Zuckerberg الرئيس التنفيذي لشركة Markerberg. يرد: “هذا عندما يكون جاهزًا.”
وقال ويليسون: “إنه إصدار مربك للغاية بشكل عام”. اتبع عن كثب ونماذج الذكاء الاصطناعي.– “KA Snare ، النموذج الذي وصلناه لا يستحقني على الإطلاق. لا يمكنني استخدام النموذج الذي لديهم درجات عالية.”
مسار META في إطلاق LLAMA 4 هو بالتأكيد ليس سلسًا. إلى أحدث تقرير من معلومةدفعت الشركة الإطلاق مرارًا وتكرارًا لأن النموذج لم يتمكن من تلبية التوقعات الداخلية. هذه التوقعات عالية ، خاصة بعد Deeseek. أصدرت بداية AI Open Surz من الصين الكثير من النماذج المفتوحة التي تخلق الكثير من الطنانة.
أخيرًا ، باستخدام النماذج المحدثة في Lmarena ، يكون المطورون في وضع صعب. عند اختيار نماذج مثل Llama 4 لتطبيقاتها ، فإنهم ينظرون إلى المعايير لطلب المشورة. ولكن كما في حالة Maverick القياسية ، يمكن أن تعكس هذه المعايير القدرة التي لا توجد في النماذج العامة التي يمكن الوصول إليها.
عندما يوضح تطوير AI المتسارع الآن كيف أصبح المعيار ساحة معركة. كما يوضح أن Meta حريص على أن ينظر إليه كقائد منظمة العفو الدولية ، على الرغم من أنه يعني ممارسة الألعاب.