العودة للوحة التحكم

QudahWay IR

Evaluating Ranked Lists | تقييم القوائم المرتبة

Slide 01
Slide 02
المقاييس المعتمدة على "الترتيب" 🏎️
شو يعني Rank-Based Measures؟ يعني هل السيستم حط الشغلات المهمة بالأول؟

عندنا 3 مقاييس رئيسية رح ندرسهم:
1. Precision@K: الدقة عند نقطة معينة.
2. MAP (Mean Average Precision): الملك تبعهم، بحسب متوسط الدقة لكل النتائج.
3. MRR (Mean Reciprocal Rank): بهتم بس بأول نتيجة صحيحة وين مكانها.
Slide 03
الـ Precision@K.. بسيط بس فيه "علّة"! 🎯
المبدأ بسيط جداً: بتحدد رقم K (مثلاً 10)، وبتحسب كم ملف صح موجود في أول 10 ملفات رجعهم السيستم.

ثغرة للمتحان: الـ P@K ما بهتم بالترتيب داخل الـ K. يعني لو حطيت الملفات الصح بالمركز 9 و 10، أو بالمركز 1 و 2، النتيجة رح تضل نفسها (2/10). وهاض إشي مش دقيق واقعياً!
Slide 04
الـ Mean Average Precision (MAP): عدالة الترتيب ⚖️
هون دخلنا بالجد. الـ MAP هو المقياس اللي "بكافئ" السيستم إذا جاب الملفات الصح بالأول.

بشتغل كالتالي: عند كل ملف مفيد (+) بنلاقيه، بنحسب الدقة (P@K) عند هاذ الموقع، وبعدين بناخد المتوسط للكل.
قاعدة : الـ AP (Average Precision) بكون لسؤال واحد، والـ MAP هو المتوسط لأسئلة كثير.
Slide 05
المثال اللي بيفهمك كل القصة 📏
هون اللعبة كلها بالمخطط والجدول، ركز معي عشان تفهم كل "نقطة" شو قصتها:

- الرقم 10: هاض هو الرقم السحري؛ هو عدد كل الملفات المفيدة في المجموعة، وعشانه ثابت، الـ Recall دائماً مقسوم عليه (1/10، 2/10.. إلخ).

- الدوائر الزرقاء (المليانة): هاي بتمثل الملفات الصح (+). لاحظ إنه الـ Recall بيقفز لليمين بس عند هاي الدوائر.

- الدوائر البيضاء (الفاضية): هاي بتمثل الملفات الغلط (-) زي D3. شوف المخطط؛ لما تطلع دائرة بيضاء، الخط بينزل لتحت (الدقة بتقل) والـ Recall بضل واقف مكانه ما بيتحرك لليمين.

- الزبدة: الخط الأحمر بالمخطط بفرجينا "نزيف الدقة" كل ما السيستم يرجع ملفات غلط، وبفرجينا "قفزة الاسترجاع" كل ما يرجع ملف صح. وإذا السيستم ما لقى باقي الملفات المفيدة (لحد 10)، بنعتبر دقتها صفر عشان نعاقبه على تقصيره.
Slide 06
ليش بنوجع راسنا بالـ AP؟ 🤔
لأنه الـ Average Precision بيعطيك رقم واحد بيوصف أداء السيستم كله. بدل ما نقعد نتخانق عالمخططات (Curves)، بنشوف الأرقام: السيستم اللي الكيرف تبعه "فوق وعلى اليمين" بكون هو البطل وصاحب الـ AP الأعلى.
Slide 07
تعريف الـ MAP الرسمي 📚
الـ MAP هو ببساطة المتوسط الحسابي للـ Average Precision على مستوى كل الأسئلة (Queries).

- حساس جداً لمكان كل ملف صح. - بعتبر المعيار الذهبي لمقارنة خوارزميات البحث.
Slide 08
مقارنة الترتيب: مين أحسن؟ 🥊
شوف السيستم الأول (Ranking #1) جاب 0.78، بينما الثاني جاب 0.52. مع إنهم رجعوا نفس عدد الملفات بالأخير، بس السيستم الأول جاب الملفات الصح أسرع وفي رانك أعلى، وهاض هو الفرق الجوهري!
Slide 09
مثال لحساب الـ MAP كامل 🧮
هاذ المثال هو "مربط الفرس" ولولاه ما بنفهم الـ MAP صح. ركز في الحسابات وكيف بنعامل كل سؤال لحاله:

- السؤال الأول (Query 1): الداتا فيها أصلاً 5 ملفات مفيدة. السيستم جابهم في المراكز (1, 3, 6, 9, 10). عشان هيك لما حسبنا الـ Average Precision، جمعنا الدقة عند كل مركز فيهم وقسمنا على 5 وطلع الجواب 0.62.

- السؤال الثاني (Query 2): هون الداتا فيها بس 3 ملفات مفيدة. السيستم لقيهم في المراكز (2, 5, 7). لاحظ هون إنا قسمنا المجموع على 3 وطلع الجواب 0.44.

- الأثر (Impact): شوف الفرق! السؤال الأول السيستم جاب أول ملف في المركز الأول فوراً (+) فأخد دقة 1.0، وهاذ رفع الـ AP تبعه. بينما السؤال الثاني، السيستم "تأخر" وجاب أول ملف بالمركز الثاني (-) فبدأ بدقة 0.5، وهاد نزل معدله.

- النتيجة النهائية (Mean): الـ MAP هو متوسط السيستم لكل الأسئلة؛ يعني بنجمع (0.62 + 0.44) وبنقسم على 2 (لأنه عندنا سؤالين) وبيطلع الجواب النهائي 0.53.
Slide 10
قوة الـ MAP الجبارة 💪
هون بدنا نفهم ليش الـ MAP هو "البعبع" تبع التقييم وليش الدكاترة والباحثين بحبوه كثير:

- عقاب القسوة (Strictness): تخيل لو عندك 5 ملفات مفيدة في الداتا والسيستم لقى منهم بس 3. هون الـ MAP ما رح يرحمه؛ رح يضل يقسم المجموع على 5 (العدد الكلي) مش على 3 (اللي لقيهم). والملفين اللي ضاعوا بنعتبر دقهم صفر. هاض الإشي بجبر السيستم إنه يحاول يجيب كل إشي وما ‘يطنش’ أي ملف.

- الـ Macro-averaging: هاي كلمة فخمة معناها إن كل سؤال (Query) إله نفس القيمة في المعدل النهائي. ما فيه سؤال أهم من سؤال، الكل بتعامل بالعدل.

- سر القوة: الـ MAP بجاوب على سؤالين جوهريين بنفس الوقت: "هل لقت النتائج؟" و "هل رتبتهم بالأول؟". عشان هيك هو المقياس رقم 1 في الأوراق البحثية.
Slide 11
الـ Mean Reciprocal Rank (MRR) 🥇
هاذ المقياس "قنوع شوية". ما بهمه كل الملفات الصح، بهمه بس أول إجابة صحيحة وين موقعها.

القانون: 1 / K (حيث K هي رتبة أول ملف صح). لو أول ملف صح كان في المركز الثالث، النتيجة بتصير 1/3. بنجمع النتائج لكل الأسئلة وبناخد المتوسط.
Slide 12
حالة خاصة: MAP بصير MRR! 🤝
لما يكون السيستم بدور على "إبرة في كومة قش" (يعني بس فيه ملف واحد صح بالدنيا لكل سؤال)، هون الحسابات بتبسط لدرجة إنه الـ MAP بصير هو نفسه الـ MRR.
Slide 13
الخلاصة (Summary)
1. الـ Precision-Recall curve بوصف الدقة العامة للترتيب.
2. فايدة الـ Ranked list بتعتمد على قديش اليوزر رح "يتكاسل" وينزل لتحت.
3. الـ Average Precision هو المعيار الذهبي للمقارنة بين نظامين.
4. أهم شيء: الـ AP حساس لمكان كل ملف مفيد، مش بس أول واحد.