QudahWay | Evaluating Ranked Lists

Slide 01

Slide 02

المقاييس المعتمدة على "الترتيب" 🏎️

شو يعني Rank-Based Measures؟ يعني هل السيستم حط الشغلات المهمة بالأول؟

عندنا 3 مقاييس رئيسية رح ندرسهم:

1. Precision@K: الدقة عند نقطة معينة.

2. MAP (Mean Average Precision): الملك تبعهم، بحسب متوسط الدقة لكل النتائج.

3. MRR (Mean Reciprocal Rank): بهتم بس بأول نتيجة صحيحة وين مكانها.

Slide 03

الـ Precision@K.. بسيط بس فيه "علّة"! 🎯

المبدأ بسيط جداً: بتحدد رقم K (مثلاً 10)، وبتحسب كم ملف صح موجود في أول 10 ملفات رجعهم السيستم.

ثغرة للمتحان: الـ P@K ما بهتم بالترتيب داخل الـ K. يعني لو حطيت الملفات الصح بالمركز 9 و 10، أو بالمركز 1 و 2، النتيجة رح تضل نفسها (2/10). وهاض إشي مش دقيق واقعياً!

Slide 04

الـ Mean Average Precision (MAP): عدالة الترتيب ⚖️

هون دخلنا بالجد. الـ MAP هو المقياس اللي "بكافئ" السيستم إذا جاب الملفات الصح بالأول.

بشتغل كالتالي: عند كل ملف مفيد (+) بنلاقيه، بنحسب الدقة (P@K) عند هاذ الموقع، وبعدين بناخد المتوسط للكل.
قاعدة : الـ AP (Average Precision) بكون لسؤال واحد، والـ MAP هو المتوسط لأسئلة كثير.

Slide 05

المثال اللي بيفهمك كل القصة 📏

هون اللعبة كلها بالمخطط والجدول، ركز معي عشان تفهم كل "نقطة" شو قصتها:

- الرقم 10: هاض هو الرقم السحري؛ هو عدد كل الملفات المفيدة في المجموعة، وعشانه ثابت، الـ Recall دائماً مقسوم عليه (1/10، 2/10.. إلخ).

- الدوائر الزرقاء (المليانة): هاي بتمثل الملفات الصح (+). لاحظ إنه الـ Recall بيقفز لليمين بس عند هاي الدوائر.

- الدوائر البيضاء (الفاضية): هاي بتمثل الملفات الغلط (-) زي D3. شوف المخطط؛ لما تطلع دائرة بيضاء، الخط بينزل لتحت (الدقة بتقل) والـ Recall بضل واقف مكانه ما بيتحرك لليمين.

- الزبدة: الخط الأحمر بالمخطط بفرجينا "نزيف الدقة" كل ما السيستم يرجع ملفات غلط، وبفرجينا "قفزة الاسترجاع" كل ما يرجع ملف صح. وإذا السيستم ما لقى باقي الملفات المفيدة (لحد 10)، بنعتبر دقتها صفر عشان نعاقبه على تقصيره.

Slide 06

ليش بنوجع راسنا بالـ AP؟ 🤔

لأنه الـ Average Precision بيعطيك رقم واحد بيوصف أداء السيستم كله. بدل ما نقعد نتخانق عالمخططات (Curves)، بنشوف الأرقام: السيستم اللي الكيرف تبعه "فوق وعلى اليمين" بكون هو البطل وصاحب الـ AP الأعلى.

Slide 07

تعريف الـ MAP الرسمي 📚

الـ MAP هو ببساطة المتوسط الحسابي للـ Average Precision على مستوى كل الأسئلة (Queries).

- حساس جداً لمكان كل ملف صح. - بعتبر المعيار الذهبي لمقارنة خوارزميات البحث.

Slide 08

مقارنة الترتيب: مين أحسن؟ 🥊

شوف السيستم الأول (Ranking #1) جاب 0.78، بينما الثاني جاب 0.52. مع إنهم رجعوا نفس عدد الملفات بالأخير، بس السيستم الأول جاب الملفات الصح أسرع وفي رانك أعلى، وهاض هو الفرق الجوهري!

Slide 09

مثال لحساب الـ MAP كامل 🧮

هاذ المثال هو "مربط الفرس" ولولاه ما بنفهم الـ MAP صح. ركز في الحسابات وكيف بنعامل كل سؤال لحاله:

- السؤال الأول (Query 1): الداتا فيها أصلاً 5 ملفات مفيدة. السيستم جابهم في المراكز (1, 3, 6, 9, 10). عشان هيك لما حسبنا الـ Average Precision، جمعنا الدقة عند كل مركز فيهم وقسمنا على 5 وطلع الجواب 0.62.

- السؤال الثاني (Query 2): هون الداتا فيها بس 3 ملفات مفيدة. السيستم لقيهم في المراكز (2, 5, 7). لاحظ هون إنا قسمنا المجموع على 3 وطلع الجواب 0.44.

- الأثر (Impact): شوف الفرق! السؤال الأول السيستم جاب أول ملف في المركز الأول فوراً (+) فأخد دقة 1.0، وهاذ رفع الـ AP تبعه. بينما السؤال الثاني، السيستم "تأخر" وجاب أول ملف بالمركز الثاني (-) فبدأ بدقة 0.5، وهاد نزل معدله.

- النتيجة النهائية (Mean): الـ MAP هو متوسط السيستم لكل الأسئلة؛ يعني بنجمع (0.62 + 0.44) وبنقسم على 2 (لأنه عندنا سؤالين) وبيطلع الجواب النهائي 0.53.

Slide 10

قوة الـ MAP الجبارة 💪

هون بدنا نفهم ليش الـ MAP هو "البعبع" تبع التقييم وليش الدكاترة والباحثين بحبوه كثير:

- عقاب القسوة (Strictness): تخيل لو عندك 5 ملفات مفيدة في الداتا والسيستم لقى منهم بس 3. هون الـ MAP ما رح يرحمه؛ رح يضل يقسم المجموع على 5 (العدد الكلي) مش على 3 (اللي لقيهم). والملفين اللي ضاعوا بنعتبر دقهم صفر. هاض الإشي بجبر السيستم إنه يحاول يجيب كل إشي وما ‘يطنش’ أي ملف.

- الـ Macro-averaging: هاي كلمة فخمة معناها إن كل سؤال (Query) إله نفس القيمة في المعدل النهائي. ما فيه سؤال أهم من سؤال، الكل بتعامل بالعدل.

- سر القوة: الـ MAP بجاوب على سؤالين جوهريين بنفس الوقت: "هل لقت النتائج؟" و "هل رتبتهم بالأول؟". عشان هيك هو المقياس رقم 1 في الأوراق البحثية.

Slide 11

الـ Mean Reciprocal Rank (MRR) 🥇

هاذ المقياس "قنوع شوية". ما بهمه كل الملفات الصح، بهمه بس أول إجابة صحيحة وين موقعها.

القانون: 1 / K (حيث K هي رتبة أول ملف صح). لو أول ملف صح كان في المركز الثالث، النتيجة بتصير 1/3. بنجمع النتائج لكل الأسئلة وبناخد المتوسط.

Slide 12

حالة خاصة: MAP بصير MRR! 🤝

لما يكون السيستم بدور على "إبرة في كومة قش" (يعني بس فيه ملف واحد صح بالدنيا لكل سؤال)، هون الحسابات بتبسط لدرجة إنه الـ MAP بصير هو نفسه الـ MRR.

Slide 13

الخلاصة (Summary)

1. الـ Precision-Recall curve بوصف الدقة العامة للترتيب.

2. فايدة الـ Ranked list بتعتمد على قديش اليوزر رح "يتكاسل" وينزل لتحت.

3. الـ Average Precision هو المعيار الذهبي للمقارنة بين نظامين.

4. أهم شيء: الـ AP حساس لمكان كل ملف مفيد، مش بس أول واحد.

QudahWay IR