QudahWay | Text Retrieval Problem

عالم البحث.. الفوضى المنظمة! 🔍

تخيل حالك بتدور على ورقة وحدة ضايعة بمكتبة فيها مليون كتاب.. لو بدك تفتشهم كتاب كتاب رح تعجز! الـ Text Retrieval هو السحر اللي بمسك هاي الملايين وبرتبلك إياهم بحيث تلاقي اللي بدك إياه بلمح البصر.

اليوم رح نفهم "اللعبة" من جوا.. كيف بنحول الكلمات لمعادلات، وليش البحث عن النصوص أصعب بمليون مرة من البحث بقواعد البيانات التقليدية.

What Is Text Retrieval (TR)? Slide 02

شو المكونات اللي بنحتاجها؟ 🧩

عشان النظام يشتغل، لازم يتوفر عندنا أربعة أشياء:

1. الـ Collection: وهي "الكنز" أو مجموعة المستندات النصية اللي بنبحث فيها.

2. الـ User Query: سؤال المستخدم اللي بيعبر فيه عن حاجته للمعلومة (Information Need).

3. الـ Relevant Documents: وهي المستندات اللي فعلاً بتفيد المستخدم واللي النظام لازم يرجعها.

معلومة: في الصناعة بيسموه Search Technology، وهو تخصص فرعي من الـ Information Retrieval.

TR vs. Database Retrieval Slide 03

المواجهة الكبرى! ⚔️

ليش البحث بالنصوص أصعب من الـ Database؟

المعلومات (Information): بالـ DB البيانات مهيكلة وواضحة، بالـ TR بنتعامل مع نصوص فوضوية وغامضة (Ambiguous).

الاستعلام (Query): بالـ DB السؤال بكون كامل ودقيق، بالـ TR بكون دايماً ناقص وغير محدد (Incomplete).

الزبدة: الـ TR "مشكلة تجريبية" (Empirically defined). المعيار الوحيد هو رأي المستخدم وتجربته الفعلية.

Formal Formulation of TR Slide 04

الصياغة الرياضية للمشكلة 🧠

عشان نخلي الكمبيوتر يفهمنا، لازم نترجم القصة لرموز:

القاموس (V): هو كل الكلمات الموجودة باللغة.

المستند (d) والبحث (q): الإثنين عبارة عن "صف من الكلمات" من القاموس.

المستندات ذات الصلة (R(q)): هي المستندات اللي بتفيد المستخدم، بس المشكلة إنها مجهولة (Unknown) وبتعتمد على الشخص.

مهمتنا: نحسب R'(q)؛ وهي أفضل تقريب للمجموعة اللي ببال المستخدم. الـ Query هو مجرد تلميح (Hint) مش أمر دقيق!

How to Compute R'(q) Slide 05

كيف بنحزر النتيجة؟ 🧪

عنا طريقتين عشان السيستم يطلع الـ R'(q):

1. اختيار المستندات (Selection): النظام بيقرر لكل ملف "صح (1) أو غلط (0)". هاض بيسموه Absolute Relevance.

2. ترتيب المستندات (Ranking): النظام بيعطي "علامة" لكل ملف وبيرتبهم. الصلة هون نسبية (Relative) مش أبيض وأسود.

Document Selection vs. Ranking Slide 06

المقارنة البصرية: مين الأفخم؟ 📊

شوف الرسمة بالسلايد:

بالـ Selection السيستم بيحاول "يقفل" على مجموعة معينة، يا إنك جوه يا بره.

بالـ Ranking السيستم بيعطيك درجات (Scores) وبيرتبهم، هيك "الأهم" بكون دايماً قدامك.

Problems of Document Selection Slide 07

ليش نظام "الاختيار" (Selection) ما بنفعنا؟ ❌

نظام الـ Selection بيتعامل مع البحث كأنه "بواب"؛ يا بخليك تدخل يا بطلعك بره. وهاض التفكير فيه مشاكل قاتلة:

1. دقة التصنيف (Accuracy): خوارزميات الكمبيوتر صعب جداً تكون دقيقة 100% في الحكم على نص بشري معقد. كلمة "صح" أو "خطأ" هون فيها ظلم كبير!

2. معضلة القيود (The Query Extremes): لو كنت متشدد بسؤالك (Over-constrained)، السيستم رح يحكيلك "ما لقيتلك ولا إشي!" (0 نتائج). ولو كنت متساهل بكلمات البحث (Under-constrained)، رح يغرقك بملايين النتائج اللي مالها داعي (Over delivery). وصعب جداً تلاقي "المنطقة الوسط" اللي بترضي الطرفين.

3. الصلة ليست "أبيض وأسود": حتى لو النظام اشتغل صح، المستندات مش كلها بنفس درجة الفائدة. في مستند بكون "كنز"، وفي مستند بكون "مفيد نوعاً ما". الـ Selection بعتبرهم كلهم واحد!

خلاصة الكلام: إحنا محتاجين "ترتيب أولويات" (Prioritization)، وعشان هيك العالم كله فضل الـ Ranking على الـ Selection.

Theoretical Justification for Ranking Slide 08

المبدأ العلمي: ليش الـ Ranking هو الحل الأمثل؟ ✅

عشان ما نحكي إنه الـ Ranking مجرد "رأي"، في عالم اسمه روبرتسون (Robertson) حط لنا في سنة 1977 مبدأ مشهور جداً اسمه:
Probability Ranking Principle (PRP)

المبدأ هاد بيثبت إنه لو السيستم رتب المستندات تنازلياً حسب **"احتمالية"** صلتها بالموضوع، فهاض هو أفضل وضع ممكن توصله. بس عشان هالقانون يشتغل صح، لازم نصدق افتراضين:

أ) الاستقلال (Independence): بفترض المبدأ إنه فايدة المستند d₁ إلك ما بتعتمد أبداً على المستند d₂. (يعني لو المعلومة مكررة، رح يضل يعتبر الثاني مفيد جداً!).

ب) الترتيب التسلسلي (Sequential Browsing): بفترض إنك رح تقرأ النتائج بالترتيب؛ من الأول للثاني للثالث.. بدون ما تنط عن أي واحد.

سؤال للتفكير 🤔: هل فعلاً هاي الافتراضات بتنطبق علينا كبشر؟ هل لو شفت معلومة مكررة بتعتبر المستند الثاني "مفيد"؟ طبعاً لا! وهاض هو اللي بخلي علم الـ IR مستمر بالتطور لليوم.

Summary Slide 09

الخلاصة 🏆

الـ TR مشكلة تجريبية بتعتمد على نية المستخدم.

الـ Ranking دايماً أفضل من الـ Selection.

التحدي الحقيقي هو تصميم الـ f(q,d) اللي بتحسب الترتيب بدقة.

QudahWay IR