العودة للوحة التحكم
QudahWay / DS / EDA

QudahWay DS

Exploratory Data Analysis (EDA) | استكشاف وتحليل البيانات

Introduction to EDA Slide 02
Slide 2
مقدمة في استكشاف البيانات (EDA)
يعد استكشاف البيانات (EDA) خطوة أساسية في مسار علم البيانات، ويُستخدم لفهم مجموعات البيانات قبل بناء نماذج تعلم الآلة. يساهم الـ EDA في مساعدة المحللين وعلماء البيانات على:
  • فهم بنية البيانات: استيعاب كيفية تنظيم البيانات وأنواعها.
  • تحديد الأنماط والعلاقات: كشف الروابط والاتجاهات بين المتغيرات.
  • رصد الشواذ والأخطاء: اكتشاف القيم غير المنطقية أو الأخطاء في البيانات.
  • توليد الفرضيات: بناء افتراضات أولية ليتم اختبارها لاحقاً.
  • توجيه قرارات النمذجة: المساعدة في اتخاذ قرارات دقيقة حول هندسة الميزات (Feature Engineering) واختيار الموديل.
تعتمد هذه العملية على دمج الملخصات الإحصائية وتقنيات تصور البيانات لاستكشاف البيانات بفعالية.
Importance of EDA Slide 03
Slide 3
ليش الـ EDA مهم لدرجة كبيرة؟
نفهم القصة (Maximize Insight) بدنا نحول الأرقام لرؤى واضحة بتساعدنا ناخذ قرارات صح وما نضيع بالداتا.
نصيد الشواذ (Detect Outliers) بدنا نكشف القيم اللي "شاطحة" وممكن تضلل الموديل وتعطينا نتائج غلط في الآخر.
نفحص الفرضيات (Testing) نتأكد إنه الداتا ماشية مع الافتراضات الإحصائية اللي الموديل بيتوقعها منا.
هيكل الموديل (Structure) نطلع بأبسط وأقوى موديل ممكن، يعني موديل بيفهم الداتا صح بدون تعقيد زايد.
EDA Process Slide 04
Slide 4
خلطة الـ EDA وكيف الرسم البياني بيدخل فيها
هون بنوضح إنه الـ EDA مش مجرد خطوة، هي عملية كاملة عشان نفهم الداتا "صح" قبل ما نبلش بأي موديل.
شو يعني EDA أصلاً؟ هو إنك تحلل وتفهم مجموعة البيانات "قبل" ما تبلش تبني موديلات تعلم الآلة. بنستخدم فيه: (إحصاء + رسم بياني + فحص دقيق).
أسئلة جوهرية بنجاوب عليها: - شكل الداتا شو؟
- في قيم ضايعه (Missing Values)؟
- في قيم "شاطحة" (Outliers)؟
- كيف العلاقة بين المتغيرات؟
- هل الداتا مايلة (Skewed) لجهة معينة؟
Viz

مفهوم الـ Data Visualization

هو إننا نمثل الداتا بالصور والرسومات البيانية عشان نساعد عيونا "صيد" الأنماط والعلاقات اللي الأرقام الصماء بتخفيها عنا.

المعادلة الذهبية:
EDA = Statistics + Visualization + Data Inspection
Data Visualization Slide 05
Slide 5
ليه بنرسم الداتا؟ (Visualization)
بدل ما نضيع بجداول أرقام ما بتخلص، بنطلع صور ورسومات بتفرجينا القصة كلها:
  • التوزيع (Distribution): بنشوف قيمة كل متغير وكيف متوزعة بالداتا.
  • المقارنة: بنقرر مين أكبر ومين أقل بشكل سريع.
  • العلاقات: بنشوف إذا في متغيرين "أصحاب" وبزيدوا مع بعض.
  • صيد الشواذ: الرسم البياني هو أسرع طريقة نلاقي فيها القيم اللي "فارقة" كثير عن غيرها.
Typical EDA Workflow Slide 06
Slide 6
خطوات الشغل الأساسية بالـ EDA
بالعادة بنمشي بهذول السبع خطوات عشان نخلص الـ EDA صح:
  • 1. Understanding: بنفهم شو هي الداتا اللي بين إيدينا أصلاً.
  • 2. Cleaning: بننظف الداتا من "العجقة" والأخطاء المباشرة.
  • 3. Summary: بنطلع أرقام بتلخص الداتا (زي المتوسط وغيره).
  • 4. Distribution: بنشوف الداتا وين متركزة ووين فاضية.
  • 5. Relationship: بنشوف إذا المتغيرات "متفقة" مع بعض.
  • 6. Outliers: بنكشف الشواذ اللي ممكن يخربوا الموديل.
  • 7. Feature Insights: بنطلع برؤى بتخلينا نعمل موديل فنان.
الـ EDA عملية تكرارية (Iterative)، يعني ممكن نرجع نعيد خطوات أكثر من مرة خلال المشروع.
Data Overview Slide 07
Slide 7
نظرة سريعة على الداتا
أول إشي بنعمله هو إننا نلقي "نظرة خاطفة" عشان نعرف مع مين بنتعامل:
  • بنستخدم head() و tail() عشان نشوف أول وآخر كم سطر.
  • بنفحص الـ shape عشان نعرف كم سطر وعمود عنا.
  • بنفحص الـ info() عشان نعرف أنواع البيانات وهل في إشي ناقص.
  • بنتأكد إنه كل عمود واخد النوع الصح (مثلاً رقم مش نص).
Statistical Summary Slide 08
Slide 8
ملخص الأرقام (الإحصاء)
هون بنطلع الأرقام اللي "بتختصر" كل القصة:
  • النزعة المركزية: هي المتوسط، الوسيط، والمنوال.. يعني الداتا وين بتلف وبتدور.
  • التشتت: الانحراف المعياري والتباين.. يعني الداتا قديش "شاطحة" عن بعض.
  • الربيعيات: اللي هم الـ 25% والـ 75% عشان نعرف وين ثقل الداتا متركز.
  • بنستخدم df.describe() ببساطة عشان تعطينا كل الحفلة هاي بمرة وحدة.
Choosing the Right Chart Slide 09
Slide 9
كيف نختار الرسمة الصح؟ (Choose the Chart)
مش أي رسمة بتنفع لكل داتا! هون بنتعلم كيف ننقي "الرسمة الصح" بناءً على الهدف اللي بدنا نوصله. السر كله بهالسؤال: "شو اللي بدنا نفرجيه للناس؟"
المقارنة (Comparison) إذا بدنا نقارن بين قيم معينة (مين أكثر ومين أقل)، بنروح للـ Bar Chart أو الـ Column Chart الجدعان.
العلاقات (Relationship) بدنا نشوف كيف متغيرين بيأثروا ببعض؟ الـ Scatterplot هو بطل القصة هون عشان يصيد العلاقة.
التوزيع (Distribution) عشان نفهم تركيز الداتا وهل في قيم غريبة؟ بنستخدم الـ Histogram أو الـ Line Histogram.
التكوين (Composition) إذا بدنا نشوف "الحصص" وشو هي أجزاء الكل؟ بنستخدم الـ Pie Chart أو الـ Stacked Bar.
💡

نصيحة :

دائماً اسأل حالك: "هل الرسمة واضحة لصاحب الشغل؟". إذا الرسمة معقدة بزيادة، ارجع للأبسط. الهدف هو المعلومة مش الاستعراض بمنظر الرسمة.

Histogram Analysis Slide 10
Slide 10
شو قصة الهيستوغرام؟ (Histogram)
الهيستوغرام هو الملك لما تيجيك داتا رقمية وبدك تعرف "كيف متوزعة". هو ببساطة بيقسم الداتا للفئات (Bins) وبفرجيك كل فئة كم تكرار فيها.
ليه بنستخدمه؟ - بنفهم توزيع الداتا (طبيعي ولا مخبص).
- بنكشف الميلان (Skewness).. يعني الداتا مايلة لليمين ولا لليسار؟
- بنعرف إذا في "قمم" كثيرة (Multimodal).
- بنصيد القيم الغريبة اللي طالعة لحالها.
كود بايثون: عشان تطلعه بثانية، استخدم الـ .hist():
df["salary"].hist()
plt.show()
📊

تذكر دائماً:

الهيستوغرام بيفرجينا "صورة" حية لتكرار الأرقام، فإذا شفت عمود طويل جداً مقارنة بالباقي، اعرف إنه في تركز كبير للبيانات في هذيك المنطقة.

Boxplot Visualization Slide 11
Slide 11
شو هو الـ Boxplot وليه بخوّف؟
الـ Boxplot هو الأداة اللي بتكشف لك "المستخبي" في الداتا. بيورجينا التوزيع بناءً على الأرباع (Quartiles)، وبيفرجينا القيم الشاذة بكل صراحة.
مكونات الصندوق: - عالبداية والنهاية (القيم الصغرى والكبرى).
- الخط اللي بالنص هو الـ Median (الوسيط).
- النقط اللي برا؟ هاي هي الـ Outliers.. القيم "اللي بتشطح".
مهمته الرئيسية: - صيد القيم الغريبة (Outliers).
- مقارنة التوزيع بين مجموعات مختلفة (مين أكثر انتشاراً؟).
- بعطيك فكرة عن "زحمة" الداتا وين مركزة.
Scatter Plot Analysis Slide 12
Slide 12
الـ Scatter Plot: كيف بنكشف العلاقات؟
بدك تعرف إذا متغيرين "بيحبوا بعض" ولا ما الهم دخل ببعض؟ الـ Scatter Plot هو بقلك القصة. كل نقطة هي معلومة في الداتا.
1
كشف الارتباط: بنشوف إذا الداتا طالعة ولا نازلة بخط.
2
شلل الداتا: بنعرف إذا الداتا عاملة Clusters في مناطق معينة.
Bar Chart Analysis Slide 13
Slide 13
الـ Bar Chart: كلاسيك بس قد حاله
أسهل رسمة بالعالم بس هي اللي بتعطيك الحقيقة للمتغيرات الوصفية. طول العمود بقلك كم مرة تكرر النوع.
المقارنة بالعواميد: بلمحة بنعرف مين "الأعلى مبيعاً" أو "الأكثر تكراراً".
Imbalance! بتبين إذا في فئة مستلمة كل الداتا وفئات ثانية "مظلومة".
Line Chart Analysis Slide 14
Slide 14
الـ Line Chart: تتبع الزمن والترندات
لما يكون في "وقت" (ساعات، أيام، سنين)، الـ Line Chart هو الزعيم عشان يبين لنا "الرحلة" كيف مشت وتطورت.
📈 تحليل الـ Time-Series: هون بنراقب كيف المتغير بيتغير مع مرور الزمن، وبنشوف إذا في "قفزات" فجائية أو وقعات بالداتا.
🚀 قراءة الـ Trend: هون المهم، بدنا نشوف "التوجه العام". هل إحنا في حالة نمو مستمر (طلوع)، ولا الداتا قاعدة "بتكب" وبننزل (نزول)، وهل في نمط تكراري لازم نفهمه؟
Correlation Matrix Slide 15
Slide 15
مصفوفة الارتباط: مين ماشي مع مين؟
هون بنقيس قوة العلاقة بين كل ثنين بالأرقام. الرقم بين -1 و +1.
+1: علاقة طردية قوية جداً.
-1: علاقة عكسية قوية جداً.
0: ما في أي علاقة بينهم.
Density Plot (KDE) Slide 16
Slide 16
الـ Density Plot: الهيستوغرام الناعم
الـ KDE هو منحنى سلس بيورجيك كثافة الداتا وين مركزة بدل العواميد الخشنة.

بخلينا نشوف "شكل" التوزيع ونقارن بين مجموعات مختلفة بسهولة تامة.

Violin Plot Analysis Slide 17
Slide 17
الـ Violin Plot: كفة الصندوق وجمال المنحنى
بجمع لك الـ Boxplot مع الـ Density Plot في رسمة وحدة "شيك".

ليه بنحبه؟ لأنه بصيد الـ Multimodal داتا (لما يكون في قمتين للداتا) بكل بساطة.

Pair Plot Analysis Slide 18
Slide 18
الـ Pair Plot: اضرب 10 عصافير بحجر!
برسم لك كل الاحتمالات بمرة وحدة. مصفوفة من العلاقات بتبين لك كل شي بلمحة وحدة.

مفيد جداً لما يكون عندك داتا ضخمة وبدك تبلش فيها رحلة الاستكشاف.

Heat Map Exploration Slide 19
Slide 19
الـ Heat Map: خلي الألوان تحكي
بنحول مصفوفة أرقام مملة لشيء "بينطق" بالألوان. - خرائط حرارية، جغرافية، أو مصفوفات ارتباط.. كلو بمشي بالألوان.
Pie Chart Distribution Slide 20
Slide 20
الـ Pie Chart: قسمة الحصص
هون بنشوف "الكيكة" وكل فئة كم حصتها من الكل.

بس تذكر: إذا الفئات كثيرة، بصير المنظر معجق وصعب القراءة، فالأفضل نستخدمه لفئات قليلة.

Detecting Outliers Slide 21
Slide 21
صيد الـ Outliers: القيم "اللي بتشطح"
الـ Outliers هي قيم بتفرق كثير عن باقي الداتا، وممكن تخرب علينا كل الحسابات إذا ما انتبهنا لها.
ليه بتطلع لنا؟ - غلطة بالقياس أو إدخال الداتا.
- أحداث نادرة صارت فعلاً (Rare events).
كيف بنصيدها؟ - Boxplots: الرسمة الصديقة للـ EDA.
- Z-score: بالأرقام والحسابات.
- IQR: القاعدة الثلاثية المشهورة.
Visualization Techniques Slide 22
Slide 22
أدوات الرسم في الـ EDA
هاي العدّة اللي بنستخدمها عشان نكشف الداتا:
📊
Histogram & Boxplot: للتوزيع والـ Outliers.
📈
Scatter & Line: للعلاقات والترندات مع الزمن.
🥧
Bar & Pie: لمقارنة الفئات والحصص.
Feature Relationships Slide 23
Slide 23
علاقات المتغيرات: اكتشاف الروابط
الـ EDA الحقيقي ببدأ لما تعرف كيف المتغيرات بتأثر على بعض.
أمثلة من الواقع: - الراتب بزيد مع الخبرة.
- المبيعات بتهب في أيام العطل.
- في أقسام معينة رواتبها أعلى من غيرها.
ليش بنعمل هيك؟ - عشان نختار المتغيرات الصح للموديل (Feature Engineering).
- نطلع بـ Insights تفيد البزنس وتطور الشغل.
Insights from EDA Slide 24
Slide 24
الكنوز اللي بنطلع فيها من الـ EDA
بعد ما تفصفص الداتا، هاي الـ Insights اللي رح تطلع معك وهي اللي بتوجهك للخطوة الجاية في الرحلة.
  • 🔍 Hidden Patterns: أنماط مخبية ما في حد شايفها غيرك.
  • 🛠️ Data Quality: بتعرف وين الضعف بالداتا وكيف تصلحه.
  • 💡 Useful Features: بتعرف مين "اللاعبين الأساسيين" في الداتا.
  • 😲 Unexpected: علاقات غريبة ما كنت متوقعها أبداً!
EDA in the Pipeline Slide 25
Slide 25
موقع الـ EDA في "الماكينة"
الـ EDA هو "الجسر" اللي بربط بين جمع وتنظيف الداتا وبين بناء الموديلات الذكية.
الترتيب المنطقي: 1. جمع الداتا -> 2. تنظيفها -> 3. EDA (هون السحر) -> 4. هندسة المتغيرات -> 5. تدريب الموديل -> 6. التقييم -> 7. التشغيل.
Data Storytelling Slide 26
Slide 26
فن الـ Storytelling: كيف تحكي قصة بالأرقام؟
إنت كـ Data Scientist، إذا ما عرفت تحكي المعلومات للناس، الشغل كله بروح عالفاضي.
شو يعني؟ هو فن دمج الرسمات مع الحكي (Narratives) والسياق عشان تفسر "شو المعنى؟" و "ليش هاض مهم؟".
القاعدة الذهبية: الـ EDA هو اللي بكتشف المعلومة، والـ Storytelling هو اللي "ببيعها" وبشرحها للبشر.