Exploratory Data Analysis (EDA) | استكشاف وتحليل البيانات
هو إننا نمثل الداتا بالصور والرسومات البيانية عشان نساعد عيونا "صيد" الأنماط والعلاقات اللي الأرقام الصماء بتخفيها عنا.
head() و tail() عشان نشوف أول وآخر كم سطر.shape عشان نعرف كم سطر وعمود عنا.info() عشان نعرف أنواع البيانات وهل في إشي ناقص.
df.describe() ببساطة عشان تعطينا كل الحفلة هاي بمرة وحدة.
دائماً اسأل حالك: "هل الرسمة واضحة لصاحب الشغل؟". إذا الرسمة معقدة بزيادة، ارجع للأبسط. الهدف هو المعلومة مش الاستعراض بمنظر الرسمة.
df["salary"].hist() plt.show()
الهيستوغرام بيفرجينا "صورة" حية لتكرار الأرقام، فإذا شفت عمود طويل جداً مقارنة بالباقي، اعرف إنه في تركز كبير للبيانات في هذيك المنطقة.
بخلينا نشوف "شكل" التوزيع ونقارن بين مجموعات مختلفة بسهولة تامة.
ليه بنحبه؟ لأنه بصيد الـ Multimodal داتا (لما يكون في قمتين للداتا) بكل بساطة.
مفيد جداً لما يكون عندك داتا ضخمة وبدك تبلش فيها رحلة الاستكشاف.
بس تذكر: إذا الفئات كثيرة، بصير المنظر معجق وصعب القراءة، فالأفضل نستخدمه لفئات قليلة.