عشان نطلع داتا "بتشرح الصدر"، لازم نمر بهي الخطوات الثمانية:
1. Data Cleaning: تنظيف "الضجيج" والأخطاء الواضحة من الداتا ست.
2. Handling Missing Values: شو نعمل بالخانات الفاضية؟ نعبيها
ولا نحذفها؟
3. Handling Outliers: التعامل مع "القيم الشاذة" (زي واحد عمره
200 سنة) اللي بتخرب الحسابات.
4. Data Transformation: تحويل شكل الداتا (زي الـ Log transform)
لتناسب الموديل أكثر.
5. Data Encoding: تحويل النصوص (Categorical Data) لأرقام
بيفهمها الكمبيوتر.
6. Feature Scaling: توحيد المقاييس عشان ما في ميزة "تفرعن" على
الثانية بس لأن أرقامها كبيرة.
7. Data Reduction: إذا الداتا ضخمة بزيادة، بنحاول نختصرها بدون
ما نفقد المعلومات المهمة.
8. Train-Test Split: التقسيم الأخير، جزء للتدريب وجزء عشان
نمتحن الموديل فيه.