تحليل البيانات الاستكشافية | Exploratory Data Analysis

شرح تحليل البيانات الإستكشافية وكيفية الإستفادة منه

 زيادة نشاط المستخدم على الإنترنت، والأدوات المتطورة لمراقبة حركة المرور على الويب، وانتشار الهواتف الذكية، والأجهزة التي تدعم الإنترنت، وأجهزة استشعار إنترنت الأشياء هي العوامل الرئيسية التي تسرع معدل توليد البيانات في عالم اليوم.


في هذا العصر الرقمي تدرك المنظمات من جميع الأحجام أن البيانات يمكن أن تلعب دورا حيويا في تحسين كفاءتها وإنتاجيتها وقدراتها على صنع القرار، مما يؤدي إلى زيادة المبيعات والإيرادات والأرباح.


تحليل البيانات الاستكشافية | Exploratory Data Analysis


في هذه الأيام، يمكن لمعظم الشركات الوصول إلى مجموعات بيانات واسعة، ولكن مجرد الحصول على كميات هائلة من البيانات لا يضيف قيمة كبيرة إلى الأعمال التجارية ما لم تحلل المؤسسات المعلومات المتاحة وتدفع النمو التنظيمي.


لحسن الحظ، فإن ظهور أنظمة الكمبيوتر القوية والتقنيات التحليلية المبتكرة يمكن المزيد والمزيد من الشركات من تحليل البيانات بفعالية، وتمكينها من استخراج رؤى قابلة للتنفيذ من نقاط بيانات متنوعة.


اليوم، لم يعد تحليل البيانات الضخمة جانبا فرعيا لوضع الخطط التشغيلية الاستراتيجية، بدلا من ذلك فإنها تكتسب أرضية بشكل متزايد باعتبارها واحدة من أهم العناصر في تحسين العمليات التجارية الأساسية.


وفقا لدراسة استقصائية يعتقد 97.44 في المائة من 347 شركة أن تحليلات البيانات الضخمة هي المفتاح لتحسين أدائها التنظيمي، كشفت دراسة أخرى أجرتها Tag Innovation Schoo أن أكثر من 50 في المائة من 550 مؤسسة صغيرة ومتوسطة الحجم شملها الاستطلاع أعربت عن اهتمامها بتوظيف محللي البيانات.


يؤدي الاعتماد المتزايد لتحليلات البيانات إلى ارتفاع الطلب على المتخصصين في التحليلات إلى مستوى قياسي، ومن المثير للاهتمام أن الطلب لا يقتصر فقط على الشركات الناشئة وعمالقة تكنولوجيا المعلومات، يجد محللو البيانات المهرة ملتقطين عبر قطاعات الصناعة، من وسائل الإعلام إلى الرياضة، والأزياء إلى الألعاب، والنقل، وتجارة التجزئة، والتصنيع.


يتوقع المنتدى الاقتصادي العالمي أنه بحلول عام 2025، ستصبح تحليلات البيانات الوظيفة الأكثر طلبا في جميع أنحاء العالم، وعلى نفس المنوال تدعي IBM أن الطلب المتزايد على المتخصصين في البيانات سيخلق 700,000 فرصة عمل جديدة بحلول عام 2025 ، في الولايات المتحدة أفاد مكتب إحصاءات العمل أنه بحلول عام 2026، سيكون هناك 11.5 مليون توظيف جديد.


على الرغم من الانكماش الاقتصادي الحالي المتأثر بأزمة وباء كوفيد-19، تقدم البيانات المذكورة أعلاه سيناريو متفائلا للأفراد الذين يسعون إلى ممارسة مهنة في قطاع تحليل البيانات، في هذه المقالة سنستكشف نظرة شاملة لتحليل البيانات الاستكشافية (EDA)، وطرق إجراء تحليل البيانات الاستكشافية، والتقنيات المعنية، والمهارات التي تحتاجها لبناء أو تعزيز حياتك المهنية في علم البيانات بمهارات EDA.


كيف يمكننا تعريف تحليل البيانات


يتضمن تحليل البيانات عملية تطهير مجموعات البيانات الكبيرة وتحليلها وتحويلها والجمع بينها ونمذجتها للكشف عن المعلومات المفيدة ذات الصلة التي تمكن من اتخاذ القرارات العلمية في الوقت الفعلي.


يتميز تحليل البيانات بمجموعة واسعة من الأساليب والجوانب والتقنيات تحت أسماء مختلفة، مثل التحليل التوجيهي والتحليل التنبؤي والتحليل التشخيصي والتحليل الإحصائي وتحليل النصوص.


في التطبيقات الإحصائية، يتضمن تحليل البيانات مفهومين رئيسيين - CDA (تحليل البيانات التأكيدية) و EDA (تحليل البيانات الاستكشافية)، بينما تؤكد هيئة تنمية المجتمع على تزوير أو تأكيد الفرضيات الحالية، فإن تحليل البيانات الاستكشافية تركز على استكشاف وتحديد ميزات البيانات الجديدة.


أساسيات تحليل البيانات الاستكشافية


يقوم علماء البيانات بتنفيذ أدوات وتقنيات تحليل البيانات الاستكشافية للتحقيق في الخصائص الرئيسية لمجموعات البيانات وتحليلها وتلخيصها، وغالبا ما تستخدم منهجيات تصور البيانات.


تسمح تقنيات EDA بالتلاعب الفعال بمصادر البيانات، مما يمكن علماء البيانات من العثور على الإجابات التي يحتاجونها من خلال اكتشاف أنماط البيانات أو اكتشاف الحالات الشاذة أو التحقق من الافتراضات أو اختبار فرضية.


يستخدم أخصائيو البيانات في المقام الأول تحليل البيانات الاستكشافية لتمييز مجموعات البيانات التي يمكن أن تكشف عنها إلى أبعد من النمذجة الرسمية لمهام اختبار البيانات أو الفرضيات، هذا يمكنهم من اكتساب معرفة متعمقة بالمتغيرات في مجموعات البيانات وعلاقاتها.


يمكن أن يساعد تحليل البيانات الاستكشافية في اكتشاف الأخطاء الواضحة، وتحديد القيم المتطرفة في مجموعات البيانات، وفهم العلاقات، وكشف العوامل المهمة، والعثور على أنماط داخل البيانات، وتقديم رؤى جديدة.


تم تطويره في السبعينيات من قبل الإحصائي الأمريكي "John Tukey" المشهور بتقنيات مؤامرة الصندوق وخوارزمية Fast Fourier Transform، لا تزال EDA تجد أهمية حتى اليوم في مجال التحليل الإحصائي، إنه يسمح لمهنيي البيانات بتحقيق نتائج ذات صلة وصحيحة تدفع أهداف العمل المرجوة.


أمثلة على تحليل البيانات الاستكشافية


إليك بعض الأمثلة علي تحليل البيانات الاستكشافية


1. تجربة سريرية

نشرت المجلة العلمية المفتوحة التي استعرضها النظراء PLoS ONE دراسة جماعية سريرية استخدم فيها الباحثون تحليل البيانات الاستكشافية لتحديد القيم المتطرفة في مجموعة المرضى والتحقق من تجانسها.


صنف العلماء المرضى المشاركين في الدراسة إلى أربعين سمة، بما في ذلك العمر والجنس، ساعدتهم تحليل البيانات الاستكشافية على تحديد أن المجموعات النسائية في الدراسة كانت أكثر تجانسا من نظرائهم الذكور، دفع هذا الباحثين إلى إجراء اختبارات طبية منفصلة لمجموعات الذكور لتجنب النتائج الخاطئة في التجربة السريرية.


2. التجزئة

على سبيل المثال، يبيع متجر على الإنترنت أنواعا مختلفة من الأحذية، مثل الصنادل والأحذية الرياضية والأحذية الرسمية وأحذية المشي لمسافات طويلة والأحذية الرسمية.


يمكن لتحليل البيانات الاستكشافية أن يمكن المحللين من تمثيل اتجاهات المبيعات المختلفة بيانيا وتصور البيانات المتعلقة بفئات المنتجات الأكثر مبيعا، والديموغرافيات المشتري وتفضيلاته، وأنماط إنفاق العملاء، والوحدات المباعة خلال فترة معينة.


كيفية إجراء تحليل البيانات الاستكشافية؟


يقوم أخصائيو البيانات بإجراء تحليل البيانات الاستكشافي باستخدام لغات البرمجة النصية الشائعة للإحصاءات مثل Python و R، من أجل EDA الفعالة يستخدم محترفو البيانات أيضا مجموعة متنوعة من أدوات BI (ذكاء الأعمال) بما في ذلك Qlik Sense و IBM Cognos و Tableau.


تمكن لغات برمجة Python و R المحللين من تحليل البيانات بشكل أفضل والتلاعب بها باستخدام المكتبات والحزم مثل Plotly أو Seaborn أو Matplotlib.


توفر أدوات ذكاء الأعمال التي تتضمن لوحات معلومات تفاعلية وأمانا قويا وميزات تصور متقدمة، لمعالجات البيانات رؤية شاملة للبيانات تساعدهم على تطوير نماذج التعلم الآلي (ML).


تشمل خطوات تحليل البيانات الاستكشافية التي يضعها المحللون في الاعتبار عند إجراء EDA ما يلي:


  1. طرح الأسئلة الصحيحة المتعلقة بغرض تحليل البيانات.
  2. الحصول على معرفة متعمقة حول مجالات المشاكل.
  3. وضع أهداف واضحة تتماشى مع النتائج المرجوة.

تقنيات تحليل البيانات الاستكشافية


هناك أربع تقنيات استكشافية لتحليل البيانات يستخدمها خبراء البيانات، والتي تشمل:


1. أحادي المتغير غير رسومي

هذا هو أبسط نوع من تحليل البيانات الاستكشافية حيث تحتوي البيانات على متغير واحد، نظرا لوجود متغير واحد فقط لا يتعين على محترفي البيانات التعامل مع العلاقات.


2. رسوم بيانية أحادية المتغير

لا تقدم التقنيات غير الرسومية الصورة الكاملة للبيانات، لذلك من أجل تحليل البيانات الاستكشافية الشاملة ينفذ أخصائيو البيانات أساليب رسومية، مثل المخططات الجذعية والأوراق، ومخططات الصناديق، والرسوم البيانية.


3. متعدد المتغيرات غير رسومية

تتكون البيانات متعددة المتغيرات من عدة متغيرات، توضح طرق EDA متعددة المتغيرات غير الرسومية العلاقات بين متغيرين أو أكثر من متغيرات البيانات باستخدام الإحصاءات أو التبويب المتقاطع.


4. رسوم بيانية متعددة المتغيرات

تستخدم تقنية EDA هذه الرسومات لإظهار العلاقات بين 2 أو أكثر من مجموعات البيانات، تشمل الرسومات متعددة المتغيرات المستخدمة على نطاق واسع الرسم البياني الشريطي، والتخطيط الشريطية، والخريطة الحرارية، والمخطط الفقاعي، ومخطط التشغيل، والمخطط متعدد المتغيرات، ومخطط التشتت.


الطريق إلى الأمام مع تحليل البيانات الاستكشافية


من الواضح أن تحليل البيانات الاستكشافية هو أحد أهم الخطوات خلال عملية استخراج الأفكار من البيانات بأكملها، حتى قبل بدء التحليل أو النمذجة الفعلية، لذلك بالنسبة للمنظمات التي ترغب في تسخير قوة البيانات حقا فإن وضع نقاط قوتها والتركيز على مرحلة تحليل البيانات الاستكشافية يمكن أن يساعدها على وضع أساس متين لجهودها التحليلية الشاملة، من أجل التفوق في هذه المرحلة يحتاجون إلى توظيف متخصصين في البيانات مهرة في التصور والتعرف على الأنماط وإنشاء الخرائط والمفاهيم الأساسية الأخرى للتحليل الاستكشافي إلى جانب مهارات محلل البيانات الرئيسية.


لتطوير المهارات الحيوية المتعلقة بالأدوات والأساليب والتقنيات ولغات البرمجة الشائعة الاستخدام لتحليل البيانات الاستكشافية، يجب على محللي البيانات الطموحين النظر في متابعة برنامج شامل في تحليلات البيانات من مؤسسة تعليمية عالمية المستوى.

إرسال تعليق