علم البيانات: تحويل الأخطاء إلى فرص

رؤى متميزة حول كيفية تحويل الأخطاء في علم البيانات إلى فرص مبتكرة ومفيدة، مما يسهم في تعزيز الفهم وتحسين الأداء بشكل استراتيجي وفعال.

 يمكن لمبادرات التحليلات المدارة جيدا أن تجني الذهب التنظيمي، لكن اذا استسلمت لأحد هذه الأخطاء الشائعة يمكن أن تسوء عمليات علم البيانات الخاصة بك بسرعة.



الذكاء الاصطناعي و التعلم الآلي و التحليلات ليست مجرد أحدث الكلمات الطنانة؛ تتطلع المنظمات الكبيرة والصغيرة إلى أدوات وخدمات الذكاء الاصطناعي على أمل تحسين العمليات التجارية ودعم العملاء واتخاذ القرارات باستخدام البيانات الضخمة و التحليلات التنبؤية والأنظمة الحسابية الآلية، تتوقع IDC أن 75 في المائة من مطوري المؤسسات و ISV سيستخدمون الذكاء الاصطناعي أو التعلم الآلي في واحد على الأقل من تطبيقاتهم علي المدي القصير.


علم البيانات: تحويل الأخطاء إلى فرص
الأخطاء الشائعة في علم البيانات 


لكن الخبرة في علم البيانات ليست واسعة الانتشار مثل الاهتمام باستخدام البيانات لاتخاذ القرارات وتحسين النتائج، إذا كان عملك قد بدأ للتو في علم البيانات، فإليك بعض الأخطاء الشائعة التي سترغب في تجنب ارتكابها.


1. افتراض أن بياناتك جاهزة للاستخدام وكل ما تحتاجه


تحتاج إلى التحقق من جودة وحجم البيانات التي جمعتها وتخطط لاستخدامها، يقول جوناثان أورتيز عالم البيانات ومهندس المعرفة في data.world: "سيتم قضاء معظم وقتك، في كثير من الأحيان 80 في المائة من وقتك، في الحصول على البيانات وتنظيفها، هذا على افتراض أنك تتبع حتى ما تحتاج إلى تتبعه لعالم البيانات للقيام بعمله."


إذا كنت تتبع البيانات الصحيحة، فقد لا تقوم بتسجيلها بشكل صحيح، أو قد تكون الطريقة التي تسجلها بها قد تغيرت بمرور الوقت، أو ربما تغيرت الأنظمة التي جمعتها منها أثناء جمع البيانات، يحذر أورتيز من أنه "إذا كانت هناك تغييرات تدريجية من شهر إلى آخر، فلا يمكنك استخدام هذا الشهر بأكمله من البيانات عند إجراء تحليل أو بناء نموذج"، لأن النظام نفسه قد تغير.


يوضح جون شتاينرت، كبير مسؤولي التسويق في TechTarget، أنه حتى لو كنت تجمع البيانات الصحيحة، فإن أحجام البيانات المنخفضة والأعداد الكبيرة من المتغيرات المستقلة تجعل من الصعب إنشاء نماذج تنبؤية لمجالات الأعمال مثل التسويق والمبيعات بين الشركات، يصبح علم البيانات أفضل وأفضل كلما زادت البيانات لديك؛ النماذج التنبؤية أكثر قوة كلما زادت البيانات لديك، نظرا لأن معدلات المعاملات منخفضة والمتغيرات المستقلة التي تؤثر على المعاملات كثيرة، فل لديك مجموعات بيانات صغيرة وتفاعلات معقدة وهذه تضعف قوة النماذج التنبؤية.


أحد الخيارات هو شراء مجموعات البيانات مثل بيانات نية الشراء، طالما يمكنك العثور على واحدة تنطبق على قطاع عملك، امر آخر هو محاكاة البيانات، ولكن يجب القيام بذلك بعناية، كما يحذر شينتان شاه كبير علماء البيانات الاستشاريين في Avanade قائلا : في الواقع، قد لا تتصرف البيانات وفقا للافتراض الذي قمت به في البداية".


2. عدم استكشاف مجموعة البيانات الخاصة بك قبل بدء العمل


قد يكون لديك نظريات والحدس حول ما ستظهره مجموعة البيانات الخاصة بك، ولكن يجب أن تأخذ فرق البيانات الوقت الكافي للنظر في البيانات بالتفصيل قبل استخدامها لتدريب نموذج البيانات.


يقول أورتيز: إذا رأيت شيئا غير بديهي، فمن الممكن أن تكون افتراضاتك غير صحيحة أو أن البيانات صحيحة، أهم شيء تفعله هو ببساطة النظر إلى البيانات ورسمها وإجراء تحليل استكشافي، يمر الكثير من الناس بذلك بسرعة كبيرة أو يتجاوزونه تماما ولكن عليك أن تفهم كيف تبدو البيانات، يمكنك التأكد مما إذا كانت البيانات تخبرك بالقصة المناسبة استنادا إلى الخبرة الموضوعية والفطنة التجارية بسرعة أكبر من خلال القيام ببعض الاستكشافات مسبقا.


3. توقع الكثير من الأشياء


يحذر شاه من أن الضجة حول الذكاء الاصطناعي قد أقنع الكثير من الناس بأنه إذا رمينا البيانات في خوارزمية كمبيوتر، فإنها ستكتشف كل شيء بمفردها، على الرغم من أن الشركات لديها الكثير من البيانات، إلا أن الخبرة البشرية لا تزال مطلوبة لجلب البيانات إلى تنسيق قابل للاستخدام.


يشير شتاينرت إلى أن النظر فقط إلى ما فعلته شركتك من قبل لن يكشف عن فرص جديدة، فقط طرق لتكون أكثر كفاءة في نفس الأشياء التي قمت بها بالفعل، يقول شتاينرت: كلما استخدمت الماضي كمؤشر وحيد للمستقبل، كلما قلت انفتاحك للبحث عن طرق جديدة، حتى لو أحضرت بيانات الجهات الخارجية للعثور على الطلب على منتجاتك أو خدماتك، فهذا لا يضمن أنك ستتمكن من إجراء تلك المبيعات، ويضيف يمكن لنموذج البيانات أن يخبرك أن الشركة تتطابق بشكل جيد مع ما تقدمه ولكن لا يمكنه إخبارك بما إذا كانت تلك الشركة بحاجة إليها الآن.


يقول أورتيز: بدأ الناس في الاستثمار والثقة في علماء البيانات بطرق لم يضعوا ثقتهم في مجالات مختلفة من قبل، وهم يلقون الموارد عليهم ويتوقعون رصاصة فضية للإجابة على جميع أسئلتهم هناك الكثير من الإيمان الذي يتم وضعه في هذه النظرة الرومانسية الآن لعلماء البيانات واستخدام البيانات للإجابة على الأسئلة ودفع القرارات.


يقترح أورتيز أن يثبت علماء البيانات أنهم يستطيعون تقديمها من خلال البدء بمشاريع صغيرة وانتصارات سريعة لإظهار القيمة للمنظمة.


4. عدم استخدام مجموعة تحكم لاختبار نموذج البيانات الجديد الخاص بك أثناء العمل


إذا كنت قد قضيت الوقت والمال في بناء نموذج بيانات، فأنت تريد استخدامه في كل مكان يمكنك فيه تحقيق أقصى استفادة من استثمارك، ولكن إذا فعلت ذلك فلا يمكنك قياس مدى نجاح النموذج في الواقع، من ناحية أخرى إذا كان المستخدمون لا يثقون في النموذج، فقد لا يستخدمونه ثم لا يمكنك اختباره كما يقول شتاينرت، ويضيف شتاينرت برنامج إدارة التغيير لضمان اعتماد النموذج، ومجموعة مراقبة لا تستخدمها، لديك مجموعة عشوائية تسعى وراء الفرص التي يحددها النموذج، ومجموعة مراقبة، تابع الأشياء بالطريقة التي يتم القيام بها دائما، وتمكين الذات، تجريبيا.


5. البدء بالأهداف بدلا من الفرضيات


من المغري البحث عن نموذج بيانات يمكن أن يقدم تحسينات محددة، مثل إغلاق 80 في المائة من حالات دعم العملاء في غضون 48 ساعة أو الفوز بمزيد من الأعمال التجارية بنسبة 10 في المائة في الربع، ولكن هذه المقاييس ليست كافية للعمل منها.


يقول أورتيز: من الأفضل أن تبدأ بفرضية عندما تستطيع، غالبا ما يكون هناك منحنى أو خط تنظر إليه كمقياس عام وتريد نقل ذلك؛ يمكن أن يكون ذلك هدفا تجاريا رائعا ولكن من الصعب تخيل الرافعات التي تحتاج إلى سحبها للقيام بذلك، اختبر فرضيتك حول ما سيحسن الأشياء، إما مع مجموعة تحكم أو عن طريق استكشاف البيانات.


إذا كان بإمكانك إجراء اختبار حيث يكون لديك اختبار منقسم مع مجموعة تحكم وكلاهما عينات تمثيلية، فيمكنك في الواقع التأكد مما إذا كانت الطريقة التي تستخدمها قد أثرت بالفعل على ما تريد أن تؤثر عليه، إذا كنت تنظر فقط إلى البيانات بعد الحقيقة، فإن البدء بالفرضية يمكن أن يساعد في تضييق النطاق.


تحتاج  إلى زيادة هذا المقياس بنسبة 10 في المائة، ما هي فرضياتك لما قد يؤثر على ذلك و ثم يمكنك القيام بتحليل البيانات الاستكشافية لتتبع فقط تلك الموجودة في البيانات، يمكن أن يساعد الحصول على وضوح الشمس على السؤال الذي تطرحه والفرضية التي تختبرها في تقليل مقدار الوقت الذي تقضيه فيه.


6. السماح لنموذج البيانات الخاص بك بالتوقف


إذا كان لديك نموذج بيانات يعمل بشكل جيد لمشكلتك، فقد تعتقد أنه يمكنك الاستمرار في استخدامه إلى الأبد، ولكن النماذج تحتاج إلى تحديث وقد تحتاج إلى إنشاء نماذج إضافية مع مرور الوقت.


يحذر أورتيز من أن الميزات ستتغير بمرور الوقت، وستحتاج باستمرار إلى فهم الصلاحية وتحديث نموذجك.


هناك الكثير من الأسباب التي تجعل النماذج قديمة؛ العالم يتغير وكذلك شركتك، خاصة إذا ثبت أن النموذج مفيد، يشير شتاينرت إلى أنه لا ينبغي النظر إلى النماذج على أنها ثابتة؛ السوق بالتأكيد ليست ثابتة، إذا كانت تفضيلات السوق تتطور بعيدا عن تاريخك، فإن تاريخك سيضعك على مسار متباين، أداء النموذج يتحلل، أو تتعلم المنافسة من نشاط شركتك في السوق، احتفظ بمجموعة من التجارب التي تقول كيف سأضيف إلى النموذج بمرور الوقت؟، يجب أن يكون لديك مجموعة من التجارب التي ستظهر فرصا جديدة للتمييز.


7. التشغيل الآلي دون مراقبة النتيجة النهائية


النصف الآخر من استخدام مجموعة التحكم هو قياس مدى جودة إخراج النموذج، وتحتاج إلى تتبع ذلك على طول الطريق من خلال عملياتك، أو ينتهي بك الأمر إلى التحسين للهدف الخاطئ.


يشير شتاينرت إلى أن الشركات تقوم بأشياء مثل تطبيق روبوت على خدمة الهاتف الخاصة بك ولا تتحقق باستمرار مما إذا كان الروبوت يؤدي إلى مزيد من رضا العملاء، بل تهنئ نفسك فقط على استخدام عمالة أقل، إذا كان العملاء يغلقون حالات الدعم لأن الروبوت لا يستطيع إعطائهم الإجابة الصحيحة وليس لأنه حل مشكلتهم، فإن رضا العملاء سينخفض بشكل كبير.


8. نسيان خبراء الأعمال التجارية


من الخطأ الاعتقاد بأن جميع الإجابات التي تحتاجها موجودة في البيانات ويمكن للمطور أو عالم البيانات العثور عليها بمفرده، تأكد من وجود شخص يفهم مشكلة العمل.


في حين أن عالم البيانات المطلع والخبير سيكون قادرا على معرفة المشكلة المطروحة في نهاية المطاف، سيكون من الأسهل بكثير إذا كان علماء الأعمال والبيانات على نفس الصفحة، يكمن نجاح أي خوارزمية لعلوم البيانات في هندسة الميزات الناجحة، لاستخلاص ميزات أفضل يضيف خبير الموضوع دائما قيمة أكبر من خوارزمية خيالية.


ابدأ المشاريع من خلال إجراء محادثة بين فريق البيانات وأصحاب المصلحة في الأعمال للتأكد من أن الجميع واضحون بشأن ما يحاول المشروع تحقيقه، حتى قبل النظر إلى البيانات، من ثم يمكنك إجراء تحليل البيانات الاستكشافية لمعرفة ما إذا كان بإمكانك تحقيق ذلك، وإذا لم يكن الأمر كذلك، فقد تضطر إلى العودة وإعادة صياغة السؤال بطريقة جديدة أو الحصول على مصدر بيانات مختلف، لكن خبير المجال هو الذي يجب أن يساعد في تحديد الهدف وما إذا كان المشروع يحققه.


9. اختيار أداة معقدة للغاية


إن أحدث تقنيات التعلم الآلي مثيرة ويمكن أن تكون التقنيات الجديدة قوية جدا، ولكنها يمكن أن تكون أيضا مبالغة، قد يتقرر أن طريقة بسيطة مثل الانحدار اللوجستي أو شجرة القرار ستقوم بالعمل.


من المغري إلقاء موارد هائلة من طاقة الكمبيوتر والنماذج المتطورة على المشاكل، ربما تشعر بالفضول الفكري بشأن جانب من جوانب المشروع وتريد اختبار خوارزمية جديدة تماما ستفعل أكثر مما هو مطلوب، أو تريد فقط تجربتها، تتمثل المهمة في إيجاد نهج بسيط يجيب على السؤال، يجب استنفاد أبسط الطرق قبل الانتقال إلى خيارات أكثر تطورا، كما أن الإفراط في الملاءمة من المرجح أن يحدث مع خوارزميات متطورة مثل التعلم العميق، تحصل على نموذج دقيق للغاية على البيانات التي لديك حاليا ولا يعمل بشكل جيد على الإطلاق مع المعلومات الجديدة.


إن العمل مع خبير الأعمال لتحديد السؤال الذي يحتاج إلى إجابة يجب أن يوجه اختيارك للتقنيات، يركز الكثير من علماء البيانات على التعلم الآلي ويركز الكثير من التعلم الآلي على التنبؤ ولكن ليس كل سؤال تجيب عليه سيكون سؤالا تنبؤيا، نحن بحاجة إلى النظر إلى المبيعات من الربع الأخير، يمكن أن يعني الكثير من الأشياء المختلفة، هل نحتاج إلى التنبؤ بمبلغ المبيعات للعملاء الجدد أو ربما تحتاج فقط إلى معرفة سبب توقف المبيعات في أسبوع معين من الربع الأخير.


10. إعادة استخدام التطبيقات التي لا تناسب مشكلتك


هناك الكثير من أمثلة علوم البيانات والتعلم الآلي التي يمكنك التعلم منها والتكيف معها، أحد الأسباب الكامنة وراء النمو الأسي في علم البيانات هو توافر تنفيذ المصدر المفتوح لجميع الخوارزميات تقريبا، مما يجعل من السهل تطوير نموذج أولي سريع، ولكن غالبا ما يتم تطوير هذه التطبيقات لحالات استخدام محددة، إذا كان ما تحتاجه من النظام مختلفا، فمن الأفضل بناء نسختك الخاصة، ويكون من الافضل تنفيذ تنظيف البيانات الخاص بك وميزة إجراءات البناء، إنه يمنحك المزيد من التحكم.


11. سوء فهم الأساسيات مثل السببية والتحقق المتبادل


يساعدك التحقق المتبادل على تقدير دقة نموذج التنبؤ عندما لا يكون لديك بيانات كافية لمجموعة تدريب منفصلة، للتحقق من الصحة المتقاطعة يمكنك تقسيم البيانات التي تم إعدادها عدة مرات، باستخدام أجزاء مختلفة للتدريب ثم اختبار النموذج في كل مرة، لمعرفة ما إذا كنت تحصل على نفس الدقة بغض النظر عن المجموعة الفرعية من بياناتك التي تتدرب عليها، ولكن لا يمكنك استخدام ذلك لإثبات أن نموذجك دائما دقيق مثل درجة التحقق المتبادل.


النموذج القابل للتعميم هو النموذج الذي يتفاعل بطريقة دقيقة مع البيانات الواردة الجديدة ولكن التحقق من الصحة المتقاطع لا يمكن أبدا إثبات ذلك، نظرا لأنه يستخدم فقط البيانات التي لديك بالفعل، فإنه يظهر فقط أن نموذجك دقيق قدر الإمكان لتلك البيانات.


تماما كما هو الحال في الأساس فإن الارتباط ليس سببا؛ يشير إلى أن رؤية شيئين مرتبطين لا يعني أن أحدهما يؤثر على الآخر، تحقق من الارتباطات الزائفة لبعض الارتباطات المسلية للبيانات غير المتصلة، سيعطيك التآمر الاستكشافي الذي تقوم به مع مجموعة البيانات الخاصة بك إحساسا بما يمكن التنبؤ به وقيم البيانات التي هي ارتباطات لا تخبرك بأي شيء.


إذا كنت تتبع سلوك العملاء على موقع التجارة الإلكترونية الخاص بك للتنبؤ بالعملاء الذين سيعودون ومتى، فإن تسجيل دخولهم لا يخبرك بأي شيء لأنهم عادوا بالفعل إلى موقعك للقيام بذلك، سيكون تسجيل الدخول مرتبطا ارتباطا وثيقا بالعودة ولكن سيكون من الخطأ دمج ذلك في النموذج.


12. التقليل من شأن ما يمكن للمستخدمين فهمه


يشير أورتيز إلى أن مستخدمي الأعمال قد لا يكونون قادرين على إجراء التحليل الإحصائي بأنفسهم، ولكن هذا لا يعني أنهم لا يفهمون هوامش الخطأ أو الأهمية الإحصائية والصلاحية.


في كثير من الأحيان عندما يذهب التحليل إلى فرق الأعمال، سينتهي به الأمر إلى شريحة واحدة فقط برقم واحد فقط، سواء كان رقم دقة أو تقدير أو تنبؤ أو توقعات؛ ولكن هامش الخطأ مهم جدا عند تقديم تلك القيمة الواحدة.


إذا تم اتخاذ قرارات العمل على أساس تحليل البيانات، فوضح مقدار الثقة التي يجب وضعها في النتيجة أو أن صناع القرار سيجدون صعوبة في الوثوق بالنظام، ولا تفترض أنهم ليسوا متطورين تقنيا بما يكفي لفهم ذلك.



إرسال تعليق