crossorigin="anonymous">
31 أغسطس , 2018 ندى محمود
ما هي البيانات الجيدة والبيانات السيئة؟ نصائح لصنّاع الحلول الذكية..
الملخص:
هناك حاجة إلى البيانات لقياس كفاءة استراتيجيات الأعمال ورسم الأفكار وأيضا لتدريب خوارزميات التعلم الآلي. الحصول على البيانات لا يمثل مشكلة بالنسبة للشركات، لكن تحتوي هذه البيانات على الكثير من الحقول المفقودة أو التكرارات، يناقش المقال الطرق الصحيحة لاستخلاص البيانات وكيف يمكنك الاستفادة منها.
البيانات هي واحدة من أهم الأصول الاستراتيجية للشركات الناشئة والتي تعتمد على البيانات وأنظمة الذكاء الاصطناعي في اقتصادها، هناك حاجة إلى البيانات لقياس كفاءة استراتيجيات الأعمال ورسم الأفكار من عملياتها ولكن أيضا لتدريب خوارزميات التعلم الآلي. الحصول على البيانات لا يمثل مشكلة بالنسبة للشركات، لكن السؤال هو هل يمكن أن يحصلوا على النوع المناسب من البيانات وهل يمكنهم أن يوفروا لأنفسهم ميزة تنافسية مرغوبة.
العديد من الشركات لا تدرك أنها تجلس على كومة من البيانات السيئة أو القذرة، تحتوي هذه البيانات على الكثير من الحقول المفقودة أو تحتوي على تنسيق خاطئ أو العديد من التكرارات أو هي ببساطة معلومات غير ذات صلة. وقد قدّر بحث IBM أن التكلفة السنوية للبيانات السيئة بالنسبة للاقتصاد الأمريكي تبلغ 3.6 تريليون دولار. ومع ذلك فإن العديد من المديرين يثقون بأنهم يجلسون على منجم ذهب من البيانات بينما في الواقع ليس لديهم أي شيء ذي قيمة.
لقد أجريت مقابلة مع سيرجي زلفينسكي وهو مهندس متمرس في مجال تعلم الآلة في ServiceChannel، حيث يقوم بإتمام عمليات إدارة المرافق باستخدام الذكاء الاصطناعي، وتحدثنا عن المفاهيم الخاطئة الشائعة عندما يتعلق الأمر بانقسام البيانات الجيدة والسيئة وما ينبغي أن تركز عليه الشركات عند بناء منتجات الذكاء الاصطناعي.
وكما يقول زيلفينسكي “قد لا تكون البيانات التي لدى الشركات سيئة بالضرورة فمن المحتمل أن تكون غير كاملة لحل المشكلة، النظام الأصلي عادة ما يتم بناؤه لجمع البيانات المطلوبة من أجل الإنسان وقد يتطلب نقلها إلى حل يعتمد على الذكاء الاصطناعي ملئ الثغرات فقط، بينما يستطيع الإنسان تقييم هذه المشكلات بسرعة وإصلاح المشكلة في حين يحتاج النظام الآلي إلى طرق آلية لتدقيق البيانات”.
التركيز على المنتج
يجب أن يبدأ العثور على بيانات جيدة بمنتج بحد ذاته، للحصول على بيانات جيدة يجب على الشركات تصميم منتجات توفر الحافز المناسب للمستخدمين للإسهام ببياناتهم فالاستخدام الجيد وتجربة المستخدم ستشجع المستخدمين على المساهمة بالمعلومات القيمة.
يمكنك دائماً السعي لتحقيق نموذج يتركز حول المستخدم حيث يتعين على المستخدمين التخلي عن بياناتهم من أجل استخدام مميزات منتجك، هكذا تحصل Google و Facebook على الكثير من البيانات مقابل خدماتهما. لا يدرك المستخدمون حتى أنهم يقدمون بياناتهم بشكل مطلق ومجاني لتشغيل خوارزميات التعلم الآلي المتقدمة والتحسين المستمر للبرامج.
أفضل طريقة لبناء منتج رائع هي من خلال تقديم تحسينات متكررة أثناء جمع البيانات التي توجد حاجة إليها، وكما يقول زيلفينسكي “يمكنك أن ترى هذا مع تطوير أمازون لأليكسا، حيث أدرك الفريق الفرق بين التعرف العام على الكلام والقدرة على التعرف على مجموعة بسيطة من الأوامر المحددة مسبقاً. في حين كافحت العديد من الشركات الأخرى للاعتماد على الكلام العام والقدرة على الحفاظ على المحادثة، بينما ركز فريق أليكسا على مجموعة بسيطة من الأوامر والحوارات النصية القصيرة”.
قام فريق أليكسا بذلك عن طريق توفير حل بسيط للغاية بسعر منخفض واحتلال السوق، فمن يركز على الاستخدام البسيط ويتقنه سيفوز في نهاية المطاف.
استهداف الأنواع الصحيحة من البيانات
لنأخذ على سبيل المثال شركة تريد بناء روبوت يضع كتب المكتبة تلقائياً على الرفوف، سيحتوي الروبوت على الكثير من البيانات حول محتوى الكتاب الفعلي فهو يعرف أسماء المؤلفين والسنة التي تم نشر الكتاب فيها ولكن في الواقع هذه البيانات ليست كافية لترتيب الكتب. يمكن للروبوت استخدام البيانات الحالية فقط للعثور على الرف المناسب للكتاب، ولكنه لن يتعرف على قياسات الكتاب لذا سيصعب على الروبوت معرفة ما إذا كان الكتاب سيوضع على الرف.
لن تفكر الشركة في جمع هذه المعلومات لأن موظفي المكتبة استطاعوا بسهولة معرفة ما إذا كان الكتاب سيناسب المكان، الآن تحتاج هذه الشركة إلى مجموعة بيانات جديدة تماماً، وهذا يعني أن الشركة يجب أن تجهز روبوتاً بطريقة ما لتقييم قياسات الكتاب وفي حين أن هذا الأمر ليس مستحيلاً، لكن ميزانية المشروع والجدول الزمني سيتغيران.
لهذا السبب يجب عليك دائماً أن تسأل نفسك إذا كان لديك نوع البيانات المناسب والذي يساعد في حل المشكلة.
فهم القيود
في كثير من الأحيان تشعر الشركات أن جميع مهندسي التعلم الآلي لديهم نفس العصا السحرية التي تحل جميع التحديات المتعلقة بالبيانات، ولا يمكن أن يكون هذا أبعد عن الحقيقة فبالعودة إلى مثال المكتبة فإنك تحتاج إلى القدرة على تقييم حجم ووزن الأجسام المادية تلقائياً وإلى مجموعة مختلفة تماماً من المهارات والقدرات. الناس أو الأنظمة الذين يستطيعون تدريب الروبوت للعثور على الرف المناسب مختلفون عن الأشخاص أو الأنظمة القادرة على بناء مهارة قياس ووزن الكتب.
ويجب أن يبدأ هذا النوع من التخطيط في بداية المشروع وليس عندما يتم سحق الروبوت تحت كومة الكتب التي لا تناسب قياسات الرف.
الاستفادة من الخبرات الحالية.
الذكاء الاصطناعي يمكن أن يعمل بشكل أفضل فقط بعد العمل الشاق من قبل فريق المهندسين والخبراء، حيث يحتاج تطوير الحل الذكي إلى مدخلات خبيرة لفهم البيانات الموجودة والمساعدة في تفسيرها ومعرفة المبادئ التي تستخدمها لحل المشكلة.
ومع أن آخر نجاح للعبة AlphaGo Zero التابعة ل DeepMind لم يكن عرضاً للتعبير عن عدم الحاجة إلى خبراء بشريين، فقواعد اللعبة محددة بشكل جيد ولا يمكن كسرها. على الرغم من أن الآلة لم يتم تدريبها من قبل خبراء بشريين فقد تم برمجة قواعد اللعبة في البرنامج نفسه لتتمكن من أن تلعب ضد نفسها لتطوير مهاراتها، وقد أصبح المهندس الذي بنى البرنامج خبيراً في قواعد اللعبة قبل برمجتها حتى.
ووفقاً لزيلفينسكي، “في حالة لعبة AlphaGo Zero لم يكن لدينا خبير متخصص لأن مجال اللعب محدد بشكل جيد بحيث يمكن للمرء أن يتعلم مجموعة كاملة من القواعد في ليلة واحدة. في الحياة الحقيقية لا يمكن للمهندس قضاء ليلة واحدة ويصبح بعدها خبيراً في سلسلة التوريد أو قوانين الخصوصية أو هندسة التوربينات، وبشكل عام يحتاج مشروع الذكاء الاصطناعي إلى مجموعة محددة من القواعد غير القابلة للكسر أو مجموعة بيانات موصوفة، وعادة ما يكون هناك القليل من كليهما، ومعرفة كيفية الجمع بين قطع هذه الأحجية لا تزال تتطلب مشاركة الخبراء”.
وأضاف زيلفينسكي “لا تفهموني خطأ فهناك العديد من قصص النجاح عندما يقوم فريق من المهندسين بحل اللغز من خلال الحصول على مجموعة البيانات الصحيحة وتعلم قواعد اللعبة فقط، ومع ذلك فإننا نتحيز هنا تجاه مهارة البقاء على قيد الحياة”.
إدارة البيانات وإغلاق الحلقة
في يوم من الأيام قد يبدأ تطبيقك في إنشاء كميات كبيرة من البيانات كلما ازدادت شعبيته، لتجنب الوقوع في فوضى البيانات يجب عليك استخدام استراتيجيات تخزين بيانات فعالة من البداية. بغض النظر عن منصة البيانات التي تختارها شركتك يجب أن تضع عملية فعالة لجمع البيانات والتطهير في كل مرحلة من مراحل عملية الحصول على البيانات.
وبمجرد حصولك على منتج جيد وتدفق مستمر للبيانات وبنية تحتية فعالة لإدارة البيانات سيكون من السهل التحقق من البيانات الجيدة. ويمكن الاستفادة من البيانات التي يقدمها مستخدمو منتجك في تحسين منصات الذكاء الاصطناعي ومميزات التطبيق وتشجيع العملاء على المساهمة في المزيد من البيانات الجيدة، سيخلق ذلك نظاماً ذاتي الاستدامة لتوليد البيانات وسيحول شركتك إلى مؤسسة قائمة على البيانات.
ترجمة: أحمد المشتغل.
Twitter: @AhmedHM_
مراجعة: ندى محمود
Twitter: @NaduSid
المصدر:
اشترك في قائمتنا البريدية ليصلك جديد مقالاتنا العلمية وكل ماهو حصري على مجموعة نون العلمية
اترك تعليقاً