الاثنين، 26 أكتوبر 2015

أتمتة عملية تحليل البيانات الكبيرة

أتمتة عملية تحليل البيانات الكبيرة
استطاع نظام آلي يستخدم الخوارزميات بدلا من حدس الإنسان أن يتغلب على 615 من أصل 906 فريق بشري.

لاري هارديستي
معهد ماساتشوستس للتقنية MIT

ترجمة: عبدالرحمن أبوطالب

يتضمن تحليل البيانات الكبيرة Big-data البحث عن أساليب مطمورة لديها القدرة على التنبؤ، لكن اختيار ماهية أو "سمات" البيانات المراد تحليلها يتطلب عادة نوع من الحدس البشري. في قاعدة بيانات تحتوي مثلا على تواريخ بداية ونهاية عدة حملات ترويج مبيعات والارباح الأسبوعية، فإن البيانات الحاسمة قد لا تكون التواريخ نفسها بل الفترات الممتدة بينها، وقد لاتكون إجمالي الربح بل متوسط الربح عبر تلك الفترات.

سعى الباحثون في معهد ماساتشوستس للتقنية MIT لاستبدال العنصر البشري في عملية تحليل البيانات الكبيرة بنظام جديد لايبحث فقط عن أساليب جديدة في التحليل بل أيضا تصميم ملامحه. ولإختبار النموذج الأولي من نظامهم، قام الباحثون بإدراجة في ثلاثة مسابقات علمية تتعلق بالبيانات، بحيث يقوم النظام بمنافسة فرق بشرية في إيجاد أنماط تنبؤية في حزمة غير مألوفة من البيانات. ومن بين 906 فريق شارك في الثلاث مسابقات، أنهت "آلة علم البيانات" الخاصة بالباحثين المنافسة متقدمة على 615 فريق.

في مسابقتين من الثلاث مسابقات، كانت التنبؤات التي أدلت بها آلة علم البيانات دقيقة بدرجة  94% و 96%. في المسابقة الثالثة، كان الرقم أكثر تواضعا وبنسبة 87%. لكن الفرق أن الفريق البشري يستغرق في العادة عدة أشهر شاقة لإنتاج خوارزمية للتنبؤ، في حين تستغرق آلة علم البيانات ما بين ساعتين و 12 ساعة لإنتاج التنبؤات المتعلقة بكل مدخلاتها. "نحن ننظر لآلة علم البيانات على أنها مكمل طبيعي للذكاء البشري"، هكذا يقول ماكس كانتر، الحاصل على الماجستير في علوم الكمبيوتر من معهد ماساتشوستس للتقنية MIT والذي تمثل أطروحته أساس فكرة آلة علم البيانات. ويضيف كانتر "هناك الكثير من البيانات في الخارج تحتاج إلى تحليل. وكل ما يتطلبه الأمر منك الآن هو مجرد الجلوس فقط دون أن تفعل أي شيء، لذا ربما يمكننا التوصل إلى حل سيحملنا على الأقل على المضي قدما فيه".

يحضّر كانتر مع المشرف على أطروحته، كاليان فيراماتشينيني Veeramachaneni، عالم الأبحاث في معهد ماساتشوستس للتقنية MIT ومختبر الذكاء الاصطناعي (CSAIL)، ورقة عمل تصف "آلة علم البيانات" سيقدمها كانتر الاسبوع المقبل في المؤتمر الدولي لمعهد مهندسي الكهرباء والإلكترونيات IEEE حول علم البيانات والتحليل المتقدم.

يشارك فيراماتشينيني في قيادة مجموعة ALFA في مختبر الذكاء الاصطناعي التي تطبق تقنية التعليم الآلي لمشاكل معينة في تحليل البيانات الكبيرة، مثل تحديد قابلية توليد الطاقة في الحقول الزراعية بواسطة الرياح، أو التنبؤ بمن هم الطلاب الذين في خطر الإنسحاب من دورات الدراسة عبر الإنترنت. يقول فيراماتشينيني "ما رصدناه من خلال تجربتنا في حل عدد من مشاكل صناعة علم البيانات يعتبر أحد الخطوات الحاسمة فيما يمكن أن نطلق عليه feature engineering "هندسة السمات". ويضيف "أول شيء يجب عليك القيام به هو تحديد ماهي المتغيرات اللازم استخراجها أو جمعها من قاعدة البيانات، ومن أجل ذلك، عليك أن تأتي بالكثير من الأفكار". على سبيل المثال، في التنبؤ السابق المتعلق بالطلاب المنسحبين، تم إثبات اثنين من المؤشرات الحاسمة وهما: طول الوقت الذي يبدأ فيه الطالب بحل المشاكل قبل الموعد النهائي بالإضافة إلى كم من الوقت يقضيه الطالب على الموقع الإلكتروني للدورة مقارنة بزملاءه في الدراسة.

لم تسجل منصة التعليم الإلكتروني لمعهد MIT أيا من تلك الإحصائيات. لكنها جمعت بيانات يمكن الإستدلال بها. استخدم كانتر و فيراماتشينيني حيلتين في ميزة تصنيع مرشَّح السمات لتحليل البيانات. إحدى هذه الحيل كانت استغلال العلاقات الهيكلية الكامنة في تصميم قاعدة البيانات. تخزّن قواعد البيانات عادة أنواع مختلفة من البيانات في جداول مختلفة، ويتم الإشاراة إلى روابط العلاقات المتبادلة بينها باستخدام معرفات عددية. تتقفى آلة علم البيانات أثر هذه الروابط وتستخدمها كإشارة لبناء السمات. على سبيل المثال، جدول واحد قد يسرد قائمة بمواد التجزئة مع تكاليفها، جدول آخر قد يسرد قائمة تشمل الزبائن والمشتريات. ستبدأ آلة علم البيانات في إستيراد التكاليف من الجدول الأول وإدخالة في الجدول الثاني، بعد ذلك، ستأخذ الآلة تلميح أو إشارة نتيجة ترابط عدة عناصر مختلفة في الجدول الثاني مع نفس رقم طلب الشراء، وتنفذ مجموعة من العمليات لتوليد مرشحات للسمات مثل التكلفة الإجمالية للطلب، متوسط التكلفة للطلب، الحد الأدنى للطلب وهكذا.

نتيجة لإنتشار المعرفات العددية عبر الجداول، تركّب آلة علم البيانات العمليات في طبقات فوق بعضها وتعثر على الحدود الدنيا من المتوسطات أو متوسط المجموع، وما إلى ذلك. كما تبحث عن ما يسمى بالبيانات المصنفة والتي تقتصر على مجموعة محدودة من القيم، مثل أيام الأسبوع أو الأسماء التجارية. ثم تولد الآلة مرشحات سمات أخرى بتقسيم تلك السمات الموجودة عبر تصنيفات البيانات.  بمجرد إنتاج مجموعة من المرشحات، تقلل الآلة عددهم عن طريق تحديد تلك القيم التي يبدو أنها مترابطة. ثم تبدأ باختبار المجموعة المختصرة على بيانات نموذجية ودمجها بعدة طرق مختلفة لتحسين دقة التنبؤات التي تنتجها. يقول مارجو سيلتزر، أستاذ علوم الكمبيوتر في جامعة هارفارد والذي لم يشارك في هذا العمل "آلة علم البيانات واحدة من تلك المشاريع المذهلة حيث يفتح تطبيق الأبحاث المتطورة في حل المشاكل طريق جديد تماما في النظر إلى المشكلة". ويضيف سيلتزر "أعتقد أن مافعلوه سيصبح سريعا معيار، سريعا جدا".


http://news.mit.edu/2015/automating-big-data-analysis-1016