الاثنين، 26 أكتوبر، 2015

أتمتة عملية تحليل البيانات الكبيرة

أتمتة عملية تحليل البيانات الكبيرة
استطاع نظام آلي يستخدم الخوارزميات بدلا من حدس الإنسان أن يتغلب على 615 من أصل 906 فريق بشري.

لاري هارديستي
معهد ماساتشوستس للتقنية MIT

ترجمة: عبدالرحمن أبوطالب

يتضمن تحليل البيانات الكبيرة Big-data البحث عن أساليب مطمورة لديها القدرة على التنبؤ، لكن اختيار ماهية أو "سمات" البيانات المراد تحليلها يتطلب عادة نوع من الحدس البشري. في قاعدة بيانات تحتوي مثلا على تواريخ بداية ونهاية عدة حملات ترويج مبيعات والارباح الأسبوعية، فإن البيانات الحاسمة قد لا تكون التواريخ نفسها بل الفترات الممتدة بينها، وقد لاتكون إجمالي الربح بل متوسط الربح عبر تلك الفترات.

سعى الباحثون في معهد ماساتشوستس للتقنية MIT لاستبدال العنصر البشري في عملية تحليل البيانات الكبيرة بنظام جديد لايبحث فقط عن أساليب جديدة في التحليل بل أيضا تصميم ملامحه. ولإختبار النموذج الأولي من نظامهم، قام الباحثون بإدراجة في ثلاثة مسابقات علمية تتعلق بالبيانات، بحيث يقوم النظام بمنافسة فرق بشرية في إيجاد أنماط تنبؤية في حزمة غير مألوفة من البيانات. ومن بين 906 فريق شارك في الثلاث مسابقات، أنهت "آلة علم البيانات" الخاصة بالباحثين المنافسة متقدمة على 615 فريق.

في مسابقتين من الثلاث مسابقات، كانت التنبؤات التي أدلت بها آلة علم البيانات دقيقة بدرجة  94% و 96%. في المسابقة الثالثة، كان الرقم أكثر تواضعا وبنسبة 87%. لكن الفرق أن الفريق البشري يستغرق في العادة عدة أشهر شاقة لإنتاج خوارزمية للتنبؤ، في حين تستغرق آلة علم البيانات ما بين ساعتين و 12 ساعة لإنتاج التنبؤات المتعلقة بكل مدخلاتها. "نحن ننظر لآلة علم البيانات على أنها مكمل طبيعي للذكاء البشري"، هكذا يقول ماكس كانتر، الحاصل على الماجستير في علوم الكمبيوتر من معهد ماساتشوستس للتقنية MIT والذي تمثل أطروحته أساس فكرة آلة علم البيانات. ويضيف كانتر "هناك الكثير من البيانات في الخارج تحتاج إلى تحليل. وكل ما يتطلبه الأمر منك الآن هو مجرد الجلوس فقط دون أن تفعل أي شيء، لذا ربما يمكننا التوصل إلى حل سيحملنا على الأقل على المضي قدما فيه".

يحضّر كانتر مع المشرف على أطروحته، كاليان فيراماتشينيني Veeramachaneni، عالم الأبحاث في معهد ماساتشوستس للتقنية MIT ومختبر الذكاء الاصطناعي (CSAIL)، ورقة عمل تصف "آلة علم البيانات" سيقدمها كانتر الاسبوع المقبل في المؤتمر الدولي لمعهد مهندسي الكهرباء والإلكترونيات IEEE حول علم البيانات والتحليل المتقدم.

يشارك فيراماتشينيني في قيادة مجموعة ALFA في مختبر الذكاء الاصطناعي التي تطبق تقنية التعليم الآلي لمشاكل معينة في تحليل البيانات الكبيرة، مثل تحديد قابلية توليد الطاقة في الحقول الزراعية بواسطة الرياح، أو التنبؤ بمن هم الطلاب الذين في خطر الإنسحاب من دورات الدراسة عبر الإنترنت. يقول فيراماتشينيني "ما رصدناه من خلال تجربتنا في حل عدد من مشاكل صناعة علم البيانات يعتبر أحد الخطوات الحاسمة فيما يمكن أن نطلق عليه feature engineering "هندسة السمات". ويضيف "أول شيء يجب عليك القيام به هو تحديد ماهي المتغيرات اللازم استخراجها أو جمعها من قاعدة البيانات، ومن أجل ذلك، عليك أن تأتي بالكثير من الأفكار". على سبيل المثال، في التنبؤ السابق المتعلق بالطلاب المنسحبين، تم إثبات اثنين من المؤشرات الحاسمة وهما: طول الوقت الذي يبدأ فيه الطالب بحل المشاكل قبل الموعد النهائي بالإضافة إلى كم من الوقت يقضيه الطالب على الموقع الإلكتروني للدورة مقارنة بزملاءه في الدراسة.

لم تسجل منصة التعليم الإلكتروني لمعهد MIT أيا من تلك الإحصائيات. لكنها جمعت بيانات يمكن الإستدلال بها. استخدم كانتر و فيراماتشينيني حيلتين في ميزة تصنيع مرشَّح السمات لتحليل البيانات. إحدى هذه الحيل كانت استغلال العلاقات الهيكلية الكامنة في تصميم قاعدة البيانات. تخزّن قواعد البيانات عادة أنواع مختلفة من البيانات في جداول مختلفة، ويتم الإشاراة إلى روابط العلاقات المتبادلة بينها باستخدام معرفات عددية. تتقفى آلة علم البيانات أثر هذه الروابط وتستخدمها كإشارة لبناء السمات. على سبيل المثال، جدول واحد قد يسرد قائمة بمواد التجزئة مع تكاليفها، جدول آخر قد يسرد قائمة تشمل الزبائن والمشتريات. ستبدأ آلة علم البيانات في إستيراد التكاليف من الجدول الأول وإدخالة في الجدول الثاني، بعد ذلك، ستأخذ الآلة تلميح أو إشارة نتيجة ترابط عدة عناصر مختلفة في الجدول الثاني مع نفس رقم طلب الشراء، وتنفذ مجموعة من العمليات لتوليد مرشحات للسمات مثل التكلفة الإجمالية للطلب، متوسط التكلفة للطلب، الحد الأدنى للطلب وهكذا.

نتيجة لإنتشار المعرفات العددية عبر الجداول، تركّب آلة علم البيانات العمليات في طبقات فوق بعضها وتعثر على الحدود الدنيا من المتوسطات أو متوسط المجموع، وما إلى ذلك. كما تبحث عن ما يسمى بالبيانات المصنفة والتي تقتصر على مجموعة محدودة من القيم، مثل أيام الأسبوع أو الأسماء التجارية. ثم تولد الآلة مرشحات سمات أخرى بتقسيم تلك السمات الموجودة عبر تصنيفات البيانات.  بمجرد إنتاج مجموعة من المرشحات، تقلل الآلة عددهم عن طريق تحديد تلك القيم التي يبدو أنها مترابطة. ثم تبدأ باختبار المجموعة المختصرة على بيانات نموذجية ودمجها بعدة طرق مختلفة لتحسين دقة التنبؤات التي تنتجها. يقول مارجو سيلتزر، أستاذ علوم الكمبيوتر في جامعة هارفارد والذي لم يشارك في هذا العمل "آلة علم البيانات واحدة من تلك المشاريع المذهلة حيث يفتح تطبيق الأبحاث المتطورة في حل المشاكل طريق جديد تماما في النظر إلى المشكلة". ويضيف سيلتزر "أعتقد أن مافعلوه سيصبح سريعا معيار، سريعا جدا".


http://news.mit.edu/2015/automating-big-data-analysis-1016

هناك تعليق واحد:

Mamaga Momado يقول...


http://www.mediu.edu.my/ar/
مركز اللغات
http://www.mediu.edu.my/ar/?page_id=168

الدورات التي يقدمها المركز:
• البرنامج التأهيلي لاختبار ( توفل )
• دورات اللغة العربية للناطقين بغيرها
• دورات تعليم اللغة الإنجليزية KPT(JPS)600-07/71/Jld. III 13
• دورات اللغة العربية بأندونيسيا
• اختبارات تحديد مستوى الكفاءة اللغوية

هيكل البرنامج
1- مهارات اللغة الإنجليزية الأساسية 1 (SLEN1013)
أهداف المقرر: 1. تعزيز معرفة الطلاب للمفردات الإنجليزية الأساسية. 2. تمكين الطلاب من قراءة وفهم الجمل البسيطة. 3. تمكين الطلاب من استخدام مهارات الاتصال الأساسية باللغة الإنجليزية. الملخص: هذه المادة هي الأولى ضمن مستويات اللغة الإنجليزية، وهي مصممة خصيصاً لطلاب البكلاريوس من ذوي الكفاءة المحدودة جداً في اللغة الإنجليزية. في هذه المادة سيتم تعريف الطلاب بمجموع مفردات اللغة الإنجليزية المستخدمة في البيئة المنزلية وكذلك الأنشطة الدراسية. وقد تم تكرير الكلمات بعناية في النصوص والتدريبات في سياقات ذات مفهموم مساعد للطلاب. و سيتم تدريس البنى النحوية ضمن سياق أوسع في استخدام اللغة، وتتناول هذه المادة المهارات اللغوية المختلفة بطريقة متكاملة وفعالة.
2- مهارات اللغة الإنجليزية الأساسية 2 (SLEN1023)
أهداف المقرر: 1. تعريف الطلاب بأنظمة الجمل الإنجليزية الأساسية. 2. زيادة حصيلة الطلاب من المفردات الإنجليزية المستخدمة في التعليم والتعلم. 3. تمكين الطلاب من كتابة فقرات باللغة الإنجليزية تظهر مدى قدرتهم على الاستمرار في بناء الجمل. الملخص: هذه هي المادة الثانية من مستويات اللغة الإنجليزية، وهي مصممة خصيصاً لطلاب البكلاريوس من ذوي الكفاءة الضعيفة في اللغة الإنجليزية، وتقوم هذه المادة بتزويد الطلاب بسياقات ذات صلة بالبيئة المنزلية والدراسية. وتحتوي هذه المادة على سياق وثقافة إسلامية لتوفير المعرفة للطلاب ولضمان حد أقصى من التعلم، بالإضافة لذلك سيتم تدريس الطلاب البنى النحوية وذلك باستخدام سياقات موضوعية.
3- الإنجليزية للاتصال في بيئة العمل (SLEN2053)
أهداف المقرر: 1. تعريف الطلاب بمختلف أشكال الاتصال التجاري في مكان العمل. 2. زيادة كفاءة الطلاب في اللغة الإنجليزية من خلال تقديم أمثلة من واقع الحياة في مكان العمل. 3. التمكن من الرد مع شيء من الثقة حول قضايا مختلفة تتعلق بمكان العمل الملخص: تعد هذه المادة من محتوى المستوى الثالث من مستويات اللغة الانجليزية ، وقد تم تصميمها خصيصاً لتلبية احتياجات طلاب اللغة