التنقيب عن البيانات Data Mining
التنقيب عن البيانات داتا ماينينغ data mining, في بعض من الأحيان نسمع عند المبرمجين مصطلح داتا مايينغ data mining التنقيب عن البيانات.
و يُشير مصطلح التنقيب عن البيانات إلى عملية تحليل و تفكيك هذة البيانات بمختلف المجالات و تبسيط هذه البيانات. للحصول على معلومات مفيدة و تعتبَر هذه العملية واحدة من أدوات تحليل البيانات.
و إن عملية التنقيب عن البيانات هي نفس عملية إستخراج البيانات و لابُد لنا من جمع البيانات من مصادر مختلفة. و إعدادها وتخزينها في مكان واحد, و يرتبط مفهوم التنقيب بالعثور على البيانات نفسها.
ظَهَرَ مفهوم التنقيب عن البيانات في أواخر الثمانينات وأثبت وجوده كواحد من الحلول الناجحة لتحليل كميات ضخمة من البيانات.
عناصر التنقيب عن البيانات data mining
هنالك 4 عناصر أساسية في التنقيب عن البيانات data mining.
- البيانات data: هي عبارة عن مجموعة من الأرقام والنصوص والحقائق و الأحرف التي يمكن إجراء عمليات المعالجة عليها وتمثّل المادة الخام.
- المعلومات information: هي ناتج العلاقة بين تلك البيانات و يتم إستخلاصها للحصول على معلومة مفيدة.
- المعرفة Knowledge: يمكن للمعلومات أن تتحول إلى معرفة حول رؤية المستقبلية أو تاريخية. على سبيل المثال معلومات عن حركة المبيعات والمشتريات للعملاء, يمكن أن تزود المعرفة عن سلوك العملاء الشرائي.
- مستودع البيانات Data warehouse: تم إستخدامها في التحليلات الزمنية و إكتشاف المعرفة و إتخاذ القرارات.
مراحل إكتشاف التنقيب في البيانات
تمُر مرحلة التنقيب عن البيانات بعدة مراحل إلى أن تصل لمعرفة يمكن الحصول عليها و الإستفادة منها و من هذة المراحل:
- أولى هذه المراحل هي إكتشاف بيانات و تتضمّن هذه المرحلة جمع البيانات وتحديد وتوصيف البيانات المتاحة.
- تصفية البيانات وتنقية البيانات حيث تتم في هذه المرحلة التخلص من البيانات الغير مهمة و الغير منسّقة.
- تكامل البيانات و في هذه المرحلة يتم جمع البيانات المتشابهة و يتم جمع البيانات ذات الصلة من مصادر متعددة ودمجها.
- إختيار البيانات حيث يتم تحديد و إسترجاع و إختيار البيانات المناسبة من مجموعة البيانات.
- تحويل البيانات و إجراء عمليات البحث والدراسة.
- التنقيب عن البيانات أي إستخدام الأساليب الذكية المطبّقة لإستخراج نماذج البيانات و إستخراج النماذج المفيدة قدر الإمكان.
- تقييم النماذج في هذه المرحلة يتم إستخدام مقاييس مهمة و إن تقيم النماذج المهمة جداً لأنها تمثل قاعدة المعرفة.
- عرض و تقديم المعرفة هذه هي الخطوة الأخيرة لإكتشاف المعرفة في قواعد البيانات وهي الخطوة. التي يراها المستخدم, تستخدم هذه الخطوة الأساسية الطريقة المرئية لمساعدة المستخدم فهم وتفسير نتائج إستخراج البيانات.
أنواع التنقيب عن البيانات
ينقسم التنقيب عن البيانات نوعين هما:
- التنقيب الإستشرافي
- التنقيب الوصفي.
التطبيقات المستخدمة في التنقيب عن البيانات
هنالك عدة برامج يُمكن إستخدامها في التنقيب عن البيانات منها مجانية و منها مدفوعة, مثال لتلك التطبيقات.
1 - تطبيق SIPINA لتنقيب البيانات
هو نسخه مطورة من تطبيق SIPINA تم إطلاقها في عام 2003 و يُعَد من التطبيقات مفتوحة المصدر المستخدمة في التنقيب عن البيانات.
2 - تطبيق Tanagra لتنقيب البيانات
هو نسخه مطورة من تطبيق SIPINA تم إطلاقها في عام 2003 و يعد من التطبيقات مفتوحة المصدر المستخدمة في التنقيب عن البيانات.
3 - تطبيق Orange للتنقيب عن البيانات
يُعتبَر من أفضل التطبيقات المستخدمة في التنقيب عن البيانات و يتميز بسهولته و ذو واجهة بسيطة. و تحتوي على الكثير من الأدوات و هو أحد التطبيقات المفتوحة المصدر.
4 - تطبيق R project للتعامل في تنقيب البيانات
برنامج R project مفتوح المصدر و هو من اكثر التطبيقات شُهرةً, في البداية كان معروفاً أكثر لدى الإحصائيين، و بعدها بدأ بالإنتشار لدى منقبي البيانات.
و يحتوي على واجهة مُبسطة تمسح الإسكربتات, لغة وبيئة للحوسبة الإحصائية والمخططات، يوفر مجموعة واسعة. من الإحصائيات مثل النمذجة الخطية وغير الخطية, الإختبارات الإحصائية الكلاسيكية, تحليل السلاسل الزمنية, التصنيف, التجميع, والتقنيات الرسومية.
5 - تطبيق ويكا Weka لتنقيب البيانات Data mining
تطبيق weka هو من أفضل التطبيقات و اكثرها شهرة, حيث يستخدمه معظم المنقبين عن البيانات.
و هو من أفضل التطبيقات لدى المنقبين, و يعد من البرامج المفتوحة المصدر و يدمج هذا البرنامج عدد. كبير من التقنيات و لكن يتطلب التدريب وقراءة متأنية للمستندات المرفقة.
يحتوي واجهة بسطر الأوامر ومستكشف لمعالجة البيانات وتطبيق لتقنيات التنقيب في البيانات المتعددة. على قواعد البيانات المتعددة، وبناءات رسومية لإجراءات معالجة البيانات. يوفّر بناء المتغيرات, التعليم المراقب وغير المراقب, قواعد الإرتباط.
6 - تطبيق SAS Enterprise Miner
هو أحد التطبيقات المدفوعة ويتم إستخدامه في عملية التنقيب عن البيانات.
7 - تطبيق Oracle Data Mining
هذا المكوّن موجود في نظام إدارة قواعد البيانات الموجودة لدى اوراكل, يوفّر التنقيب في بيانات المعاملات, والتجمعات وحتى البيانات غير المهيكلة والبيانات المكانية.
8 - تطبيق XL Miner
وهو أيضاً أحد التطبيقات المدفوعة, مستخدم للتنقيب عن البيانات و يوفّر تنظيف البيانات وتقييم القدرة التنبؤية الخاصة بنماذج معينة وتقنيات الشبكات العصبية.