جدول المحتويات:

علوم الكمبيوتر التعدين البيانات
علوم الكمبيوتر التعدين البيانات

DATA MINIG (1) | شرح التنقيب في البيانات (يونيو 2024)

DATA MINIG (1) | شرح التنقيب في البيانات (يونيو 2024)
Anonim

استخراج البيانات ، ويسمى أيضًا اكتشاف المعرفة في قواعد البيانات ، في علوم الكمبيوتر ، عملية اكتشاف الأنماط والعلاقات المثيرة للاهتمام والمفيدة في كميات كبيرة من البيانات. يجمع الحقل بين أدوات من الإحصائيات والذكاء الاصطناعي (مثل الشبكات العصبية والتعلم الآلي) مع إدارة قواعد البيانات لتحليل المجموعات الرقمية الكبيرة ، والمعروفة باسم مجموعات البيانات. يتم استخدام استخراج البيانات على نطاق واسع في الأعمال التجارية (التأمين ، والخدمات المصرفية ، والتجزئة) ، والبحث العلمي (علم الفلك ، والطب) ، والأمن الحكومي (الكشف عن المجرمين والإرهابيين).

أدى انتشار العديد من قواعد البيانات الحكومية والخاصة الكبيرة والمتصلة في بعض الأحيان إلى لوائح لضمان أن السجلات الفردية دقيقة وآمنة من العرض أو العبث غير المصرح به. تستهدف معظم أنواع استخراج البيانات التحقق من المعرفة العامة حول المجموعة بدلاً من المعرفة عن أفراد معينين - السوبر ماركت أقل اهتمامًا ببيع عنصر واحد إلى شخص واحد أكثر من بيع العديد من العناصر إلى العديد من الأشخاص - على الرغم من أنه يمكن استخدام تحليل الأنماط أيضًا لتمييز السلوك الفردي الشاذ مثل الاحتيال أو الأنشطة الإجرامية الأخرى.

الأصول والتطبيقات المبكرة

مع زيادة سعة تخزين الكمبيوتر خلال الثمانينيات ، بدأت العديد من الشركات في تخزين المزيد من بيانات المعاملات. كانت مجموعات السجلات الناتجة ، غالبًا ما تسمى مستودعات البيانات ، كبيرة جدًا بحيث لا يمكن تحليلها باستخدام الأساليب الإحصائية التقليدية. تم عقد العديد من المؤتمرات وورش العمل حول علوم الكمبيوتر للنظر في الكيفية التي يمكن بها تكييف التطورات الحديثة في مجال الذكاء الاصطناعي (AI) - مثل الاكتشافات من الأنظمة الخبيرة ، والخوارزميات الجينية ، والتعلم الآلي ، والشبكات العصبية - لاكتشاف المعرفة (المصطلح المفضل في مجتمع علوم الكمبيوتر). وقد أدت العملية في عام 1995 إلى المؤتمر الدولي الأول لاكتشاف المعرفة وتعدين البيانات ، الذي عقد في مونتريال ، وإطلاق مجلة Data Mining and Knowledge Discovery في عام 1997. كانت هذه أيضًا الفترة التي تم فيها تشكيل العديد من شركات استخراج البيانات المبكرة وعرض المنتجات.

كان أحد أقدم التطبيقات الناجحة في استخراج البيانات ، ربما في المرتبة الثانية بعد أبحاث التسويق ، هو اكتشاف بطاقات الائتمان والاحتيال. من خلال دراسة سلوك الشراء لدى المستهلك ، عادة ما يظهر نمط نموذجي ؛ يمكن بعد ذلك وضع علامة على عمليات الشراء التي تتم خارج هذا النمط لإجراء تحقيق لاحق أو رفض المعاملة. ومع ذلك ، فإن مجموعة متنوعة من السلوكيات العادية تجعل هذا الأمر صعبًا ؛ لا يوجد تمييز واحد بين السلوك العادي والاحتيالي يعمل للجميع أو طوال الوقت. من المرجح أن يقوم كل فرد ببعض المشتريات التي تختلف عن الأنواع التي قام بها من قبل ، لذا فإن الاعتماد على ما هو طبيعي بالنسبة لفرد واحد من المرجح أن يعطي الكثير من الإنذارات الكاذبة. تتمثل إحدى طرق تحسين الموثوقية أولاً في تجميع الأفراد الذين لديهم أنماط شراء مماثلة ، نظرًا لأن نماذج المجموعة أقل حساسية للتشوهات الطفيفة. على سبيل المثال ، من المرجح أن يكون لمجموعة "مسافري الأعمال المتكررين" نمطًا يتضمن عمليات شراء غير مسبوقة في مواقع متنوعة ، ولكن قد يتم وضع علامة على أعضاء هذه المجموعة للمعاملات الأخرى ، مثل عمليات شراء الكتالوجات ، التي لا تتناسب مع الملف الشخصي لتلك المجموعة.

نهج النمذجة والتنقيب عن البيانات

إنشاء النموذج

تتضمن عملية التنقيب عن البيانات الكاملة خطوات متعددة ، بدءًا من فهم أهداف المشروع والبيانات المتاحة لتنفيذ تغييرات العملية بناءً على التحليل النهائي. الخطوات الحسابية الرئيسية الثلاث هي عملية تعلم النموذج ، وتقييم النموذج ، واستخدام النموذج. هذا التقسيم أوضح مع تصنيف البيانات. يحدث التعلم النموذجي عندما يتم تطبيق خوارزمية واحدة على البيانات التي تُعرف عنها سمة المجموعة (أو الفئة) من أجل إنتاج مصنف ، أو خوارزمية مستفادة من البيانات. ثم يتم اختبار المصنف مع مجموعة تقييم مستقلة تحتوي على بيانات ذات سمات معروفة. يمكن بعد ذلك استخدام مدى توافق تصنيفات النموذج مع الفئة المعروفة للسمة المستهدفة لتحديد الدقة المتوقعة للنموذج. إذا كان النموذج دقيقًا بما فيه الكفاية ، فيمكن استخدامه لتصنيف البيانات التي تكون السمة الهدف غير معروفة لها.

تقنيات استخراج البيانات

هناك العديد من أنواع استخراج البيانات ، مقسمة عادةً حسب نوع المعلومات (السمات) المعروفة ونوع المعرفة المطلوبة من نموذج استخراج البيانات.

النمذجة التنبؤية

تُستخدم النمذجة التنبؤية عندما يكون الهدف هو تقدير قيمة سمة هدف معينة وهناك بيانات نموذجية للتدريب تُعرف عنها قيم هذه السمة. مثال على ذلك التصنيف ، الذي يأخذ مجموعة من البيانات مقسمة بالفعل إلى مجموعات محددة مسبقًا ويبحث عن أنماط في البيانات التي تميز هذه المجموعات. يمكن بعد ذلك استخدام هذه الأنماط المكتشفة لتصنيف البيانات الأخرى حيث يكون تعيين المجموعة الصحيح للسمة الهدف غير معروف (على الرغم من أن السمات الأخرى قد تكون معروفة). على سبيل المثال ، يمكن للمصنع تطوير نموذج تنبؤي يميز الأجزاء التي تتعطل تحت الحرارة الشديدة أو البرودة الشديدة أو الظروف الأخرى بناءً على بيئة التصنيع الخاصة بهم ، ويمكن بعد ذلك استخدام هذا النموذج لتحديد التطبيقات المناسبة لكل جزء. هناك تقنية أخرى مستخدمة في النمذجة التنبؤية وهي تحليل الانحدار ، والتي يمكن استخدامها عندما تكون السمة الهدف قيمة رقمية والهدف هو التنبؤ بهذه القيمة للبيانات الجديدة.

النمذجة الوصفية

كما تقسم النمذجة الوصفية أو التكتل البيانات إلى مجموعات. مع التجميع ، ومع ذلك ، لا تعرف المجموعات المناسبة مقدما. يتم استخدام الأنماط المكتشفة عن طريق تحليل البيانات لتحديد المجموعات. على سبيل المثال ، يمكن للمعلن تحليل جمهور عام من أجل تصنيف العملاء المحتملين إلى مجموعات مختلفة ثم تطوير حملات إعلانية منفصلة تستهدف كل مجموعة. كما يستخدم الكشف عن الاحتيال التكتل لتحديد مجموعات الأفراد الذين لديهم أنماط شراء مماثلة.