داده کاوی
نگاهي به ترجمه تحت اللفظي داده كاوي، به ما در درك بهتر اين واژه كمك ميكند. واژه Mine به معناي استخراج از منابع نهفته و با ارزش زمين اتلاق ميشود. پيوند اين كلمه با كلمه داده، جستجويي عميق جهت پيدا كردن اطلاعات اضافي مفيد كه قبلاً نهفته بودند، از دادهاي قابل دسترس حجيم، را پيشنهاد ميكند.
داده كاوي يك رشته نسبتاً جديد علمي ميباشد كه از انجام تحقيقات در رشتههاي آمار، يادگيري ماشين، علوم كامپيوتر خصوصاً مديريت پايگاه دادهها شكل گرفته است.
داده كاوي كمك ميكند تا سازمانها با كاوش بر روي دادههاي يك سيستم، الگوها و رفتارهاي آينده را كشف و پيش بيني كرده و بهتر تصميم بگيرند. این تکنیک با استفاده از تحليل وقايع گذشته يك تحليل اتوماتيك و پيش بينانه ارائه مينمايد و به سوالاتي جواب ميدهد كه پاسخ آنها در گذشته ممكن نبوده و يا به زمان زيادي نياز داشته است.
برای درک کامل معنای داده کاوی می بایست ابتدا تعاریف درستی از معانی کلمات داده، اطلاعات و دانش داشته باشیم.
داده: به هر گونه سمبل، عدد، رقم، کاراکتر، رشته و یا سیگنال که معنای خاصی را به ذهن القاء نکند داده گفته می شود. داده پایه ای ترین مفهوم در داده کاوی است که مبرا از هر گونه پردازشی می باشد.
اطلاعات: چنانچه در کنار عدد، کاراکتر و یا هر عنصر داده ای رشته ای به عنوان توصیف کننده معنای آن داده وجود داشته باشد، داده ابتدایی به اطلاعات تبدیل خواهد شد. میتوان به طور خلاصه برای تعریف اطلاعات از عبارت داده درباره داده استفاده نمود.
دانش: وجود یک رابطه میان دو عنصر اطلاعاتی مبین دانشی در آن زمینه است. در تعریف ساده دانش می توان از عبارت جالب اطلاعات درباره اطلاعات استفاده کرد.
خرد(آگاهی): عالی ترین سطح بینش است که توسط علائم و نمادهای قراردادی تبیین می شود. تعریف ساده آن دانش درباره دانش می باشد.
مراحل داده كاوي
داده كاوي شامل مراحل مختلفي ميباشد كه عبارتند از:
- تعيين اطلاعات گذشته
- تميز كردن داده ها و پردازش اوليه. در اين مرحله خطاهاي دادهها تصحيح ميشوند و داده هاي اشتباه جايگزين ميشوند. اين مرحله ممكن است تا ۶۰ درصد از زمان داده كاوي را دربرگيرد.
- يكپارچه سازي دادهها. معمولاً دادهها از منابع متفاوتي جمع آوري ميشوند بايد به صورتي درآيند كه يك مخزن از داده هاي مناسب ايجاد شود تا بتوان عمليات داده كاوي را بهتر انجام داد.
- انتخاب مجموعه داده هاي هدف
- يافتن ويژگيهاي مورد استفاده و تعيين ويژگيهاي جديد
- نمايش دادهها به صورتي كه بتوان براي داده كاوي استفاده نمود.
- انتخاب عمليات داده كاوي (طبقه بندي، خوشه بندي، پيش بيني و غيره)
- انتخاب روش داده كاوي (شبكههاي عصبي، درخت تصميم و نظاير آن)
- داده كاوي و جستجو براي يافتن الگوي مناسب
- ارزيابي و تحليل اگلوي به دست آمده و حذف الگوهاي نامناسب
- تفسير نتايج دادهها و استنتاج از اطلاعات با ارزش
اجزاي اصلي سيستم داده كاوي
- پايگاه داده، انباره داده يا ديگر مخازن اطلاعات: كه از مجموعهاي از پايگاه داده ها، انباره داده، صفحه گسترده، يا ديگر انواع مخازن اطلاعات، پاكسازي دادهها و تكنيكهاي يكپارچه سازي روي اين دادهها انجام ميشود.
- سرويس دهنده پايگاه داده يا انبار داده: كه مسئول بازيابي دادههاي مرتبط براساس نوع درخواست داده كاوي كاربر ميباشد.
- پايگاه دانش: اين پايگاه از دانش زمينه تشكيل شده تا به جستجو كمك كند يا براي ارزيابي الگوهاي يافته شده از آن استفاده ميشود.
- موتور داده كاوي: اين موتور جزء اصلي سيستم داده كاوي است و به طور ايده آل شامل مجموعهاي از پيمانهها نظير توصيف، تداعي، كلاس بندي، آناليز خوشهها و آناليز تكامل و انحراف است.
- پيمانه ارزيابي الگو: اين جزء معيارهاي جذابيت را به كار ميبندد و با پيمانه داده كاوي تعامل ميكند، بدين صورت كه تمركز آن بر جستجو بين الگوهاي جذاب ميباشد، و از يك حد آستانه جذابيت استفاده ميكند تا الگوهاي كشف شده را ارزيابي كند.
- واسط گرافيكي كاربر: اين پيمانه بين كاربر و سيستم داده كاوي ارتباط برقرار ميكند، به كاربر اجازه ميدهد تا با سيستم داده كاوي از طريق پرس و جو ارتباط برقرار كند. اين جزء به كاربر اجازه ميدهد تا شماي پايگاه داده يا انباره داده را مرور كرده، الگوهاي يافته شده را ارزيابي كرده و الگوها را در فرمهاي بصري گوناگون، بازنمايي كند.