۳-۷-۱-۲- شناخت دادهها
در مرحله قبل درک کلی برای تحقیقگر حاصل گردید. این مرحله به منظور اجتناب از مسائل غیرمنتظره در طول مرحله (فاز آمادهسازی دادهها) بسیار حیاتی است. به طوری که طولانیترین مرحله از یک پروژه دادهکاوی تلقی میشود. جهت انجام این مرحله باید به پرسشهای زیر پاسخ داده شود:
-
- کدامیک از معیارها (ستونها) از بانک داده، مناسبتر به نظر میرسند؟ (دراین مرحله میتوان از نظریات خبرگان بهره برد)
-
- کدامیک از معیارها بیربط به نظر میرسند و قابلیت حذف شدن دارند؟
-
- آیا تعداد دادهها برای تعمیم نتایج یا ایجاد یک پیشگویی دقیق، کافی است؟
-
- آیا معیارهای فراوانی برای انتخاب روش مدلسازی وجود دارد؟
-
- آیا منابع داده گوناگونی را باهم ادغام میکنید؟ اگر چنین است، آیا ناحیهای که در هنگام ادغام، مساله را پیچیده کند وجود دارد؟
-
- آیا توجه کردهاید که چگونه مقادیر گمشده در هریک از منابع داده توزیع شدهاند؟
درواقع دراین مرحله پیش از آن که بتوان کاری انجام داد باید با توجه به درک صورت گرفته از اهداف و وضعیت موجود، شناخت صحیحی از وضعیت دادهها بهدست آورد. برای این منظور لازم است دادههای مورد نیاز جمع آوری و تهیه شوند و بررسیهای لازم از جهت قابل قبول بودن حجم دادههای سالم و امکان چشمپوشی از موارد دادههای گمشده و بیمقدار یا دادههای ناقص، صورت پذیرد. بنابراین دراین بخش با مراجعه به خبرگان و مطالعه تحقیقهای قبلی دادههای مورد نیاز از پایگاهداده اصلی استخراج شد.
۳-۷-۱-۳- آماده سازی دادهها
برای انجام این گام کافی است به موارد زیر توجه شود:
-
- مجموعه دادهها یا رکوردهای ادغام شده
-
- انتخاب یک نمونه زیرمجموعه از دادهها
-
- رکوردهای انباشته
-
- استنتاج معیارهای جدید
-
- مرتبسازی دادهها برای مدلسازی
-
- حذف یا جایگزینی مقادیر گمشده یا مقادیر خالی
-
- جداکردن مجموعه دادههای آموزشی از آزمایشی
-
- ارائه گزارشی از کیفیت دادهها
آمادهسازی دادهها برای دادهکاوی تنها به معنی داشتن دادهها نمیباشد بلکه تمیزکردن دادهها و همچنین تبدیل فرمت آنها به دادههای مناسبتر، ممکن است پس از دریافت دادهها لازم باشد. زیرا که دادهها در پایگاهداده در حالت عادی برای دادهکاوی مناسب نیست. بنابراین لازم بود تا در این مرحله برروی مجموعه دادههای مورد نیاز که از بخش پایگاهداده دانشگاه دریافت شد، اقدامات لازم صورت پذیرد تا بتوان در نرمافزارهای مورد نظر از آنها استفاده نمود و برای ورود به مراحل بعدی مهیا گردند.
یکی دیگر از فعالیتهایی که دراین مرحله انجام شد قالببندی دادهها در نرمافزار ECXEL بود. زیرا بخشی از دادهها بهصورت یک فایل پشتیبان MY SQL SERVER دریافت شده بود. پس از آنکه تعدیلاتی بر روی دادهها در نرمافزار SQL SERVER صورت پذیرفت، فایل به نرمافزارEXCEL وارد گردید و رکوردهای مورد نیاز در یک جدول گردآوری شد تا در قالب یک فایل EXCEL وارد نرمافزار CLEMENTINE شوند.
۳-۷-۱-۴- مدلسازی
اگرچه فعالیتهای این مرحله کم است ولی از حیث تکرار بسیار حایز اهمیت هستند:
-
- انتخاب تکنیکهای مدلسازی
-
- ایجاد یک طرح آزمایشی
-
- ساخت مدلها
-
- ارزیابی مدلها
دراین بخش، لازم است تکنیک مورد نظر بر اساس آنچه در فصل دوم در بخش انواع فنون دادهکاوی تشریح شد انتخاب شود. با توجه به اهداف دادهکاوی و عنوان مطرح شده دراین تحقیق تکنیک مورد استفاده خوشهبندی و شبکهعصبی و درختتصمیمC5 میباشد. دربین روشهای خوشهبندی، روش k-means، به دلیل زمان محاسبه کم، قدرت انطباق بالا در نمونهها با سایز بزرگ و سهولت استفاده، پرکاربردترین است(Kuo et al,2006 ).
لذا با توجه به این ویژگیها و نوع دادهها، این الگوریتم برای یافتن تعداد بهینه خوشهها انتخاب شد و در میان مدلهای پیشبینی مدلهای شبکهعصبی و درختتصمیمC5. به دلیل داشتن دقت بالاتری نسبت به مدلهای دیگر اتخاذ گردیدند. که در ادامه به تشریح این مدلها خواهیم پرداخت.
۳-۷-۱-۵- ارزیابی نتایج
دراین قسمت باید نتایج تلاشهای صورت گرفته در ایجاد معیارهای موفقیت که در آغاز پروژه مطرح نمودهایم را ارزیابی نماییم. ارزیابی کلیدی جهت اعتمادسازی برای سازمان است که بتواند نتایج بهدست آمده توسط این فرایند را استفاده نماید. برای این منظور میتوان پرسشهای زیر را مدنظر قرار داد:
-
- آیا نتایج، در قالب جزءبهجزء و شفاف و بهصورتی که قابل ارائه باشند تشریح شدهاند؟
-
- آیا نتیجه و موضوع خاص و منحصربهفردی که باید پررنگ شود، کشف شده است؟
-
- به طور کلی، روش مناسب پاسخگویی این کشفیات به اهداف تجاری سازمان چیست؟
۳-۷-۱-۶- بکارگیری مدل
دراین مرحله با توجه به پایان یافتن ساخت و ارزیابی مدل نتیجهی کار، نیازمند این است که سازماندهی شود و به شکلی ارائه گردد که بهره برداران بتوانند از آن استفاده نمایند. بسته به ملزومات کار، فاز بکارگیری میتواند به سادگی ایجاد یک گزارش یا به پیچیدگی اجرای یک فرایند قابل تکرار کشف دانش در پایگاهداده باشد.
۳-۸- تحلیل خوشهای
در تحلیل خوشهای به دنبال کاهش و تقلیل موجودیتها هستیم. تجزیه و تحلیل خوشهای دست
هبندی واحدهای آماری براساس حداقل دو متغیر قابل اندازهگیری است.
تحلیل خوشهای یکی از روشهای پرکاربرد در بسیاری از شاخههای علمی است. این تکنیک برای گروهبندی افراد یا موضوعات میباشد بهطوریکه درون گروه شباهت زیادی با همدیگر داشته، اما تفاوت قابل توجهی با گروههای دیگر ندارند. بنابراین اگر گروهبندی فوق به شیوه صحیح انجام گیرد، در صورت رسم نمودار آنها، افراد درون گروه در یک مجموعه نزدیک بههم قرار میگیرند درحالیکه فاصله زیادی با سایر گروهها خواهند داشت (کلانتری، ۱۳۸۷). در فصل دوم بهطور مفصل مفاهیم و تعاریف تحلیل خوشهای شرح داده شده است.
دراین تحقیق از روش k-meanبرای این منظور استفاده شده است. الگوریتمهای دادهکاوی، خوشهبندی و انواع آن به طور کامل در فصل دوم شرح داده شده است و دراین فصل مروری بر تکنیکهای مورد استفاده دراین تحقیق خواهیم داشت. خوشهبندی نوعی عملیات دادهکاوی غیرمستقیم است. در اکثر روشهای دادهکاوی مثل درختتصمیم و شبکههای عصبی، با یک مجموعه آموزشی شروع کرده و به کمک این مجموعه سعی میکنیم یک مدل ایجاد نماییم که داده را بخشبندی کرده و سپس برای یک داده جدید دسته مناسب را پیشبینی کنیم. اما در روش خوشهبندی هیچ دستهای از قبل وجود ندارد و یک فرایند کنترل نشده از تقسیم اشیا به گروهها صورت میپذیرد(۲۰۱۰،Wang).خوشهها طوری گروهبندی میشوند که شباهت زیادی در بین اشیاء از یک خوشه و همچنین عدم شباهت زیادی بین اشیاء از خوشههای مختلف وجود داشته باشد (۲۰۱۱،Yong).