۲-۹-۱- یافتن خودکارخوشهها
یافتن خوشهها ساختمان مدلهایی است که به دنبال یافتن رکوردهای دادهای مشابه باهم هستند و این دسته ازشباهتها تحت عنوان خوشه مطرح میشوند. روشهای متعدد و مختلفی برای یافتن خوشهها وجود دارد که از آن جمله روشهای هندسی، آماری و شبکههای عصبی میتوان نام برد. خوشههای تشکیل شده میتواند نقطه شروعی برای شناسایی آنچه که درون دادهها هستند و استفاده بهینه از آنها را ارائه می کند.
۲-۹-۱-۱-نقاط قدرت این روش
این روش میتواند حتی زمانی که دانش قبلی از ساختار پایگاهدادههای ورودی نداریم به کار گرفته شود. بادادههای متنی، رقمی و بدون قید و شرط به خوبی کار میکنند. با انتخاب مسافتهای اندازه گیری متفاوت، روش خوشهبندی خودکار میتواند تقریباً روی هر نوع دادهای بهکار گرفته شود، به راحتی قابل اجرا میباشد. اکثر فنون یافتن خوردکار خوشهها نیاز به حداقل پیغامدهی در رابطه با دادههای ورودی دارند و هیچ نیازی به شناسایی فیلدهای خاصی بهعنوان ورودی ندارند.
۲-۹-۱-۲-نقاط ضعف
به سختی میتوان مسافت اندازهگیری و وزنهای صحیح را انتخاب نمود. کارایی الگوریتمهای این روش وابسته به انتخاب مسافتهای متریک یا دیگر اندازههای مشابه میباشد. حساسیت نسبت به پارامترهای اولیه دارد. در روش k-mean انتخاب اولیه مقداری برای k تعیین کننده تعداد خوشههایی است که یافت میشوند. اگر این تعداد با ساختار طبیعی داده جفت نشوند، این فرد به نتایج خوبی دست نخواهد یافت.
۲-۹-۱-۳- کاربرد
خوشهبندی، ابزار قدرتمندی است برای زمانیکه مواجح باحجم بسیار زیاد و پیچیدهای از مجموعه دادهها با متغیرهای بسیار و ساختارهای داخلی فراوان باشیم. درشروع بهکار یک پروژه دادهکاوی، خوشهبندی میتواند غالبا یکی از بهترین فنون برای اجرا باشد. همچنین اگر در روش یافتن خودکار خوشهها نواحی از دادهها و رکودهای مشابه وجود داشته باشند کار برای ادامه کار دیگر ابزار های دادهکاوی راحتتر خواهد شد.
۲-۹-۲- درختهای تصمیمگیری و استقرا قاعدهای
پوشش درختهای تصمیمگیر برای دادهکاوی هدایت شده و رکوردها را به مجموعههای یادگیر و جدا از هم که هرکدام نیز از واحد سادهای بر روی یک یا چند فیلد تشکیل شدهاند پیروی میکند.
۲-۹-۲-۱-نقاط قوت
قادر به تولید قوانین قابل فهم میباشند و با بهره گرفتن از زبانهای ساده مانند Sql قابل پیادهسازی هستند. توانایی انجام محاسبات را بدون نیاز به انجام محاسبات زیاد دارند. به طور کلی درختهای تصمیم به طور خاص انتخابی مناسب در دامنههایی هستند که درآنجا قواعدی برای یافت شدن وجود دارد. قادر به بکارگیری متغیرهای دنبالهای و بدون شرط هستند و متدهای درختتصمیمگیری برای این منظور تعریف شدهاند و تعریفی مشخص از اینکه چه فیلدهایی برای تصمیمگیری و پیشگویی مناسب هستند ارائه میدهند.
۲-۹-۲-۲-نقاط ضعف روش درختتصمیمگیری
درختهای تصمیمگیر برای وظایف تخمین زدن که هدف آنها پیشگویی مقادیر دنبالهدار همچون درآمد، بانرخهای قابل توجه میباشند ممکن است مشکل ایجاد کنند. البته تازمانیکه ورودیهای زیادی برای نمایش دادهای به گونهای که مشخصکننده روند مشخصی نباشند وجود داشته باشد.
۲-۹-۲-۳-کاربرد
روشهای درختتصمیمگیری انتخاب خوبی برای زمانی هستند که وظایف دادهکاوی بهصورت طبقهبندی رکوردها یا پیشگویی خروجیها باشد. باید زمانی از درختتصمیمگیری استفاده نمود که هدف انتساب هر رکورد به یکی از دستهبندیهای انجام شده باشد. درختهای تصمیمگیری نیز انتخابی طبیعی برای فهم راحتتر، توضیح و ترجمه به زبان طبیعی یاSql میباشند(Mehmed,2003).
۲-۹-۳- شبکههای عصبی
یکی از متداولترین فنون دادهکاوی است. شبکههای عصبی برای پیشگوییهای سری زمانی استفاده شوند. یکی از مزایای بارز شبکههای عصبی گستره کاربرد وسیع آنها میباشند. به خاطر امکانات آن، ابزارهایی که از شبکههای عصبی پشتیبانی میکنند برروی هر بستری به راحتی یافت میشوند. بهطور کلی شبکههای عصبی دارای دو مشکل عمده میباشند. یکی سختی فهم مدلهایی که میسازند و دیگری حساسیت خاص عناصر به غالب دادههای ورودی. بازنمایی مختلف دادهای میتواند نتایج متفاوتی تولید نماید بنابراین تنظیم دادهها قسمت مهمی در استفاده مطلوب از آنها میباشد.
۲-۹-۳-۱- نقاط قوت شبکههای عصبی مصنوعی
میتواند گستره بزرگی از مسائل را پوشش دهد. شبکههای عصبی روشهای کلی و عمومی را برای رهیافتهای مسائل مختلف در برمیگیرند، زمانیکه خروجی این شبکهها بهصورت دنبالهدار باشد در آن صورت بهصورت پیشگویانه عمل مینمایند. نتایج خوبی راحتی اگر برروی دامنههای پیچیده کار نمایند تولید مینمایند. بازیادشدن تعداد صنایع و کاربردهای آنها شبکههای عصبی نیز خود را پیشرفت میدهند که این نتایج در دامنههای پیچیدهتر همانند تحلیل سریهای زمانی و کشف تقلب که به سادگی قابل پیگیری توسط دیگر فنون دادهکاوی نمیباشند نمایانگراست. میتوانند از متغیرهای دنبالهدار و بدون قید و شرط استفاده کنند. هرچند که دادهها باید برای ورودی آماده شوند ولی شبکههای عصبی میتوانند خود را با هر نوع دادهای، یعنی دنبالهدار و بدون قید و شرط تطبیق دهند.
۲-۹-۳-۲- ن
قاط ضعف شبکهعصبی
نیازمند ورودیهایی دردامنه صفر و یک میباشند که این امر موجب پردازش اضافی در دادههایی میشود که به این صورت وجود ندارند. متاسفانه هیچ ضمانتی وجود ندارد که این راه حل ها تولیدکننده بهترین مدل از دادهها باشند.
۲-۹-۳-۳-کاربرد
شبکههای عصبی انتخاب خوب و مناسبی برای وظایف پیشگویی و طبقه بندی میباشد. شبکههای عصبی همچنین میتوانند برای دادهکاوی غیرجهتیافته مثلا خوشهبندی نیز بهکار روند. دراین حال شبکهای از رکوردهایی که شبیه بههم هستند شناسایی میکند اما هیچ توضیحی راجعبه آنکه چگونه اینها شبیه بههم هستند را نمیدهد. تنها زمانی شبکههای عصبی نمیتوانند بهخوبی کار کنند که ورودی آن دارای صدتا یا هزاران خصیصه باشد، چراکه تعداد زیاد این خصیصهها کار شبکهعصبی را در یافتن الگو دشوار میسازد و میتواند در طول یادگیری به نتایج قابل قبولی دست نیابد. شبکههای عصبی میتواند بهخوبی با درختهای تصمیمگیری کار نماید. درختهای تصمیمگیری میتواند انتخابهای مهم و خوبی از متغیرهای ورودی داشته باشد و این میتواند ورودی خوبی برای شبکهعصبی محسوب شود.
۲-۱۰- درجهبندی فنون مختلف دادهکاوی از جهت سختی و آسانی
در جدول زیر از ابعاد مختلف به درجهبندی فنون مختلف دادهکاوی میپردازیم.
جدول۲-۱ درجهبندی فنون مختلف دادهکاوی
سهولت در فهم مدل | سهولت در یادگیری مدل | سهولت در بکارگیری مدل | عمومیت | امکانات | دردسترس بودن | |
کاوش خوشه | B+ | B+ | A- | A- | B- | B |