بررسی ارتباط بین توانایی خواندن کودکان با خواندن داستان توسط والدین برای آنها.
بررسی اینکه چه اقلامی در یک فروشگاه با یکدیگر خریداری میشوند و اینکه چه اقلامی هیچگاه با یکدیگر خریداری نمیشوند.
تعیین سهم نمونهها در بررسی تأثیرات خطرناک یک داروی جدید.
قواعد انجمنی، ماهیتا قواعد احتمالی هستند. به عبارت دیگر قاعده لزوماً قاعده را نتیجه نمیدهد، زیرا این قاعده ممکن است از شرط حداقل پشتیبان برخوردار نباشد. به طور مشابه قواعد و لزوماً قاعده را نتیجه نمیدهند زیرا قاعده اخیر ممکن است از شرط حداقل اطمینان برخوردار نباشد.[۴]
۲-۲-۳-۱- تعاریف و مفاهیم اصلی در قواعد انجمنی
I = {I1, I2, …, Im} : مجموعه اقلام خریداری شده است.
T: هر زیرمجموعهای از I میباشد که از آن به عنوان تراکنش یاد میشود.
D: مجموعه تراکنشهای موجود در T است.
TID: شناسه منحصر به فرد و یکتایی است که به هر یک از تراکنشها اختصاص مییابد.
نمای کلی یک قاعده انجمنی به شکل زیر میباشد:
[پشتیبان , اطمینان]
به طوری که داریم:
پشتیبان (X, Y): نشان دهندهی درصد یا تعداد مجموعه تراکنشهای D است که شامل هر دوی X و Y باشند.
اطمینان: میزان وابستگی یک کالای خاص را به دیگری بیان میکند و مطابق فرمول زیر محاسبه میشود:
(۲-۳) | (X) پشتیبان / ( )پشتیبان = (Y X,) اطمینان |
این شاخص درجهی وابستگی بین دو مجموعه X و Y را محاسبه میکند و به عنوان شاخصی برای اندازهگیری توان یک قاعده در نظر گرفته میشود. غالباً قاعدههایی انتخاب میشوند که عدد اطمینان بزرگی داشته باشند.
فرض کنید اطلاعات مشتریانی که محصول X را خریدهاند، همچنین علاقه دارند در همان زمان از محصول Y نیز بخرند، در قاعده انجمنی زیر نشان داده شده است:
(پشتیبان = ۲۰% و اطمینان = ۶۰%)
شاخصهای اطمینان و پشتیبان قواعد بیانگر جذابیت آنها هستند. این دو شاخص به ترتیب مفید بودن و اطمینان از قواعد مکشوفه را نشان میدهند. پشتیبان ۲۰% برای قاعده انجمنی فوق به این معنی است که ۲۰% همهی تراکنشهای موجود نشان میدهند که کالای X و Y با هم خریداری شدهاند. اطمینان ۶۰% به این معنی است که۶۰% مشتریانی که کالای X را خریدهاند، کالای Y را نیز خریداری کردهاند.
اگر مجموعهای از عناصر حداقل پشتیبانی لازم را داشته باشند مکرر[۱۵] خوانده میشوند. قواعد قوی[۱۶]، قواعدی هستند که به طور توأمان دارای مقدار پشتیبان و اطمینان بیش از مقدار آستانه باشند. با بهره گرفتن از این مفاهیم، پیدا کردن قواعد انجمنی در دو گام خلاصه میشود، یعنی پیدا کردن مجموعههای مکرر و استخراج قواعد قوی.
۲-۲-۳-۱-۱- تقسیم بندی قواعد انجمنی
بر اساس ارزش عناصر درون قواعد، میتوان قواعد را به انواع دودویی و کمی تقسیم کرد، در مثال زیر، قاعده اولی دودویی و دومی، کمی است.
]۶۰% = confidence ,2% Computer ⇒ Financial management software و یا مقیاسهای[۱۸] مختلف تعریف شوند، قواعد را میتوان بر اساس این سطوح خلاصه نمود. مراتب خلاصهسازی و اینکه آیا قواعد در یک سطح هستند یا در چند سطح، میتواند مبنای تقسیمبندی باشد.
۲-۲-۳-۱-۲- استخراج قواعد تکسطحی تک بعدی دودویی
قبل از ارائه الگوریتمهای استخراج قواعد، نمادها و قراردادهایی را به منظور درک بهتر این الگوریتمها مطرح میکنیم.
اقلام مطابق با قاعده ترتیب حروف الفبا[۱۹] چیده میشوند، به عنوان مثال، اگر باشد، مطابق این قاعده، باید رابطهی برقرار باشد.
در تمامی این الگوریتمها مراحلی که طی میشوند به قرار زیر میباشند:
گام اول: در اولین گذر، پشتیبان هر یک از اجزا محاسبه شده، و اقلام مکرر (با بیشترین میزان فراوانی) با در نظر گرفتن آستانه حداقل پشتیبان انتخاب میشوند. (LK)
گام دوم: در هر گذر، اقلام مکرر که از فاز قبلی، محاسبه شدهاند برای ایجاد اقلام کاندیدا به کار میروند. (CK)
گام سوم: پشتیبان هر یک از CK ها محاسبه شده، و بزرگترین آنها انتخاب میشود. این کار تا زمانی که هیچ قلم بزرگتری یافت نشود، ادامه مییابد.
در هر فاز پس از یافتن اقلام بزرگ (LK)، میتوان قواعد مطلوب را به صورت زیر استخراج کرد:
برای تمامی اقلام مکرر L همهی زیرمجموعههای غیرتهی آن را (s) در نظر میگیریم. برای تمامی این زیرمجموعهها، یک قاعده به صورت زیر استخراج میکنیم:
“s ⇒ (L – s)” این قاعده در صورتی برقرار میشود که اطمینان حاصل از آن بزرگتر یا مساوی حداقل اطمینان در نظر گرفته شده توسط کاربر باشد، به بیان دیگر اگر رابطهی زیر برقرار باشد، قاعدهی فوق پذیرفته میشود و در غیر این صورت این قاعده لغو میشود.