معیار F
۲-۶ پژوهشهای انجام شده در این زمینه:
در این بخش به بررسی کارهای انجام شده می پردازیم بیشتر مباحث شامل روش های دسته بندی با نظارت، بی نظارت وقوانین انجمنی است. مقایسه بین روشهای بانظارت در اجرا و همچنین شناسایی داده غیرنرمال با بهره گرفتن از روشهای خوشهبندی و استفاده ازقوانین انجمنی برای تشخیص تقلب محورهای اصلی مورد بررسی است.
۲-۶-۱ پژوهش اول: کشف تقلب در سیستمهای مالی[۴۲]با بهره گرفتن از داده کاوی
۲-۶-۱-۱ هدف پژوهش:
هدف اینکار همان طور که در مقاله ذکر شده است جلوگیری از تقلب نیست چون متقلب خود را با شرایط وقف میدهد هدف شناسایی تقلب با بهره گرفتن از الگوریتم داده کاوی است. شناسایی تقلب با بهره گرفتن از روش بررسی نرمال کار سختی است دلیل اصلی کمبود دانش ما نسبت به تقلب است و دلیل دیگر اینکه تجربه کافی برای اینکه با این روش بتوانیم تقلب را تشخیص بدهیم نداریم به همین دلیل از روشهای آماری و داده کاوی استفاده میکنیم[۷].
۲-۶-۲-۲ رویکرد پژوهش:
در این مقاله از رویکرد ستنی داده کاوی شامل جمعآوری داده ها، یکپارچه سازی داده ها، پیش پردازش داده ها، داده کاوی و ارزیابی استفاده شده است. در این مقاله نیز همین چارچوب را نویسندگان برای کشف تقلب درسیستم های مالی پیشنهاد کرده اند. این مقاله یک مرور جامع بر کارهایی است که در زمینه تقلب در سیستم های مالی شده است[۷].
شکل ۲-۱۰: چارچوب کلی داده کاوی برای کشف تقلب[۷]
ویژگی مجموعه داده استفاده شده:
مفروضات آزمایش:
توزیع داده ها : داده های مربوط به سیستم مدیریت تقلب مالی به دو دسته توزیع میشوند داده های کمپانی با تقلب و بدن تقلب، داده های بازبینی شده و شرکتهای دولتی
توزیع داده ها: بیشتر تحقیقات بر شناسایی تقلب در داده های تقلب و غیر تقلب کاربرد دارد.
نوع یادگیری: دو نوع یادگیری بانظارت و بینظارت مورد بررسی قرار گرفت. بیشتر الگوریتمهای تشخیص تقلب مالی بر پایه یادگیری بانظارت است.
الگوریتمهای داده کاوی: کارهای ابتدایی داده کاوی شامل دستهبندی، خوشهبندی، قواعد انجمنی و پیش بینی است. بیشتر الگوریتمهای تشخیص تقلب مالی بر اساس دستهبندی است.
تکنیکهای داده کاوی: الگوریتمهای تشخیص تقلب مالی با توجه تکنیکهای داده کاوی به پنج دسته تقسیم میشوند رگرسیون، شبکهعصبی، درخت تصمیم ، شبکه بردار پشتیبان و شبکه بیزین
نتیجه آزمایش: در رهیافت تشخیص تقلب مالی ازروشهای بانظارت نوع دستهبندی و بیشتر از الگوریتمهای رگرسیون و شبکهعصبی استفاده می شود.
۲-۶-۲ پژوهش دوم: کشف تقلب در کارت اعتباری با بهره گرفتن از شبکه عصبی و بیزین
۲-۶-۲-۱ هدف پژوهش:
هدف پژوهش شناسایی تقلب در کارت اعتباری و همچنین مقایسه بین شبکه عصبی و بیزین است که با توجه به مجموعه داده و همچنین کاربرد خاص شبکه بیزین عملکرد بهتری دارد[۸].
۲-۶-۲-۲ رویکرد پژوهش:
در این رویکرد از یکسری داده مورد استفاده از شرکت international waterschoot at europay گرفته شده است. این مجموعه داده ها دارای ویژگیهای و اطلاعات مفید درباره هر تراکنش هست که با Fi نشان میدهیم.
در استفاده از شبکه عصبی پیشپردازش خیلی مهم است برای نمایش بهتر ارزیابی که مستقل ازیادگیری است ما از receive Operating Curve استفاده میکنیم.
بعد از آموزش بوسیله شبکهعصبی ما با مجموعه ویژگی که تاکنون ندیدهایم برخورد میکنیم وتراکنشها در یک مجموعه دسته بندی مینماییم. اما باید مشخص کنیم چه مقدار تراکنش در هر دسته واقعا درست هستند همچنین باید مشخص شود چند درصد از تراکنش ها واقعا متقلب هستند.
از دو نرخ بنام نرخ قطعی درست و نرخ قطعی غلط استفاده میکنیم
نرخ قطعی درست: چه مقدار تراکنش متقلب بطور صحیح متقلب تشخیص داده شده است.
نرخ قطعی غلط: چه مقدار تراکنش درست بطور غلط متلقب تشخیص داده شده است.
در منحنیROC ضلع X نرخ قطعی غلط و ضلع Y نرخ قطعی درست را نشان میدهد.
تشخیص تقلب با شبکهعصبی:
مهم بودن پیشپردازش برای کارایی شبکهعصبی بسیار مهم است در شکل ۲-۱۱ دو منحنیROC وجود دارد که از اجرا روی مجموعه داده ها با ۱۰ ویژگی بدست آمده است.
ROC پررنگ: که نتیجه بهتری است پیشپردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است دارای نرخ قطعی درست ۷۰% و نرخ غلط ۱۵% است.
ROC روشن: پیش پردازش پیش پردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است و دارای نرخ قطعی درست ۶۰% و نرخ غلط ۱۵% است [۸].
شکل ۲-۱۱:مقایسه خروجیها با بهره گرفتن از نمودار [۸] ROC
تشخیص تقلب با شبکه بیزین: در شکل همچنان که دیدید ROC وابسته به ساختار است و با بهتر کردن ساختار میتوان نتیجه بهتری گرفت.
ارزیابی :
در ارزیابی که در جدول ۲-۴ آمده است شبکه بیزین دارای عمکرد بهتری نسبت به شبکه عصبی است.
جدول ۲-۴: مقایسه نتیجه بین شبکهعصبی و شبکه بیزین[۸]
نرخ قطعی غلط ±۱۵
نرخ قطعی غلط ±۱۰
تست