……………………
۰
۱
۰
۱
Doc.ID
شکل (۳-۵) نمایش نامزدهای مجموعه termset
بنابراین کل فضای مستندات به فرم MKTPKS 3TermSets انتقال داده شدهاند و اطلاعات کلیدی به دقت به فرم دادههای متنی تعریف شدهاند. ماتریس جدید کارایی در فعالیتهای ردهبندی جهت تقسیم مستندات به دو کلاس متفاوت دارد. در این بخش جهت تحلیل دادهها نیاز به مطالعه برای به کار بردن الگوریتمهای دادهکاوی متفاوت خواهیم داشت. دادهها باید به فرمت مناسب تبدیل گردند. دادهها برای پردازش بیشتر در فایل متنی تثبیت میگردند. کلمات توقف نیز از دادههای متن حذف شدند و یک متد ریشهیابی ساده نیز اعمال گردیده است. این متد دادهکاوی متنی به کاهش ابعاد داده با حفظ فضای اطلاعات مفید و بدون از دست دادن اطلاعات کلیدی کمک می کند. واحد سطح اول: فایل متنی ذخیره شده را در نرمافزار Weka یا RapidMiner بارگذاری مینماییم که از طریق آن با بهکارگیری تکنیکهای خوشهبندی متفاوت میتوان به درک اولیه و کشف و تسخیر و عبارات کلمه کلیدی دانش دست یافت. الگوریتم خوشهبندی k-means جهت جداسازی فضای اطلاعاتی ورودی به اعداد و زیر فضاها اعمال میگردد. تعداد زیادی از آزمایشها برای پیدا کردن یک تعداد مناسب خوشهها به منظور کاهش اثر از دست دادن اطلاعات صورت میپذیرد. کاربرد تکنیک خوشهبندی تسخیر اطلاعات کلیدی با اولین سطح از دانش در عبارات کلمه کلیدی کمک می کند. اطلاعات کلیدی تسخیر شده در خوشههای مختلف به مجموعههای مختلف از اطلاعات موجود در هر سند[۱۵۵] اشاره دارد، بنابراین تفسیر این اطلاعات کلیدی و این که دقیقاً اسناد حاوی اطلاعات خوب یا بد هستند دشوار است. در گام دوم یعنی واحد پالایش دانش از قوانین انجمنی الگوریتم APRIORI جهت کاوش MKTPKS استفاده میشود. ورودی در قالب جداول رابطهای که در آن اسناد به عنوان معاملات و تراکنشها به عنوان اقلام است در نظر گرفته میشود. خروجی به شکل MKTPKS 3-Termsets خواهد بود. همکاری این عبارات جهت تولید ۳-TermSets MKTPKS به عنوان یک نهاد واحد برای نمایش موضوعات کلیدی مورد بحث در اسناد پایگاه داده متنی داده شده است. با توجه به مثال قبل در این سطح برای پیدا نمودن موضوعات کلیدی مورد بحث در پایگاه داده متنی دچار مشکل میشویم و ردهبندی اسناد به اطلاعات خوب و بد به درستی و با صحت و دقت صورت نمیپذیرد. به منظور غلبه بر این مشکل روند استخراج اطلاعات مفید در اسناد مدون مذکور به تصفیه بیشتر نیاز دارد، این پالایش از اطلاعات کلیدی و یا کشف دانش در سطح ۱، از طریق کاوش قوانین انجمنی APRIORI صورت میپذیرد. لازم به ذکر است قبل از کاربرد این کاوش، اطلاعات کلیدی تسخیر شده از عبارات کلیدی نیاز به ذخیرهسازی خواهند داشت. این فعالیت یک پایگاه داده رابطهای با بهره گرفتن از جداول حاوی برچسبهای خوشهای، اصطلاحات کلیدی شناساییشده و کد شناسایی اسناد (شناسه) ایجاد می کند. این جداول رابطهای به فرم MKTPKS مورد استفاده قرار میگیرند که اولاً باعث کاهش تعداد ابعاد در فضای ویژگی و ثانیاً جهت اعتبارسنجی فرضیه برای دستیابی به دقت بالاتر در ردهبندی میشوند. بخش ردهبندی و بهرهبرداری از دانش نشان میدهد که روشهای مورد استفاده برای ردهبندی دادههای متنی به دو کلاس مختلف تقسیم میگردد. نتایج به دست آمده از کاربرد سطح ۲ (واحد پالایش دانش) به فرم مدل ماتریس جدید مبتنی بر MKTPKS 3-termSets که در بخشهای قبل مورد بررسی قرار گرفت در دسترس خواهند بود. ماتریس جدید در نرمافزار Weka و یا RapidMiner بارگذاری شده و چهار الگوریتم ردهبندی مختلف در ردهبندی کلاسهای مربوطه به کار برده میشوند. مجموعه متغیر هدف برای این منظور به کار برده شده تا متغیر کلاس تعداد اسناد حاوی اطلاعات خوب یا بد را مشخص نماید. هدف از آموزش سیستم و تعیین نرخ ردهبندی صحیح و نادرست بود. نتایج به دست آمده از طریق ردهبندیهای مختلف در MKTPKS 3-termsets بر اساس مدل ماتریس بوده که به مقایسه دقت ردهبندی در برابر مدل عبارات ساده میپردازد. گوشهای از طبقهبندی دادههای متنی از پایگاه داده متنی با بهره گرفتن از درخت تصمیمگیری (C4.5 or J48) بر اساس بازنمایی و بر پایه عبارات ساده تشکیل شده است. نمودار درختی تشکیل شده در نرمافزار RapidMiner نشان میدهد که هر گره به زیر گرهها یا برگ تقسیم شده است که مستندات اطلاعات به گروه خوب و بد ردهبندی میشوند. هر گرهای که Information Gain آن حداکثر (Maximum) بوده است به زیر نودهایی تقسیم شده است. هر گره برگ نشاندهنده ردهبندی نهایی اطلاعات به اسناد حاوی اطلاعات خوب یا بد در مورد یک پروژه در پایگاه داده متنی است. ردهبندی دادهها بر اساس ارائه سیستم MKTPKS 3-termsets صورت میپذیرد. فضای اطلاعات به دو کلاس از مستندات اطلاعاتی شامل خوب و بد که با انتخاب گرهها و زیر گرههای اطلاعاتی ردهبندی میشوند تقسیم میگردد. برگ شاخه نشاندهنده تعداد از مستندات ردهبندیشده به عنوان خوب و بد است. بنابراین فرایند تشکیل درخت تصمیمگیری تا زمانی که فضای سند از اطلاعات به طور کامل به دو دسته مختلف ردهبندی گردد ادامه مییابد. سناریوی تحقیق جاری با در نظر گرفتن عبارات زیر تعریف شده است. ‘‘مطلوب محقق تعداد بسیار کم دستورالعمل و تغییرات است’’ که میتواند به کارکنان جهت اجرای هموار (نرم) پروژه کمک نموده و آن را در زمان مقرر به پایان رساند. زمان اتمام پروژه یا زمان ارائه خدمات میتواند یک شاخص عملکرد کلیدی خوب باشد که اگر پروژه یا خدمت در آن (زمان مقرر) به اتمام برسد موجب رضایتمندی محقق میگردد. از این جهت اگر تصمیمگیرندگان میتوانند بهآسانی ردهبندی دادههای متنی را بر اساس مستندات حاوی اطلاعات خوب یا بد انجام دهند دلیل آن خواهد بود که تجزیه و تحلیلهای دقیقتر و بهتری گرفته شود. این عمل در نهایت به بهبود نتایج حاصل از تحقیقهای کیفی با توجه به تجربههای به دست آمده در گزارشهای قبل، کمک می کند. یکی از اهداف این پژوهش ردهبندی با دقت دادههای متنی است. (کاهش نرخ غیر ردهبندی) برای رسیدن به این هدف و مدیریت بهتر منابع دانش، مدلهای ماتریسهای مختلف با ساختار دادهایی متنی در نظر گرفته شدهاند. دقت ردهبندی با بهره گرفتن از اطلاعات ردهبندی مستندات حاوی اطلاعات خوب و بد محاسبه میگردد. ارزیابی نهایی از روش ارائه شده بر اساس متوسط F-Measure است که به عنوان میانگین هارمونیک بازخوانی و دقت[۱۵۶] تعریف شده ساخته شده است. دلیل انتخاب F-Measure این است که هر دو مفهوم دقت و بازخوانی در آن در نظر گرفته شده است.[۱۵۷] ارزیابی سیستم با ۱۰ برابر کردن روش اعتبارسنجی شده در Weka و RapidMiner مورد بررسی قرار گرفت. تنظیم برای هر الگوریتم برای رسیدن به یک سطح معین متفاوت بوده و این عمل باید به صورتی انجام پذیرد که دقت به بهترین شکل ممکن رعایت گردد. با ردهبندی بیز ساده، بهترین دقت ردهبندی با حفظ تنظیمات بدون تغییر به دست میآید. از نظر ردهبندیهای دیگر باید تنظیمات پارامترهای بهینه انتخاب شوند. در مورد الگوریتم درخت تصمیمگیری (C4.5 or J48) نسبت هستههای مختلف مورد استفاده قرار میگیرد تا بهترین نتایج با بهره گرفتن از نسبت هسته از ۱۰ به دست آید. به طور مشابه برای K-NN تنظیمات بهینه با K=10 در نظر گرفته شد و یک هسته خطی بهترین نتایج را براساس مدل ردهبندی مبتنی بر SVMs در اختیار ما قرار میدهد. (شیخبهایی، م، مینایی بیدگلی، ب، سلامی، م. ۱۳۹۳) جدول ۱ مقایسه عملکرد ردهبندیهای مختلف را نمایش میدهد.
جدول (۳-۲) مقایسه عملکرد طبقهبندیهای مختلف
Proposed MKTPKS based classification model (F-measure)
Term based classification model
(F-measure)
Classification model
۰٫۴۳۱
۰٫۴۷۹
Decision trees
(J48 or C4.5)
۰٫۴۹۲
۰٫۳۳۲
K-NN (k=10)
۰٫۵۸۱
۰٫۳۶۸
NAÏVE Bayes
۰٫۴۷۱
۰٫۳۷۸
SVMs
(Linear Kernel)
جدول ۱ دقت مدل ردهبندی مبتنی بر عبارات ساده را و ردهبندی مبتنی بر MKTPKS 3-Termsets را نمایش میدهد. دقت ردهبندی براساس مدلهای K-NN، Naïve Bayes و SVM (هستهای خطی) بهتر از مدل مبتنی بر عبارات ساده است.
شکل (۳-۶) مقایسه دقت طبقهبندی با بهره گرفتن از معیار F