دلایل آن که چرا اقلام یا کاربران در گروههایی با هم قرار میگیرند در اختیار ما قرار میدهند. یک رویکرد معمول برای حل این مشکل در فیلتر کردن جمعی آن است که مشخصات محتوای صفحات را با رتبهبندیها و قضاوتهای کاربر ادغام کنیم. به طور کلی در این رویکردها کلمات کلیدی از محتوای وبسایت استخراج میشوند و برای اندیسگذاری صفحات براساس محتوا یا طبقهبندی آنها به دسته های مختلف مورد استفاده قرار میگیرند. در حوزهی شخصیسازی وب این رویکرد به سیستم اجازه میدهد تا صفحات را نه تنها براساس افراد مشابه بلکه براساس شباهت محتوایی آنها به صفحاتی که کاربر اخیراً بازدید کرده است به او توصیه کند.
یک ضعف عمده در بیشتر رویکردهای موجود که از محتوای وب برای بهبود مدل کاربر استفاده میکنند این است که این روشها معمولاً از بردار عبارات برای نمایش علایق کاربر استفاده میکنند و ارتباطات معنایی بین این عبارات را نادیده میگیرند. در صورتی که میتوان با بهره گرفتن از معنا این روش نمایش را بهبود داد.
روشهایی که تاکنون ارائه شدهاند، در مواردی دارای اشکالاتی بودند. البته تکنیکهای جدیدی در رفع این مشکلات و بهبود آنها ارائه شده است. اما در بیشتر این تکنیکها، مسائل افزونگی داده و مقیاسبندی بالا وجود دارد. الگوریتمهای خوشهبندی متعددی براساس تکنیکهای مختلف وجود دارد. بیشتر این الگوریتمها، اشکالات متعددی دارند. همانطور که اندازه خوشه در طی افزایش کاربران وب افزایش مییابد، نیاز به بهینهسازی خوشهها اجتناب ناپذیر خواهد بود. در این پایاننامه قصد بر آنست تا یک متدولوژی بهینهسازی خوشه بر اساس سیستم فازی و الگوریتم ژنتیک ارائه شود.
شیوه پژوهش
در این پایاننامه پس از گردآوری مراجع منتشر شده در پایگاه های اطلاعاتی معتبر در زمینه وبکاوی و بهینهسازی خوشه و کلیه زمینه های مرتبط با آن، این منابع مطالعه و مورد تحلیل و بررسی قرار گرفته است. با شناسایی دقیق چالشها و مشکلات موجود، بررسی شد که هر یک از فنآوریهای شناخته شدهی حوزه علوم کامپیوتر چه نقشی در مرتفع کردن این موانع و چالشها داشتهاند که حاصل آن، در قالب چارچوبهایی تحلیلی ارائه شده است. این چارچوبهای تحلیلی بستر را برای ارائه رویکردی سودمند در جهت رفع چالشهای موجود فراهم میکنند.
در ادامهی پژوهش، با ارائه رویکرد پیشنهادی مبتنی بر بهینه سازی خوشه با بهره گرفتن از منطق فازی و الگوریتمهای تکاملی برای شخصیسازی وب، سعی در برطرف کردن چالشهای موجود در این حوزه شده است.
چارچوب پایان نامه
در فصل اول، مقدمهای بر وبکاوی و کاربردهای آن و حوزه شخصیسازی وب ارائه میشود. در ادامه اهداف انجام تحقیق و روش انجام آن بیان میشود.
در فصل دوم به مروری بر تحقیقات انجام شده در حوزه بهینهسازی خوشه و شخصیسازی وب پرداخته شده است.
در فصل سوم، فرضیه های مربوط به شیوه های تحقیق ارائه میشود. ابتدا به توضیح سیستم استنتاج فازی پرداخته میشود. همچنین نحوه استفاده از این سیستم در الگوریتم پیشنهادی شرح داده میشود و پس از شرح سیستم استنتاج فازی، به الگوریتم ژنتیک پرداخته خواهد شد.
فصل چهارم این پایاننامه مربوط به رویکرد پیشنهادی بهینهسازی خوشه با بهره گرفتن از منطق فازی و الگوریتمهای تکاملی برای شخصی سازی وب است. در این فصل، ابتدا شمای کلی سیستم را بیان میشود و سپس به جزئیات رویکرد پیشنهادی پرداخته شده و یک متدولوژی بهینه سازی خوشه براساس سیستم فازی ارائه میشود. از آنجا که در سیستم استنتاج فازی تعیین پارامترهای توابع عضویت، تاثیر مهمی در دقت نهایی خوشهبندی دارد. بنابراین در این سیستم برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده میشود. همچنین برای این که در خوشهبندی تا حد امکان افزونگی نداشته باشد، قصد بر آنست تا در بخش قوانین فازی نیز از الگوریتم ژنتیک استفاده شود تا افزونگی صفحات وب خوشهبندی شده تا حد امکان کاهش یابد. با این کار، دقت خوشه بندی صفحات وب نیز تا حد زیادی افزایش خواهد یافت.
در فصل پنجم، به جمعبندی تحقیق و نتایج حاصل از انجام آن پرداخته شده و در نهایت پیشنهاداتی برای کارهای آتی ارائه خواهد شد.
مراجع
[۱]. Anand, S. S., & Mobasher, B. (2003, August). Intelligent techniques for web personalization. In Proceedings of the 2003 international conference on Intelligent Techniques for Web Personalization (pp. 1-36). Springer-Verlag.
[۲]. Baeza-Yates, R. (2004, January). Web mining in search engines. In Proceedings of the 27th Australasian conference on Computer science-Volume 26 (pp. 3-4). Australian Computer Society, Inc..
[۳]. Bharat, K., Chang, B. W., Henzinger, M., & Ruhl, M. (2001). Who links to whom: Mining linkage between web sites. In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on (pp. 51-58). IEEE.
[۴]. Chakrabarti, S. (2000). Data mining for hypertext: A tutorial survey. ACM SIGKDD Explorations Newsletter, 1(2), 1-11.
[۵]. Chakrabarti, S., Dom, B. E., Kumar, S. R., Raghavan, P., Rajagopalan, S., Tomkins, A., & Kleinberg, J. (1999). Mining the Web’s link structure. Computer, 32(8), 60-67.
[۶]. Devi, B. N., Devi, Y. R., Rani, B. P., & Rao, R. R. (2012). Design and Implementation of Web Usage Mining Intelligent System in the Field of e-commerce. Procedia Engineering, 30, 20-27.
[۷]. Eirinaki, M., & Vazirgiannis, M. (2003). Web mining for web personalization. ACM Transactions on Internet Technology (TOIT), 3(1), 1-27.
[۸]. Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.
فصل دوم:
پیشینه تحقیق
مقدمه
در این فصل، به بررسی اجمالی منابع منتشر شده در پایگاه های اطلاعاتی دنیا پرداخته شده است. تأکید بیشتر این تحقیق بر روی شخصیسازی وب میباشد.
مروی بر کارهای انجام شده
در پانزده سال گذشته، رشد تعداد وب سایتها و مراجعهکنندگان به این سایتها به صورت نمایی افزایش یافته است. تعداد کل کاربران تا ۳۰ ژوئن سال ۲۰۱۰، ۸۱۶/۵۱۴/۹۶۶/۱ نفر بوده است که حدود ۷/۲۸% تعداد کل جمعیت جهان است[۱]. تعداد کل وبسایتهای فعال تا ۱۳ دسامبر سال ۲۰۱۰، ۲۵۹/۵۲۲/۱۲۵ بوده است[۲]. به دلیل این رشد فزاینده، تعداد عظیمی از داده های وب تولید شده است. به منظور استخراج داده های مورد نظر از این دریای وسیع، میتوان از تکنیک دادهکاوی بهره گرفت. اما از آنجایی که داده های وب بدون ساختار یا نیمه ساختاری هستند، نمیتوان به طور مستقیم تکنیک دادهکاوی را به کار گرفت. بنابراین از یک روش دیگر بنام وبکاوی باید بهره جست. وبکاوی به منظور اکتشاف الگوهای جالب که میتواند برای بسیاری از مسائل دنیای واقعی همچون وبسایتهای ارتقاء یافته، رفتارشناسی بهتر کاربران، توصیه محصول و غیره به کار گرفته شود، مورد استفاده قرار میگیرد (Pani, & et. al., 2011).
تحقیق در مورد وبکاوی قسمتی از چندین تحقیق را شامل میشود، مانند پایگاه داده، اطلاعات، زبان ماشین و فرایند زبان طبیعی. اگرچه وبکاوی ارتباط قوی با دادهکاوی دارد ولی با دادهکاوی یکسان نیست. فرآیندهای کاوش داده در وب، در طبقات و فرمتهای گوناگون رخ میدهد. وبکاوی استفاده از تکنیکهای دادهکاوی برای کشف اتوماتیک و استخراج اطلاعات از سرویسها و اسناد وب میباشد. مطابق با دادهی وب استفاده شده به عنوان ورودی در فرآینده دادهکاوی، سه شاخه اصلی در وبکاوی شامل ساختار کاوی وب، محتوا کاوی وب و وبکاوی کاربرد وب میباشد (Kosala, & Blockeel, 2000; Markov, & Larosee, 2007).
پیشبینی رفتار کاربر یکی از بحثهای مهم در کندوکاو کاربرد وب است. به منظور دستیابی به این هدف لازم است تا رفتار مروری کاربر را از طریق تحلیل دادههای وب یا لاگهای وب، تحلیل شود. پیشبینی نیازهای بعدی کاربر، به رفتار مشابه قبلی کاربر بستگی دارد. پیشبینی رفتار کاربر مزیتهای زیادی دارد، برای مثال، شخصیسازی، ساخت یک وب سایت مناسب، بهبود استراتژی بازاریابی و غیره. لی و همکارش (Leacock, & Chodorow, 1998) دو سطح از مدل پیشبینی را ارائه کردند. روش آنها دو سطح از چارچوب کلی برای پیشبینی را کاهش میدهد. دو سطح از مدل پیشبینی با ترکیب مدل مارکوف و قضیه بیزی، طراحی میشود. در دو سطح از چارچوب مدل پیشبینی، ماتریس انتقال، با بهره گرفتن از تحلیل رفتار گشت و گذار کاربر و قضیه بیزی ایجاد میشود. نتایج آزمایشات از این مدل، برای پیشبینی دستهبندی صفحات قابل توجه است. کندوکاو وب برای صفحات وب اجرا میشود و سرویسهای اینترنت به منظور پیدا کردن و استخراج کردن دانشهای قابل دسترس اجرا میشود.
آقای Nina و همکارانش (Nina, & et. al., 2009) یک ایده کامل برای کشف الگوی وبکاوی کاربرد وب معرفی کردهاند. سازندگان سایتهای وب باید دانش واضح و روشنی از مشخصات کاربر و نیاز سایت داشته و همچنین اطلاعات مؤکدی از رویکرد کاربران برای جستجو در وب سایت داشته باشند. سازندگان وب میتوانند رفتار بازدید کنندگان را با بهره گرفتن از تحلیل وب و تشخیص الگوهای رفتاری کاربران، تجزیه و تحلیل کنند. تحلیل وب شامل تحول و تفسیر سوابق ورود به وب برای شناسایی اطلاعات پنهان یا الگوی تخمین با بهره گرفتن از دادهکاوی و فرایند کشف دانش است. همچنین به منظور پیشبینی مؤثر آنلاین، شینده و همکارش (Shinde, & Kulkarni, 2008) یک معماری برای توصیه آنلاین برای پیشبینی در سیستم وبکاوی کاربرد فراهم ساخته است. این روش به منظور افزایش صحت دستهبندی از طریق تعامل بین دستهبندی، ارزیابی و فعالیتهای کاربر حاضر و مشخصات کاربر در فاز آنلاین این معماری معرفی شده است.
از رویکردهایی که میتوان در وبکاوی از آنها بهره جست میتوان به رویکرد بر مبنای کلمات کلیدی، رویکرد معنایی اشاره کرد. بسیاری از منابع علایق کاربر را به صورت مدلهایی در میآورند که از ویژگیهای کلمات مانند تعداد تکرار آنها یا همپوشانی آنها با کلمات دیگر در مستندات وب دیدهشده توسط کاربر بهره میبرند. از جملهی آنها میتوان به کارهای صورت گرفته در (Minio, & Tasso, 1996)، (Lieberman, & et. al., 1999)، (Miranda, & et. al., 1999) و (Mobasher, & et. al., 2000a) اشاره کرد. در این روشها معمولاً به کلمات موجود در وبسایت، براساس tf-idf وزن داده میشود و پس از حذف کلمات با وزن کمتر از یک حد آستانه، هر سند وب به صورت برداری از عبارات باقیمانده (یا کلمات کلیدی) در نظر گرفته میشود.
در سال های اخیر کوشش شده است که تکنیکهای معنایی را که در ذخیره و بازیابی اطلاعات به کار میروند، جهت بهبود رویکرد بردار عبارات به کار ببرند. دو روش آماری و مبتنی بر سلسله مراتب برای این منظور ایجاد شدهاند. تکنیکهای آماری به دنبال ارتباطات نهفته بین اشیای همرخداد میگردند. معروفترین آنها روش LSA است. از جمله کارهای صورت گرفته بر اساس این روش در زمینهی مدلسازی کاربر میتوان به (Zhang, & et. al., 2005) اشاره کرد. در این کار در سه مرحلهی تشخیص داده های کاربردی، خوشهبندی جلسات کاربران و ساخت پروفایل، پروفایل کاربران ساخته میشود. لازم به ذکر است که در مرحلهی دوم با بهره گرفتن از الگوریتم جدیدی به نام Latent Usage Information (LUI) که بر مبنای الگوریتم k-means میباشد، جلسات کاربران خوشهبندی میشوند. برای این کار، پس از SVD بر روی ماتریس SP، برای هر جلسهی si برداری در فضای با بعد کمتر یعنی si` بدست میآید. معیار شباهت الگوریتم خوشهبندی با بهره گرفتن از شباهت کسینوسی بین دو بردار با ابعاد کمتر حاصل از si و sj محاسبه میشود. سپس الگوریتم بر روی آن اعمال میشود. همچنین در مرحله سوم، مرکز هر خوشه از طریق بردار میانگین آن محاسبه میشود و در نهایت پروفایل کاربر به صورت برداری از مشاهده صفحات و وزن آنها نشان داده میشود.
بهرنگ مسعودیفر (مسعودیفر، ۱۳۸۵) در پایاننامه خود سعی در حل مشکل مربوط به کاربر جدید در سیستمهای توصیه کننده تحت وب با بهره گرفتن از روش های آماری نموده است، کاربر جدید یعنی کاربری که از او دادهها و سوابق تعاملات کاری کمی در دسترس است. با این حال، در این کار تلاشی برای بهبود مدل کاربر جهت بهبود فرایند شخصیسازی وب انجام نشده است.
روش های مبتنی بر سلسله مراتب معمولاً با بهره گرفتن از یک واژگان شناختی یا رده بندی مانند WordNet سعی در بهبود مدل فضای برداری دارند. در بیشتر این روشها، جهت نگاشت دادههای کاربرد به اشیاء، از معیارهای ارتباط معنایی استفاده میشود. در (Nasraoui, & et. al., 2000) ادعا شده است که روشهای یادگیری بدون ناظر مانند خوشهبندی، برای تحلیل داده های کاربران ایدهآل میباشند و بر این اساس یک روش جدید برای خوشهبندی فازی به نام [۳]CARD جلسات کاربران ارائه شده است. در این مقاله به هر URL یک عدد یکتا نسبت داده میشود و جلسهی کاربر نیز به صورت یک بردار دودویی نسبت داده میشود که حضور یا عدم حضور یک URL را در یک جلسه نشان میدهد. این مقاله بیان میکند که در غیاب هر گونه دانشی در مورد دادههای کاربران، دو نوع خوشهبندی میتوان به کار برد. نوع اول روشهایی هستند که با داده های شیئی (یا بردار ویژگیها) کار میکنند و نوع دوم روشهایی که با داده های رابطهای کار میکنند. در این مقاله ادعا شده که روش های نوع دوم برای داده های کاربرد وب مناسبتر هستند و از این رو برای تبدیل داده های جلسات کاربران به شکل رابطهای نیازمند محاسبهی شباهت بین هر دو جلسه میباشد. در نتیجه معیار شباهت جدیدی در این مقاله ارائه میشود که هم URL صفحات و هم ساختار وبسایت در آن لحاظ میشود. از آنجا که مهمترین دستاورد این کار، الگوریتم خوشهبندی و معیار شباهت آن است، لذا از فاصلهی بین خوشهها و فاصلهی درون خوشهها برای ارزیابی استفاده شده است. در این مقاله از محتوای صفحات، تنها در حد URL آنها استفاده میشود و نمیتوان آن را به صورت دقیق، یک روش محتوایی به شمار آورد.
در سیستم SiteIF ارائه شده در (Magnini, & Strapparava, 2004) از WordNetDomains به عنوان ردهبندی استفاده شده است. WordNetDomains یک نسخهی گسترش یافته و چند زبانی از WordNet است و در آن هر synset با حداقل یک برچسب دامنه حاشیهنویسی شده است. این مقاله سعی در نمایش مستندات وب براساس synset ها میکند و برای این کار از رفع ابهام دامنهی کلمه (WDD) استفاده میکند. استدلال این مقاله برای استفاده از دامنه این است که باعث کاهش پیچیدگی در رفع ابهام معنای کلمه میشود. WDD یک فرایند دو مرحلهای برای رفع ابهام معنای کلمه است که در مرحلهی اول، دامنهی کلمه در متن را با بهره گرفتن از WordNetDomains مشخص میکند و در مرحله دوم با بهره گرفتن از آن مناسبترین معنای آن کلمه در آن مستند را پیدا میکند.
همچنین در سیستم SEWeP ارائه شده در (Eirinaki, & et. al., 2003) از یک ردهبندی دستساخته برای وبسایت و نیز از WordNet به عنوان فرهنگ جامع استفاده شده است. در این کار، برای مدل کردن کاربر از ثبتهای انتزاعی معروف به C-log استفاده شده است.
برای دانش استخراج کردن، قابل فهم کردن و استفاده کردن، نیاز به تکنیکهای دادهکاوی خبره میباشد. تاکنون تحقیقات زیادی در حوزههای مختلفی مانند مدلسازی کاربر و وبکاوی کاربرد وب به منظور استفاده از رفتار کاربر در وب به منظور ایجاد مدلی از علایق وی به صورت ضمنی انجام گرفته است. در زمینهی شخصیسازی وب، مدل کاربر را هم میتوان فقط بر مبنای داده های کاربرد وب ساخت، مانند کار (Mobasher, & et. al., 2000b) که درکی سطحی از الگوها میدهد و هم میتوان از محتوای صفحات برای ایجاد مدل بهتر استفاده کرد. در (Dai, & Mobasher, 2002) یک چارچوب شخصیسازی وب معرفی شده است که پروفایلهای کاربرد یک سیستم فیلترکردن جمعی را با بهره گرفتن از واژگانشناختی میسازد. این پروفایلها از طریق نمایش هر صفحه با یک مجموعه از اشیای واژگان شناختی به پروفایل های تجمعی سطح دامنه تبدیل میشوند. در این کار فرض شده است که نگاشت هر ویژگی محتوایی به اشیای واژگان شناختی، یا به صورت دستی و یا با بهره گرفتن از روش های یادگیری با ناظر انجام میشود. واژگان شناختی تعریف شده، شامل کلاسها و نمونه های آنها میباشد، از این رو تجمع از طریق گروهبندی نمونه های مختلفی که به یک کلاس تعلق دارند انجام میشود. در (Acharyya, & Ghosh 2003) یک چارچوب شخصیسازی وب برمبنای مدلسازی مفهومی از رفتار گردشی کاربر ارائه شده است. متدولوژی ارائه شده شامل نگاشت هر صفحهی ملاقات شده به یک عنوان یا مفهوم، اعمال یک سلسلهمراتب درختی (ردهبندی) بر روی این عنوانها و سپس تخمین پارامترهای یک فرایند نیمهمارکف بر روی این درخت بر مبنای مسیرهای مشاهده شدهی کاربر میباشد. در این کار مبتنی بر مدل مارکف، تعیین مشخصات معنایی وبسایت به صورت دستی انجام میشود. علاوه بر این، از هیچ معیار شباهت معنایی برای بهبود فرایند پیشبینی استفاده نمیشود و این امر فقط در تعمیم یا تخصیص عبارات واژگان شناختی استفاده میشود.
معمولاً لازم است تا رفتار دسترسی کاربر مدل شود تا سرویسهای آنلاین شخصیسازی شده هوشمند، مانند پیشنهادات وب مهیا شود. یکی از این روشها، کندوکاو استفاده از وب است که لاگهای وب را برای پیشنهاد به کاربر کندوکاو میکند. برخلاف اکثر سیستمهای پیشنهادی وب که بیشتر براساس خوشهبندی است، گانگ و همکارانش، یک سیستم شخصیسازی وب پیشنهاد کردند که از کندکاو الگوی دسترسی ترتیبی استفاده میکند. در سیستم پیشنهادی آنها الگوریتم کندوکاو الگوی ترتیبی مؤثر، برای تشخیص الگوهای دسترسی وب پیشنهاد شده است. الگوهای دسترسی در یک ساختار درخت فشرده ذخیره میشود که به آن درخت الگو گفته میشود، و سپس برای تطبیق و تولید لینکهای وب برای پیشنهادات استفاده میشود (Gang, & Yue, 2009).
پینگ و همکارانش یک مدل پیشنهادی شخصیسازی برای منابع مورد نظر کاربر، براساس لاگ دسترسی وب کاربر ارائه کردند. این مدل براساس الگوریتم اولویت و تکنولوژی tf-idf ساخته شده است که شامل سه قسمت است: توصیف منابع، استخراج اولویت کاربر و پیشنهادات شخصیسازی. سپس مدل آنها بردار فضای متنی منابع را با بهره گرفتن از تحلیل اطلاعات منابع دستیابی شده به وسیله لاگ دسترسی کاربر تولید میکند. سپس مجموعهی مورد نظر کاربر را با بهره گرفتن از الگوریتم اولویت به دست میآوردند. سرانجام منابع ذخیره شده و فیلتر شده برای کاربر را براساس مدل پیشنهادی، ارائه میدهند (Peng, & et. al., 2008).
در (Banerjee, & Pedersen, 2003) یک روش وبکاوی جدید برای شخصسازی وب ارائه شده است. روش پیشنهادی ابتدا یک مدل رفتار کاربر را با بهره گرفتن از مفهوم فرمال فازی شکل میدهد. براساس این روش، اکثر منابعی که در طول یک دوره زمانی مورد علاقه کاربر است، میتواند بدست آورده شود.
شیری و همکارانش (Suryavanshi, & et. al., 2006) روش های خوشهبندی فازی را برای کشف پروفایلهای مناسب که مدل رفتار دسترسی کاربر را روی وب سایت نشان میدهد، به کار گرفتهاند. در این تحقیق، تحلیل آزمایشی از یک روش فازی برای کندوکاو کردن پروفایلها ارائه شده است. آنها در مورد استراتژی الگوریتم خود پارامترهای ورودی مورد نیاز، توانایی اداره کردن نویز، قابلیت مقیاسپذیری برای دیتاستهای بزرگ و وجود تشابه در ناحیه ها بحث کردهاند.
در Baraglia, & Palmerini, 2010)) یک سیستم وبکاوی کاربرد وب (WUM) تحت عنوان SUGGEST معرفی شده است که بطور مداوم اتصالات پیشنهادی به صفحات وب مهمِ احتمالی برای کاربر را ایجاد میکند. سیستم SUGGEST به منظور ترکیب مؤثر فرایند WUM با عملکردهای سرور وب منظم پیشنهاد شده است. این سیستم میتواند داده های با ارزش را به منظور ایجاد هر چه سادهتر ناوبری وب کاربر و بهبود کارایی سرور وب حاصل نماید. در (Baritos, & et. al., 2007) یک الگوریتم هوشمند پیشپردازش داده در وبکاوی کاربرد را ارائه کرده است. الگوریتمی بنام «USIA» پیشنهاد داده شده است و نقاط ضعف و قوت ان بررسی شده است. ارزیابی تجربی USIA نشان دهندۀ بهره وری بهتر آن است. همچنین این روش، کاربر و جلسه واقعی را تعیین میکند.
در (Rahmani, & Chawman, 2010) سیستمی بنام WebPUM معرفی شده است، که به پیشگوی آنلاین با بهره گرفتن از WUM میپردازد و روش جدیدی را برای کلاسبندی الگوهای حرکتی کاربر پیشنهاد مینماید که از این روش در پیشگویی رفتار آینده کاربر استفاده مینماید. در این روش الگوریتم جدید تقسیمبندی گراف برای مدلسازی الگوی حرکتی کاربر و الگوریتم بزرگترین زیر دنباله مشترک برای کلاسبندی فعالیتهای کاربر استفاده شده است. در (Zhao, & Bhowmick., 2003) روش دیگری مبتنی بر خوشهبندی در Web-Canvas ارائه شده است. در این روش کاربرانی با الگوی حرکتی مشابه در یک خوشه قرار میگیرد. به دلیل تعیین خوشهها و انتساب صفحاتی به این خوشهها به صورت ایستا و تعیین شده از قبل، سبب ایجاد محدودیت برای ارتقای وب سایت در آینده میشود.
علی اکبری (اکبری، ۱۳۸۴) در پایاننامه خود با بهره گرفتن از تکنیکهای خوشهبندی، روشی را جهت انطباق صفحات وب از طریق تغییر و انطباق پیوندهای موجود در صفحات جهت پیمایش صفحات به صوررت آسانتر و منطبق بر کاربر ارائه نموده است. در (Masseglia, & et. al., 2000) با بهره گرفتن از کاوش کاربردی وب، روابط میان صفحات وب و مشاهده آنها در جلسات کاربر از طریق قوانین همبستگی کشف میشود. این روابط معمولاً برای شخصیسازی به کار میرود. همچنین میتوان ارتباط میان کاربران را از طریق مجموعه آیتمهای آنها به دست آورد. برای بهبود این روش از الگوریتم k-means استفاده میشود که در آن تراکنشهای کاربران خوشهبندی میشود. یک خوشه از تراکنش نشان دهنده کارایی با رفتار مشابه است. استفاده از این روش در دادههایی با مقیاس زیاد مناسب نیست.
اطمینانی و همکارانش (Etminani, & et. al., 2009) از الگوریتم خوشهبندی مورچگان برای لاگهای پیشپردازش شده به منظور استخراج مکرر الگوها برای کشف الگو بهره گرفته و سپس آن را در یک فرمت تفسیری نمایش میدهد. در (Sujatha, & et. al., Iyakutty, 2010) یک چارچوب جدید برای بهبود کیفیت خوشه جلسات وب از طریق خوشهبندی k-means با بهره گرفتن از الگوریتم ژنتیک (GA) ارائه کرده است. در ابتدا یک الگوریتم k-means بهبود یافته برای خوشهبندی جلسات کاربران به کار گرفته میشود. شرایط اولیه تصحیحشده اجازه میدهد تا الگوریتم تکرار شونده به بهترین مینیمم محلی همگرا شود. در مرحلهی ثانویه، این مرجع به منظور بهبود کیفیت خوشهبندی، یک الگوریتم تصحیحگرا بر مبنای GA پیشنهاد داده است.
آقابزرگی و همکارش (Aghabozorgi, & Wah, 2009) استفاده از خوشهبندی فازی افزایشی را برای وبکاوی کاربرد پیشنهاد داده است. در این مرجع یک روش جدید برای تولید مدل دینامیک از مدل آفلاینِ تولید شده توسط خوشهبندی فازی معرفی کرده است. در این روش، برای اصلاح مدل آفلاین، تراکنشهای کاربر به صورت دورهای مورد استفاده قرار میگیرد. بدین منظور، یک روش بهبود یافته از خوشهبندی رهبر همراه با روش های ایستا استفاده میشود تا خوشهها در یک سبک افزایشی ایجاد شوند.
در (Maratae, & Petrosino, 2009) به منظور بررسی شخصیسازی وب، یک روش هوش اکثریت ابتکاری طراحی کرده است که بدون دردسر، در تغییر الگوهای پیمایشی تنظیم میشود. این روش پیشنهادی، از رفتار انسان در یک محیط ناشناس به هنگامی که چندین افراد بطوری موازی در حال کار هستند، تقلید کرده و از توانایی پیشبینی با بهترین صحت و به صورت زمان واقعی برخوردار است.
در نهایت در (Varghese, & John, 2012) که به عنوان مقاله بیس این تحقیق میباشد، یک متد بهینهسازی خوشهبندی مبتنی بر منطق فازی ارائه شده است. در این تحقیق برای خوشهبندی صفحات وب از الگوریتم خوشهبندی فازی C-Means استفاده شده است. . الگوریتم خوشه- تعقیب فازی برای بهینه سازی خوشه ارائه شده است تا خوشههای صفحه وب کاربران نهایی شخصیسازی کند.
مراجع
[۱]. Acharyya, S., & Ghosh, J. (2003, August). Context-sensitive modeling of web-surfing behaviour using concept trees. In Proc. of the WebKDD Workshop on Web Mining and Web Usage Analysis (pp. 1-8).
[۲]. Aghabozorgi, S. R., & Wah, T. Y. (2009, December). Using incremental fuzzy clustering to web usage mining. In Soft Computing and Pattern Recognition, 2009. SOCPAR’09. International Conference of (pp. 653-658). IEEE.
[۳]. Baraglia, R., & Palmerini, P. (2002, April). Suggest: A web usage mining system. In Information Technology: Coding and Computing, 2002. Proceedings. International Conference on (pp. 282-287). IEEE.Britos, P., Martinelli, D., Merlino, H., & García-Martínez, R. (2007). Web usage mining using self organized maps. IJCSNS, ۷(۶), ۴۵.
[۴]. Banerjee, S., & Pedersen, T. (2003, August). Extended gloss overlaps as a measure of semantic relatedness. In IJCAI (Vol. 3, pp. 805-810).
[۵]. Dai, H. K., & Mobasher, B. (2002). Using ontologies to discover domain-level web usage profiles. Semantic Web Mining, 35.
[۶]. Eirinaki, M., Vazirgiannis, M., & Varlamis, I. (2003, August). SEWeP: using site semantics and a taxonomy to enhance the Web personalization process. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 99-108). ACM.
[۷]. Etminani, K., Akbarzadeh-Totonchi, M. R., & Yanehsari, N. R. (2009). Web Usage Mining: users’ navigational patterns extraction from web logs using ant-based clustering method. In IFSA/EUSFLAT Conf. (pp. 396-401).