برای هر تشکل :
شباهت اسناد موجود در تشکل های غیر از با عناوین تشکل محاسبه می شود.
اسناد و کاربران منتسب به آنها در صورتی منتقل میشوند که شباهت آنها از یک حد آستانه[۱۴۹] بیشتر باشد.
تا زمانی که الگوریتم به همگرایی نرسیده به ii برگشته و تمام مراحل را تکرار میکنیم.
برای محاسبه شباهت[۱۵۰] بین اسناد از معیار شباهت کسین[۱۵۱] استفاده میکنیم. معیار شباهت کسین، یکی از پرکاربردترین معیارها در حوزه بازیابی[۱۵۲] اطلاعات میباشد. این معیار کسینوس زاویه بین دو سند a و b را در فضای برداری محاسبه می کند. خروجی این معیار ارزیابی یک عدد نرمال شده در بازهی صفر تا یک است که صفر نشان دهندهی عدم تشابه و یک نشاندهندهی یکسان بودن دو بردار است. فرمول محاسبهی این معیار به صورت زیر تعریف می شود:
(۳-۱۲)
شکل (۳-۱۱) نشان دهنده فلوچارت[۱۵۳] الگوریتم CDBLC است.
شکل ۳-۱۱- فلوچارت الگوریتم CDBLC
جمعبندی
در این بخش، برای حل مسئله تشخیص تشکلها در شبکه های اجتماعی، روشی ارائه شد که در آن سعی می شود از بسیاری از داده های موجود در شبکه برای شناسایی تشکلهای بهتر و مناسبتر استفاده شود.
در فاز اول، بر اساس اطلاعات لینک موجود در شبکه و با بهره گرفتن از یک روش مبتنی بر مدل تشکلهای اولیه شناسایی میشوند. در فاز دوم، از اطلاعات محتوایی هر گره نیز استفاده شده و بر اساس روشهای پیمایش متن، تشکلها تغییر یافته و تکامل مییابند. این کار باعث می شود تشکلهای معناداری استخراج شوند و توضیح روابط بین اعضا نیز میسّر می شود.
در بخش بعد، آزمایشات نشان خواهند داد که روش CDBLC از روش پایه پیمایش متن بهتر عمل می کند.
فصل چهارم:
نتایج
نتایج
مقدمه
به طور کلی، بررسی کارایی هر الگوریتم پیشنهادی برای تشخیص تشکلها در شبکه های اجتماعی، با توجه به اینکه در اکثر موارد، ساختار تشکل واقعی[۱۵۴] یا کلا در دسترس نیست یا به طور ناقص در دسترس است، کاری بسیار دشوار و غیر علمی بهنظر میرسد. در عمل نیز چون ساختار تشکلها دائما در حال تغییر هستند و ساختار معین و از پیش تعیین شده ای ندارند، چالش بسیار بزرگی در راه بررسی و تحلیل شبکه های اجتماعی وجود دارد. بنابراین احتیاج به معرفی معیارهای ارزیابی کارایی وجود دارد که تا جایی که امکان دارد برای ارزیابی نیاز به مقایسه با ساختار واقعی نداشته باشد.
در این بخش از پایان نامه، نتایج آزمایشات تجربی برای نشان دادن برتری روش پیشنهادی با روش های موجود نشان داده می شود. برای این کار از مجموعه دادهی مشخص به همراه ساختار تشکل واقعی Cora و مجموعه دادهی واقعی بدون ساختار تشکل واقعی Twitter استفاده کردهایم که ار ادامه آنها را معرفی خواهیم کرد.
لازم به ذکر است که روش پیشنهادی ما در Matlab و بر روی سیستمی با مشخصات Processor Intel® Core™ 7 Duo CPU …GHz و ۱۶GB RAM پیاده سازی و اجرا شده است.
مجموعه داده ها
در ادامه مجموعه داده های بهکار رفته در آزمایشات را شرح خواهیم داد.
مجموعه دادهی Cora
مجموعه دادهی Cora که توسط [۱۵۵]MCcallum به صورت دستی برچسب خورده، شامل مقالات[۱۵۶] یادگیری ماشین[۱۵۷] میباشد[۳۷]. این مقالهها در یکی از هفت کلاس زیر، کلاس بندی[۱۵۸] میشوند:
نظریه[۱۵۹]
یادگیری قوانین[۱۶۰]
یادگیری تقویتی[۱۶۱]
روشهای آماری[۱۶۲]
شبکه های عصبی[۱۶۳]
الگوریتمهای ژنتیک[۱۶۴]
بر اساس مورد[۱۶۵]
این مقالات بهنحوی انتخاب شده اند که در مجموعه نهایی، هر مقاله حداقل توسط یک مقاله دیگر ارجاع[۱۶۶] داده شده باشد یا حداقل به یک مقاله دیگر ارجاع کرده باشد. تعداد کل مقالات موجود در مجموعه ۲۷۰۸ میباشد.
بعد از مشتقگیری[۱۶۷] از کلمات و حذف کلمات توقف[۱۶۸]، تعداد کلمات منحصر به فرد موجود در مجموعه برابر ۱۴۳۳ میباشد. همچنین تمامی کلماتی که در کمتر از ۱۰ سند آمده باشند نیز از این مجموعه کنار گذاشته شده اند.
مجموعه کدهای پیش پردازش داده ها با زبان JAVA نوشته شده اند.
مجموعه دادهی Twitter
Twitter یک شبکهی اجتماعی و سرویس ارائه دهندهی میکروبلاگ است که به کاربران اجازه میدهد تا ۱۴۰ حرف، پیام متنی را که توییت[۱۶۹] نامیده میشود، ارسال کنند. این میکروبلاگینگ در سال ۲۰۱۲ دارای ۵۰۰ میلیون کاربر فعال بوده است که ۳۴۰ میلیون توییت در روز ارسال میکنند و بیش از ۱.۶ میلیارد جستجو در آن انجام میشود[۱۷۰][۳۸].
این مجموعه داده شامل Tweetهای شبکه اجتماعی Twitter در سال ۲۰۰۹ میلادی است. به دلیل بزرگ بودن این مجموعه، در این آزمایشات ما از ۳۰% داده ها استفاده میکنیم.
برای پیش پردازش، همانند Cora ابتدا از کلمات مشتقگیری کرده سپس کلمات توقف و کلماتی که در کمتر از ۱۰ سند آمدهاند را حذف میکنیم. سپس ۳۰% داده ها را به صورت تصادفی انتخاب کرده و آزمایشات را بر روی آنها انجام میدهیم.
معیارهای ارزیابی
همانطور که پیشتر نیز بیان شد، برای ارزیابی کارایی یک الگوریتم شناسایی تشکلها در شبکه های اجتماعی، نیاز به معیاری داریم که شباهت خروجی الگوریتم پیشنهادی را به ساختار تشکل واقعی شبکه مورد نظر نشان دهد. بدین منظور معیارهای زیادی تعریف شده اند که به طور کلی به سه دسته تقسیم میشوند:
معیارهای مبتنی بر شمارش زوج[۱۷۱]
معیارهای مبتنی بر تطابق کلاستر[۱۷۲]
معیارهای مبتنی بر تئوری اطلاعات[۱۷۳]