۳-۴-۱-۴-۳ شخصیسازی نتایج جستجو
روشهای رتبهبندی مبتنی بر لینک تمایل به تولید نتایجی دارند که نسبت به محبوب ترین پرسوجوی مبهم گرایش دارند: “Jaguar” در گوگل، پاسخی مربوط به تمدن مایاها را در ده نتیجه اول نشان نمی دهد. در مقابل، اسنکت قادر به گرفتن چند مفاهیم کلیدی از کدهای آماده وب است. احتمالا برخی از رتبه های کم، که پس از آن توسط کاربر برای شخصی سازی نتایج تولید شده توسط موتورهای جستجو اصلی می تواند به کار گرفته شود. اسنکت سلسله مراتب پوشه برچسب گذاری شده را نیز برای اصلاح پرسوجو، رفع ابهام و استخراج دانش به عنوان زیر جزئیات به کارگیری می نماید.موتور شخصیسازی ماژول در شکل ۳-۳نشان داده شدهاست[۳۰,۲۱]
شکل ۳-۳استخراج اطلاعات برای “jaguar” [21]
۳-۴-۱-۵ مرور اسناد سلسله مراتب برای استخراج اطلاعات
کاربران، می توانند سلسله مراتب را برای استخراج اطلاعات مرور نمایند. این گسترش ارزان است زیرا در سمت سرویس گیرنده ایجاد میشود. این مرور میتواند به عنوان یک شکل از فرایند استخراج دانش دیده شود که به کاربر اجازه میدهد تاچند نقطه نظر را در قالب۲۰۰ یا بیشتر نتایج پرسوجو را بدون تلاش برای دیدن همه آنها بهدستآورد. این به این علت مفید است که کاربران اغلب فقط به ۱۰ نتیجه اول فهرست رتبهبندی شده-مسطح نگاه می کنند. که در آن یک کاربر از برچسبهای پوشه ایجاد شده برای پرسوجوی ” Jaguar” مطالب را یاد می گیرد که این عبارت اشاره می کند به: یک حیوان، یک ماشین، تمدن تولیدی صنعتی مایان فولاد، سنگ باند بریتانیا، و [۲۱]Mac OS X.
۳-۴-۱-۶ مرور اسناد سلسله مراتب برای انتخاب نتایج
کاربران میتوانند فهرست رتبهبندی شده از نتایج کدهای آماده را کوچکتر نمایند که برای مواردی است که یک برچسب l را تنها با کلیک کردن بر روی l تولید می نماید. این تقریبا شبیه به آن چیزی است که Vivisimo انجام میدهد، با تخصصی که اسنکت هر کاری را در سمت سرویس گیرنده انجام میدهد[۲۱].
۳-۴-۱-۷ اصلاح پرسوجو
هنگامی که کاربر به سلسله مراتب پوشه نگاه می کند، میتواند برای اصلاح پرسوجویQ در دو روش متفاوت تصمیم گیری نماید. همچنین او میتواند برچسبهای پوشه را برای انتخاب کلمات کلیدی جدید برای ساخت یک پرسوجوی جدید اصلاح شده به اسنکت به کارگیری نماید. او میتواند به عنوان کلمات کلیدی اضافی، کلمات یک برچسب l را با کلیک بر روی آن انتخاب کند. در این مورد دوم،اسنکت به طور خودکار پرسوجوی اصلاح شده فرمول(۳-۴) را برای حوضه سازی موتورهای جستجوی آن ارائه دهد و سپس یک سلسله مراتب پوشه جدید را برای آنها ایجاد نماید[۲۱].
Eq.(3-4) Q=Q ^ l
شکل ۳-۴ را ببینید که در آن پرسوجو در مورد “آلرژی” ممکن است با کلیک کردن بر روی برچسب ” آلرژی امداد / لاتکس ” به عنوان “آلرژی لاتکس” اصلاح شود. این یک شکل از گسترش پیشنهاد پرسوجوی استفاده شده توسط بسیاری از موتورهای جستجوی تجاری است که در اینجا دوباره در چارچوب خوشه بندی کدهای آماده-وب سلسله مراتبی تفسیر می شود. مرور سلسله مراتب برای “آلرژی"در شکل۳-۴ نشان داده شدهاست[۲۱].
شکل ۳-۴ مرور سلسله مراتب برای “آلرژی[۲۱]”
۳-۴-۱-۸ رتبهبندی شخصیسازی شده
کاربران میتوانند مجموعه ای از برچسبهای فرمول (۳-۵) را انتخاب کنند و ازاسنکت برای فیلتر کردن از لیست رتبهبندی شده، بازگردانده شده توسط موتورهای جستجوی مورد پرسش، کدهای آماده درخواست نمایند که به پوشههای برچسبگذاری شده با برچسبهای L’ تعلق ندارد این جدید ترین ویژگی ارائه شده توسط واسطه اسنکت است، زیرا به صورت پویا تطبیق لیست رتبهبندی شده از (حدود ۲۰۰ یا بیشتر) نتایج را با انتخابهای محلی ساخته شده توسط هر کاربر میسر میسازد[۲۸].
Eq.(3-5) } ,…, L={
برای اولین بار استفاده از خوشهبندی کدهای آماده-وب به عنوان یک ابزار برای شخصیسازی لیست رتبهبندی شده از نتایج منعکس شده توسط ابرجستجوگر نشان داده میشود. این ویژگی زمانی مؤثر میشود که کاربران پرسوجوهای آموزنده، با معانی بسیار و یا ضعیف را ارسال نمایند. شکل ۳-۶ مثالی است که در آن هدف کاربر در مواد مقدماتی در مورد زبان برنامه نویسی “جاوا” است که اول پرسوجوی “جاوا” را فرمول بندی می نماید و سپس برچسب “آموزش[۷۰]” و “مقدمات[۷۱]” را برای گرفتن نتایج شخصیسازی انتخاب می نماید.در شکل ۳-۵ اسنکت در پرسوجوی “جاوا"نشان داده شدهاست[۲۱].
شکل ۳-۵ . اسنکت در پرسوجوی “جاوا” [۲۱]
شکل ۳-۶ . اسنکت شخصیسازی شده: کاربر دو برچسب “آموزش” و “مقدمات” را انتخاب می نماید و لیست شخصی شده رتبه بندی شده را دریافت میکند[۲۱].
شخصیسازی اسنکت به طور کامل سازگار، مقیاس پذیر، و غیر نفوذی برای کاربر است. این به طور کامل سازگار و مقیاس پذیر است زیرا مبتنی بر مشخصات نیست و کاربران میتوانند انتخاب خود را بر اساس منافع شخصیسازی و متغیر با زمان خود وفق دهند. اسنکت همچنین به خاطر آن که به ورود صریح و روشن، پیش تدوین یک پروفایل کاربر ، و ردیابی جستجوهای گذشته کاربر نیاز ندارد، از حریم خصوصی کاربر محافظت می کند[۲۱].
لازم به توجه است که کاربر میتواند چندین بار برچسب انتخاب شده و در نتیجه مجموعه مشخص نتایج شخصی شده خود را را تغییر دهد. فیلتر کردن بر روی تمام ۲۰۰ (یا بیشتر) کدهای آماده بازگردانده شده مورد جستجو توسط موتورهای جستجو انجام میشود. همه چیز در سمت سرویس گیرنده رخ میدهد، در نتیجه از نظر محاسباتی ارزان است. به طور خلاصه، اسنکت میتواند هر ابرجستجوگر غیرشخصی به یک ابرجستجوگر شخصی تبدیل نماید[۲۱].
۳-۴-۱-۹ واسطه شخصیسازی شده وب
اسنکت یک واسطه بسیار سبک وزن مشتری را ارائه میدهد که حفظ هر حالت بر روی سرور نیاز نیست. برای هر پرسوجو، سرور خوشهبندی سلسله مراتبی کدهای آماده بازگردانده شده توسط موتورهای مورد پرسوجو قرار گرفته را انجام می دهد و سپس به مشتری وب تمام اطلاعات مورد نیاز برای انجام وظایف فوق در XML ارسال میکند. گسترش پوشهها، مرور و شخصیسازی مقیاس پذیر است چرا که آنها در سمت سرویس گیرنده رخ می دهند. در مقابل، Vivisimo به یک ارتباط بین کاربر و سرور برای هر اصلاح پوشه نیاز دارد[۱۹].
۳-۴-۱-۱۰ نتایج تجربی
اسنکت روی یکPC با لینوکس، CPU P4 و RAM 1.5 گیگابایت اجرا می شود.در اینجا فقط نتایج مهم گزارش می شود، در حالی که یک آزمایش گسترده تر به صورت آنلاین موجود است که در شکل ۳-۷ نشان داده شدهاست[۲۶].
شکل ۳-۷. مدت زمان (ثانیه) گرفتهشده توسط اسنکت برای بازیابی و خوشه بندی تعداد رو به رشد کدهای آماده بر روی “داده کاوی” پرسوجو[۲۱]
نوشتههای خوشهبندی کد آماده- وب سه روش مختلف برای مقایسه سیستم را ارائه میدهد. شواهد برای کیفیت نتایج، نظرسنجی انجام شده کاربر بر روی مجموعه ای از کاربران برای مجموعه ای از پرسوجوها و برخی از توابع ریاضی، یک اتفاق نظر کلی در مورد اندازه گیری در مورد استفاده برای ارزیابی یک موتور خوشه بندی کدهای آماده-وب وجود ندارد. علاوه بر این، اگر چه بسیاری از طرح های پیشنهادی برای ارزیابی خوشه بندی مسطح وجود دارد، هنوز تعریف ارزیابی ریاضی که بیان برچسبها در داخل یک سلسله مراتب پوشه را مشخص نماید، به طور کامل صورت نگرفتهاست. در ادامه، اسنکت با اجرای برخی از بررسی های کاربر، با رسم شواهد از اثربخشی کلی اسنکت و ماژول های آن، و با گسترش روش با هدف پرداختن به ” موضوع روشنی برچسب” ارزیابی می شود. این دو ارزیابی آخر، یک (در نوشتهها) مجموعه داده منحصر به فرد از کدهای آماده، غنی شده با نتایج خوشهبندی را که ما از موتورهای جستجو با بهره گرفتن از ۱۶ ۷۷ پرسوجو، انتخاب شده از جستجوهای بالا در lYCOS و گوگل که در سال ۲۰۰۴، جمع آوری شدهاست، به کارگیری می نماید. این مجموعه داده در به صورت آنلاین موجود است و میتواند آزادانه توسط جامعه پژوهش مورد استفاده برای آزمایش هر موتور جدید خوشهبندی کد آماده- وب استفاده شود[۲۶,۴۲].
۳-۵-۱-۱۰-۱ پیمایش های کاربران
-
- مطالعه اول، سودمندی خوشه های وب: این مطالعه در درک این مورد هدف گذاری شدهاست که آیا یک موتور خوشه بندی کد آماده-وب برای فهرست رتبهبندی شده صاف از نتایج ارائه شده توسط موتورهای جستجو کلاسیک (مانند گوگل) مفید است یا خیر. از۴۵ فرد با توانایی وب متوسط خواسته شد تا از Vivisimo در طول فعالیت های جستجوی خود روز به روز استفاده نمایند. پس از یک دوره آزمون۲۰ روزه، ۸۵٪ از آنها گزارش نمودند که استفاده از ابزار حس خوبی از گزینه های دامنه با برچسب معنی دار خود می دهد و ۷۲٪ گفتند که دارای ویژگی های مفید است[۲۱,۱۷].
-
- مطالعه دوم، اسنکت در مقابل دیگر سیستم های در دسترس:۱۸ پرسوجو ااز مجموعه دادههای متعلق به بسیاری از موضوعات مختلف (Iraq, Bush, Data mining, Bill gates, Last Minute, Car rental, Mp3, Divx, Sony, Final fantasy, Ipo, Equity, google ipo, Warterlo, Second war, aids, Allergy, Nasa) انتخاب شد و از سه کاربر خواسته شد تا نتایج را در برابر نتایج ارائه شده توسط Mooter، CIIRarchies، HIGHLIGHT، Carrot2 مقایسه نمایند. برای بخش بزرگی از پرسوجوها، کاربران Mooter را دوست نداشتند زیرا، پوشههای برچسبگذاری شده با کلمات تک را فراهم میکند. Carrot2 اغلب تمایل به ایجاد تعدادی از پوشهها دارد که بیش از تعداد کدهای آماده هستند و در نتیجه تأثیر منفی بر روی قابلیت استفاده از این نرم افزار دارد. Carrot2 نیز برای خوشه بندی برچسبهای با هم مشابه مانند “دانش، کشف دانش"، “استخراج معادن و دانش” با شکست مواجه شد و علاوه بر آن مسیرهای سلسله مراتب را با جملاتی برچسب گذاری می نماید که یک زیر رشته از دیگری هستند و در نتیجه دانش اضافی کمی را در حال دیدن سایت عرضه می نماید. Highlight با بهره گرفتن از طبقهبندی، برچسب خود را در سطح بالا بهدستمیآورد به طوری که آنها کم هستند و استفاده کمی دارند. علاوه بر این، خوشهبندی آن اغلب درخت های فرعی یکسان را تحت دسته های مختلف سطح بالا و تعدادی از پوشهها را تولید می کند که بیش از تعداد کدهای آماده آن هستند (به عنوان مثال ۱۶۰ پوشه برای پرسوجوی “IRAQ"). Ciirarchies سلسله مراتب خوبی فراهم میکند . آنها اغلب غیرفشرده، دارای عمق بزرگ و حاوی برخی از مطالب است که ممکن است تکراری باشد. از نقطه نظر عملکرد، دو تا از بهترین ابزارهای موجود، Ciirarchies و Highlight ، به میزان قابل توجهی کندتر از اسنکت هستند.لازم به یادآوری است که هیچ سیستم دیگری به صورت آنلاین برای مقایسه موجود نیست[۲۱].
-
- مطالعه سوم، اسنکت در برابر Vivisimo: یک ارزیابی مقدماتی از نرم افزاراسنکت، در برابر Vivisimo ترسیم شد. ۲۰ دانش جو از دانشگاه Pisa انتخاب شد و از آنها خواسته شد تا ۱۸ پرسوجوی بالا را در هر دو این موتورها انجام دهند. ۷۵٪ از آنها از کیفیت سلسله مراتب پوشه و برچسب آن راضی بودند. از این رو می توان بیان کرد که اسنکت به عملکرد نزدیک به Vivisimo دستیابی پیدا میکند[۲۱].
۳-۴-۱-۱۰-۲ مجموعه داده اسنکت و شواهد حکایتی
مجموعه داده شامل کدهای آماده جمع آوری شده توسط۱۶ موتور جستجو، در پاسخ به ۷۷ پرسوجو ساخته شدهاست. این مورد به صورت آنلاین در دسترس است. پرسوجوها در میان موارد جستجو شده در بالا در LYCOS و گوگل در سال ۲۰۰۴ انتخاب می شوند. برای هر پرسوجو، ۱۸۰-۲۲۰ کدهای آماده بازیابی شدهاست. مجموعه دادهها به طور دستی توسط انسآنهایی مشروح شدهاست که صحت نتایج Wrt پرسوجو را مورد قضاوت قرار دادند. علاوه بر این، این مجموعه داده با برچسبهایی از پوشههای تولید شده توسط اسنکت غنی شدهاست. به این ترتیب مجموعه دادهها را می توان برای پی بردن به شواهد در مورد کیفیت سلسله مراتب پوشه و برای تنظیم ماژول های نرم افزار ایجاداسنکت مورد استفاده قرار داد. این مجموعه دادههای بزرگ موجود در خط و تنها یک ساخته شدهاست بیش از پرسوجو بازیابی شده توسط بسیاری از موتورهای جستجو میباشد. این را می توان آزادانه توسط جامعه پژوهش مورد استفاده هر دو برای تولید مثل، نتایج تجربی و یا برای آزمایش هر موتور جدید خوشهبندی کد آماده- وب. این مجموعه داده بسیار مهم است، زیرا خوشه وب سایت کد قالب خوشه زودگذر است، و در نتیجه نتایج آن ممکن است در طول زمان به عنوان یک نتیجه از تغییر در لیست کدهای آماده بازگردانده شده توسط موتورهای جستجوتغییر داده شوند.در شکل ۳-۸ قضاوت نتایج اسنکت نشان داده شدهاست[۴۰].
شکل ۳-۸ چپ: قضاوت نتایج اسنکت،راست :تنظیمات کاربر[۲۱]
۳-۴-۱-۱۰ -۳ ارزیابی اسنکت
آزمایش گسترده ای برای تنظیم کردن ماژول های مختلف تشکیل دهنده اسنکت اجرا شدهاست. اسنکت با بهره گرفتن از مجموعه دادههای خود و اندازه گیری ریاضی ارزیابی شده و مورد اتخاذ شده را با توجه به سلسله مراتب پوشه برچسبگذاری شده گسترش میدهد. در واقع دقت در N برچسب مرتبط با پوشههای سطح بالای تولید شده را توسط اسنکت برای هر یک از ۷۷ پرسوجو ارزیابی شدهاست. دقت درN ، به صورت فرمول تعریف میشود:
Eq.(3-6)
که در آن M @ N ، تعداد برچسبهایی است که به صورت دستی در میان N برچسب سطح بالای محاسبه شده توسط اسنکت برچسبگذاری شدهاست. اگر یک برچسب l به عنوان “مبهم” برچسبگذاری شود، l در صورتی مرتبط دانسته میشود که اکثریت برچسبهای کودکان آن مرتبط باشند. P @ N، متخصص در برچسبهای سطح بالای پوشه، نشان دهنده رفتار کاربر طبیعی با توجه به این برچسب به عنوان مهم ترین برای مرور سلسله مراتب است. از P @ 3، P @ 5، P @ 7 و P @ 10 استفاده میشود زیرا کاربران تنبل دوست ندارند یک فهرست سلسله مراتب پوشه گسترده تر را مرور نمایند[۲۱].
۳-۴-۱-۱۰ -۳ -۱ مزایای استفاده از DMOZ
شاخص DMOZ به عنوان یک موتور رتبهبندی برای هدایت انتخاب بهترین جملات فاصله دار به عنوان برچسب پوشه عمل میکند. این موتور، افزایش چشم گیر P @ N و افزایش در تعداد برچسبهای مرتبط در سطح بالا را ایجاد میکند. در آزمایش ها این پدیده در یک مجموعه بسیار بزرگ پرسوجو که درشکل ۳-۹ نشان داده شدهاست خاطر نشان گشته است[۲۱].
شکل ۳-۹. P @ N با بهره گرفتن از شاخص DMOZ [21]