۳-۲-۱- جمع آوری دادهها:
اولین قدم در روشهای مبتنی بر دادهکاوی و خوشهبندی، جمع آوری داده است. در برخی از منابع ، جریان بستههای سالم و بستههای آلوده ، شبیهسازی شده و سپس توسط نرمافزارهای مانیتورینگ ، بستهها جمع آوری میشوند. در شکل ۳-۲، نمایی از این ساختار مشاهده میشود. در بخی از منابع نیز از مجموعهدادههای آماده که جریان واقعی شبکه را ذخیره نمودهاند استفاده میشود. در این پایاننامه از روش دوم استفاده شدهاست. برای این منظور از مجموعهداده ISOT [1] استفاده شدهاست.
شکل ۳-۲: نمایی از ساختار پیشنهادی برای مانیتورینگ بستههای شبکه
این مجموعهداده، ترکیبی از چندین مجموعهداده دردسترس مخرب[۷۴] و غیرمخرب[۷۵] است که در طول بازه زمانی ۲۰۰۴ تا ۲۰۰۵ به ازای ۲۲ زیرشبکه[۷۶]، جمع آوری شدهاست. این مجموعه، شامل تنوع کاربردی از ایمیل و وب تا بستههای کنترلی و جریانهای مدیا، می باشد که این امر نشاندهنده ماهیت طبیعی بودن دادهها میباشد. در شکل ۳-۳ نمایی از ساختار تجمیع این مجموعهداده مشاهده میشود.
شکل ۳-۳: نمایی از مجموعه داده ISOT
در مجموع، بیش از ۹۰% بستهها، سالم و مابقی مخرب هستند. با توجه به مستندات این مجموعهداده ، هاستهای سالم و مخرب مشخص شدهاند که در ادامه و جهت ارزیابی الگوریتم خوشهبندی از این اطلاعات استفاده خواهدشد.
لازم به ذکر است که حجم فایل مورد نظر در حالت فشرده، در حدود ۳ گیگا بایت و در حالت غیرفشرده، بیش از ۱۱ گیگا بایت است. مجموع کل بستهها نیز بیش از ۱۰۰۰۰۰۰ بسته میباشد که این بستهها در قالب فایل با فرمت PCAP در دسترس قرار گرفتهاند.
۳-۲-۲- تفسیر بستهها
در مرحله دوم، باید تمام بستهها خوانده و تفسیر شوند. به دلیل حجم بالای فایل PCAP و ضرورت دستیابی به سرعت بالا، از زبان C# در این قسمت استفادهشد. تمامی بستهها از نوع اترنت۲[۷۷] هستند. با توجه به مستندات این پروتکل، اطلاعات زیر از هر بسته استخراج شد:
IP فرستنده، IP گیرنده، طول بایت انتقالی، پروتکل ارتباطی، TTL
بعد از اتمام تفسیر بستهها نوبت به جمعبندی دادهها و سازماندهی بر اساس هاست میرسد.
۳-۲-۳- دادههای ساختاریافته
در این مرحله اطلاعات آماری تمامی هاستها به ازای تحلیل همه بستهها ، بر اساس متغیرهای زیر در قالب جدول، شکلدهی میشود. در جدول ۳-۱، نمونهای دادهها مشاهده میشوند.
جدول ۳-۱: نمونهای دادهها به همراه ویژگیها
IP | Largest Byte Receive | Largest Byte Send | Mean Byte Receive | Mean Byte Send | Protocol Type | Smallest Byte Receive |
۵۹٫۹۵٫۲۳۸٫۱۸۴ | ۵۳ | ۳۰ | ۵۳ | ۳۰ | ۱۷ | ۵۳ |
۲۴٫۲۱۱٫۹۱٫۲۲ | ۵۳ | ۳۰ | ۵۳ | ۳۰ | ۱۷ | ۵۳ |
۶۲٫۱۰٫۷۰٫۱۲۸ |