.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
زمستان۹۲
پاییز۹۲
تابستان۹۲
بهار۹۲
زمستان۹۱
بعد از ساختن ماتریس، داده های ورودی را به صورت زیر نرمالایز می کنیم.
که در آن، مقدار ویژگی i ام، ، کمترین مقدار ویژگی و ، بیشترین مقدار ویژگی موردنظر میباشد. نرمال کردن داده ها نتیجه بهتری از پیاده سازی مدلهای مختلف را در بردارد.
الگوریتمهای Prediction
پیش بینی، همانند طبقه بندی است با این تفاوت که در الگوریتمهای پیش بینی، وقوع نتایج در آینده صورت میگیرد. بعضی از تکنیک های مشهور Prediction عبارتند از Nonlinear Regression, Linear Regression ، Decision Treeو Neural Networks. در این پایان نامه از تعدادی از این روشها به عنوان روش مقایسه استفاده شده است.
روشهای مورد بررسی
هدف از انجام این رساله این است که با بهره گرفتن از تکنیکهای دادهکاوی بتوان مدلی برای پیشبینی مصرف دارو ارائه داد. در واقع امکان ارائه یک مدل مبتنی بر تکنیکهای دادهکاوی تا کنون ارائه شده و میتوان از آنها برای بهینه سازی خرید استفاده کرد. به همین دلیل باید روشهای مختلف رگرسیون را اعمال کرد تا بتوان مقایسه ای بین روشها و انتخاب بهترین روش داشته باشیم. از روشهای مختلف خطی که توسط روش کمترین مربعات خطا بهینه میشوند را میتوان برای مقایسه بهکار برد. الگوریتم هایی که ما در این پایان نامه برای پیادهسازی درنظر گرفته ایم به این صورت است: MLP،SVR ،AdaBoost.R ، (BAGTREE)، (LR)، (LSSVR) . در این رساله، به شرح بعضی از آنها برای آشنایی بیشتر میپردازیم.
روش NN
یکی از روشهای مورد بررسی در این مطالعه برای پیش بینی تقاضای دارو ، شبکه عصبی است. از شبکه های عصبی مصنوعی که در واقع بر مبنای رگرسیون غیرخطی کار می کند به طور وسیعی در مسائل پیش بینی استفاده شده است که نتایج حاصل از بررسیها حکایت از دقت بالای این روش دارد. شبکه عصبی که در این مطالعه استفاده شده است، از دو لایه پنهان تشکیل شده است که در هر لایه، پنج نرون وجود دارد. تعداد تکرار (epoch) شبکه، ۱۰۰ در نظر گرفته شده است. این مقادیر با سعی و خطا ایجاد شده اند. هر بار شبکه به ازای تمام داده ها منهای داده تست آموزش میبیند و شبکه آموزش داده شده برای داده تست مورد استفاده قرار میگیرد.
روش SVR
به طور کلی در مسئله رگرسیون، با داشتن داده های آموزش ، هدف یافتن تابعی مانند ( رابطه ۱)، میباشد که حداکثر به میزان ، از هدف واقعی فاصله داشته باشد و همچنین به اندازه کافی هموار باشد.
(۴-۲)
شکل ۴-۲ پارامترهای مورد استفاده در SVM
که در آن، پارامتر ضریب بایاس، به عنوان یک بردار وزن و تابعی غیرخطی است که دادههای بعدی را به صورت مجازی به بعد بالاتر میبرد، در حقیقت بعد به صورت ضمنی تعریف میشود و حتی ممکن است که بینهایت باشد.
همانطور که گفته شد، هدف مسئله این است که برای همهی نمونه های آموزشی، حداکثر به میزان ، از مقادیر هدف واقعی انحراف داشته باشد، به عبارت دیگر، از خطاهای کمتر از چشم پوشی میشود. بنابراین از یک حد آستانه ϵبه منظور افزایش حاشیه و کاهش خطای کلی استفاده میشود (شکل ۴-۲). این روش برای تعیین خطا از تابع زیر( ) استفاده می کند.
(۴-۳)
و مسئله بهینه سازی رگرسیون بردار پشتیبان به صورت زیر خواهد بود:
(۴-۴)
پارامترهای و متغیرهای شل، هستند که قیود بالا و پایین خروجی مدل را تعیین میکنند، پارامتر، پهنای حاشیه و ضریب ثابت میباشد. با تغییر پارامتر ، مدل تعیین میکند که پهنای حاشیه بیشتر مدنظر است یا خطای حاصله. اگر ضریب کوچک باشد نشان دهنده اهمیت بیشتر همواری مسئله نسبت به خطای حاصله است. در بهینه سازی باید شروط زیر برقرار باشد:
(۴ -۵)
برای حل مسئله از روش ضرایب Lagrange استفاده می شود و فرم زیر را خواهیم داشت: