رگرسیون:
Chang et al. (1965)
Shen and Hung (1972)
Ackers and White (1973)
Yang (1996)
Brownlie (1981)
Karim and Kennedy (1981)
…
روش گرافیکی:
Colby (1964)
مروری بر تحقیقات انجام شده
تحقیقات انجام گرفته در زمینه مباحث پیش بینی سیل
از میان مدلهای بسیاری که در پیش بینی رسوب به کار رفتهاند، بعضی از آنها توانایی پردازش تغییرات دینامیکی داخل رودخانه را ندارند (Garrote & Bras, 1995)، بعضی از مدلها به سختی کالیبره (واسنجی) میشوند و به ابزارهای بهینهسازی قوی نیاز دارند (Duan et al., 1994) و بعضی از مدلها نیازمند درک فرایندهای فیزیکی و هیدرولیکی در داخل رودخانه هستند (Garrote & Bras, 1995). اخیراً معرفی ابزارهای یادگیری ماشین[۱] در زمینه مدیریت منابع آب رویکردهای جدید و متنوعی را در مدلسازی باز کرده است که به عنوان مثال، میتوان به ماشینهای بردار پشتیبان، درخت تصمیم، شبکه های عصبی مصنوعی[۲] و غیره اشاره نمود. ماشین بردار پشتیبان مورد استفاده، یک مفهوم در علم آمار و کامپیوتر است و یکی از روشهای یادگیری با نظارت است که از آن برای طبقه بندی و رگرسیونگیری استفاده می شود. این روش از روشهای نسبتاً جدیدی است که در سالهای اخیر کارایی نسبتاً خوبی نسبت به روشهای قدیمیتر برای طبقه بندی از جمله شبکه های عصبی پرسپترون[۳] نشان داده است. الگوریتم SVM اولیه در سال ۱۹۶۳ توسط ولادیمیر واپنیک ابداع شد و پس از آن توسط کورینا کورتس و واپنیک برای حالت غیر خطی تعمیم داده شد (Vapnik, 1995). این الگوریتم در علوم مختلفی از قبیل تشخیص چهره، مدل کردن ساختارهای شیمیایی، مدل کردن کنترل فرایند، آنالیز کیفیت جوشکاری، پیش بینی هوا و غیره کاربرد فراوانی داشته است که اخیراً نیز در مهندسی آب و رسوب از آن استفاده می شود. در سالهای اخیر تحقیقات بسیاری در زمینه آب با به کار بردن ماشین بردار پشتیبان صورت گرفته است، از قبیل پیش بینی نشت در شبکه های آبرسانی، پیش بینی سریهای زمانی[۴] میزان تقاضای آب، پیش بینی کمیت آبرسانی شهری، پیشبینی کیفیت آب و غیره. در واقع تحقیقات صورت گرفته در مورد این مدل برای پیشرفتهای آینده ضروری است. در اینجا به صورت خلاصه به تحقیقاتی که در زمینه پیش بینی سیلاب صورت گرفته بحث میکنیم که به شرح زیر است:
سیواپراگاسام و همکاران در مطالعاتشان، یک تکنیک پیش بینی مناسب و ساده را براساس آنالیز طیفی منفرد[۵] که با ماشین بردار پشتیبان جفت شده است، معرفی می کنند. با این که آنالیز طیفی منفرد، سریهای زمانی اصلی را به مجموعه ای از مؤلفه های فرکانس پایین و بالا تجزیه می کند، ولی ماشین بردار پشتیبان به انجام محاسبات و تعمیم در یک فضای ورودی با ابعاد بالا می پردازد. تکنیک پیشنهادی برای داده های بارش سنگاپور و داده های رواناب حوزه آبریز Tryggevælde در دانمارک به صورت مطالعه موردی به کار برده شده است. نتایج با روش پیش بینی غیر خطی مقایسه شده اند. مقایسهها نشان می دهند که در پیش بینی متغیرهای هیدرولوژیکی، تکنیک پیشنهادی دارای دقت بسیار بالاتری نسبت به پیش بینی مربوط به روش غیر خطی است (Sivapragasam et al., 2001).
یلین و همکاران ماشین بردار پشتیبان را در پیش بینی دبی بلند مدت به کار بردهاند در این مقاله، ماشین بردار پشتیبان به عنوان یک روش امید بخش در پیش بینی هیدرولوژیکی بیان می شود. مدل پیش بینی SVM با بهره گرفتن از مشاهدات بلند مدت دبیهای ماهانه جریان رودخانه در طرح برقابی منوان[۶] آزمایش شده است. در اینجا از مدل ترکیبی ماشین بردار پشتیبان و الگوریتم تکامل رقابتی جوامع[۷]، برای سریهای ماهانه اولیه جریان رودخانه به کار میرود و با مدلهای شبکه عصبی مصنوعی و میانگین متحرک اتورگرسیون[۸] مقایسه می شود. الگوریتم تکامل رقابتی جوامع فقط برای تعیین پارامترهای ماشین بردار پشتیبان هنگام انجام برخی از تبدیلهای نمایی به کار رفته است. در نهایت با مقایسه عملکرد مدل ماشین بردار پشتیبان و مدلهای شبکه عصبی مصنوعی و میانگین متحرک اتورگرسیون، ثابت شده که ماشین بردار پشتیبان، در پیشبینی دبیهای بلند مدت خیلی خوب عمل می کند (Yilin et al., 2006).
شوکوان و لیجون از حداقل مربعات ماشین بردار پشتیبان در پیش بینی رواناب میان مدت و بلند مدت استفاده کرده اند و آن را با مدل شبکه های عصبی مصنوعی مقایسه کردهاند. روش حداقل مربعات ماشین بردار پشتیبان دارای کلیه مزایای مشخصههای توزیع دادهای بوده و اینکه در موقع ساخت تابع تصمیم نیازی به مهارت و دانش قبلی نیست. آنها در این تحقیق به این نتیجه رسیده اند که نتایج پیش بینی حاصل از حداقل مربعات ماشین بردار پشتیبان خطای پایینتری را نسبت به مدل شبکه عصبی مصنوعی دارد (Shuquan & Lijun, 2007).
هان و همکاران در تحقیق خود، کاربرد ماشین بردار پشتیبان را بر روی حوزه آبریز بِرد کریک[۹] واقع در ایالات متحده آمریکا وصف کرده و بعضی از موارد مهم را در توسعه و بکارگیری SVM در پیش بینی سیلاب بیان می کنند. در این تحقیق معلوم شده که ماشین بردار پشتیبان نیز مانند مدلهای شبکه عصبی مصنوعی از بیش برازش[۱۰] و کم برازش[۱۱] رنج می برد و بیش برازش از کم برازش مصیبت بارتر است. این مقاله نشان میدهد که هر مدلساز هنگام استفاده از SVM برای رسیدن به حالت بهینه، دچار چالش شده و باید ترکیبات و پارامترهای ورودی مختلفی را بررسی کند. داده های مورد استفاده در این تحقیق نرمالیزه شده اند و به بازه (۱+،۱-) منتقل شده اند. همچنین یک مقایسه با بعضی از مدلهای معیار از قبیل، مدل تابع انتقال[۱۲]، ترِند[۱۳] و نَیو[۱۴] انجام شده است و با صرف وقت و تلاش بالا معلوم شد که در مجموعه داده های آزمایشی، ماشین بردار پشتیبان از همه آنها بهتر عمل می کند. به علاوه، این تحقیق نشان میدهد که ماشین بردار پشتیبان، در پاسخ به ورودیهای بارش مختلف نتایج جالبی را نشان میدهد به این صورت که بارشهای سبکتر نتایج خیلی متفاوتی را نسبت به بارشهای سنگینتر به وجود خواهد آورد که راه خیلی مفیدی است تا رفتار این مدل را آشکار کند (Han et al., 2007).
هوانگ و همکاران نیز اظهار می کنند که ارزیابی واقعه سیل، که بخش مهمی از سیستم کنترل ریسک سیل است، دارای ویژگیهایی از قبیل، روابط پیچیده و مجهول بین شاخص و درجه ارزیابی مخاطره سیل و نمونههای مشاهداتی کم و … است. بنابراین، مدل ماشین بردار پشتیبان برای درجه ارزیابی واقعه سیل مناسب بوده و ماشین بردار پشتیبان بهینه ساخته شد تا تابعی که می تواند به طور جامع شاخص وضعیت واقعه چند بعدی را در یک فضای یک بعدی پیوسته ارزیابی کند، بدست آورده شود. مدل به طور مؤثری مسائلی مثل درجه هر شاخص منفرد را که با آنهای دیگر ناسازگار است، حل می کند تا دقت نتایج ارزیابی سیل را بهبود بخشد. گذشته از این، عمومیت مدل با گرفتن درجه استاندارد مختلف برای شاخص وضعیت سیل در نواحی نسبی بهبود یافته است. مدل درجه خسارت سیل چندین شاخص را به عنوان شاخص دستهبندی انتخاب می کند. همچنین، چون محدویت تعداد شاخه در مدل وجود ندارد بعضی از شاخص ها میتوانند بر حسب نیاز افزایش و یا کاهش داده شوند. به علاوه با توجه به انواع مختلف استانها با گرفتن معیار دستهبندی شاخص های مختلف، عمومیت مدل بهبود مییابد. نتایج نشان میدهد که مدل براساس بهینهسازی ماشین بردار پشتیبان دارای تعمیم خوبی است و نتایج ارزیابی قابل قبول هستند به طوری که بررسیها نشان می دهند که مدل دارای کاربرد پیش بینی خوبی در ارزیابی جامع چند شاخصه است (Huang et al., 2010).
روحاله نوری و همکاران در مطالعات خود، تأثیر انتخاب متغیرهای ورودی با بهره گرفتن از آنالیز مؤلفه اصلی[۱۵] را بر عملکرد مدل ماشین بردار پشتیبان برای پیش بینی ماهانه دبی رودخانه بررسی می کنند. منطقه مورد مطالعه و داده ها مربوط به رودخانه صوفی چای بوده که یکی از رودخانههای بزرگ حوزه آبریز دریاچه ارومیه است و ورودی اصلی به سد علویان را تشکیل میدهد. به این منظور ابتدا با بهره گرفتن از ۱۸ متغیر ورودی به مدل SVM، دبی جریان ماهانه پیش بینی شد. سپس با بهره گرفتن از آنالیز مؤلفه اصلی، تعداد متغیرهای ورودی به مدل SVM از ۱۸ به ۵ مؤلفه کاهش یافت. در نهایت با بهره گرفتن از آماره توسعه یافته توسط نویسندگان مقاله، عملکرد دو مدل مورد ارزیابی قرار گرفت. یافتههای این تحقیق نشان داد که پیشپردازش متغیرهای ورودی به مدل ماشین بردار پشتیبان با بهره گرفتن از آنالیز مؤلفه اصلی، بهبود عملکرد مدل SVM را به همراه داشته است (نوری و همکاران، ۱۳۹۰).
روحاله نوری و همکاران در تحقیقی دیگر از سه تکنیک انتخاب ورودی استفاده نموده و تأثیر آنها را بر روی عملکرد ماشین بردار پشتیبان برای پیش بینی جریان ماهانه ارزیابی می کنند. نخست، یک مدل SVM ساخته شد تا جریان ماهانه را به صورت تابعی از ۱۸ متغیر ورودی از قبیل، بارش ماهانه، دبی، تابش خورشیدی و دما { به صورت Tmin، Tmax، Tavg } با سه زمان تاخیر به شکل t، t-1، t-2 پیش بینی کند. سپس از تکنیک آنالیز مؤلفه اصلی، آزمون گاما[۱۶] و انتخاب رو به جلو[۱۷] استفاده شده تا تعداد پارامترهای ورودی را کاهش دهد. با کاهش متغیرهای ورودی به ۵ ( با بهره گرفتن از آنالیز مؤلفه اصلی و آزمون گاما ) و ۷ (با بهره گرفتن از انتخاب رو به جلو)، این متغیرها وارد مدل SVM میشوند. به علاوه، شبکه عصبی مناسبی براساس آنالیز مؤلفه اصلی توسعه داده شده است (PCA-ANN). سپس مقایسه ای بین مدلهای توسعه یافته ماشین بردار پشتیبان (GT-SVM و PCA-SVM) و مدل PCA-ANN انجام شده است. به علاوه، نقص آماره نسبت تفاوت[۱۸] اصلاح شده و یک آماره نسبت تفاوت مناسب توسعه داده شده است. سرانجام، توزیع خطا در طول گام آزمایشی مدلهای منتخب (PCA-SVM و GT-SVM و PCA-ANN) با بهره گرفتن از آماره نسبت تفاوتِ توسعه یافته محاسبه شده است. نتایج حاکی از آن است که پیشپردازش متغیرهای ورودی به وسیله تکنیکهای آنالیز مؤلفه اصلی و آزمون گاما، عملکرد مدل ماشین بردار پشتیبان را بهبود بخشیده است. گذشته از این، PCA-SVM بهتر از GT-SVM و PCA-ANN عمل می کند (Noori et al., 2011).
اوزگور کیسی و مسعود چیمن یک مدل ترکیبی موجک ماشین بردار پشتیبان را برای پیش بینی بارندگی روزانه پیشنهاد کردند. این مدل تلفیقی ترکیبی از دو روش به نامهای تبدیل موجک گسسته و ماشین بردار پشتیبان است که با ماشین بردار پشتیبان منفرد برای پیش بینی بارندگی روز بعد مقایسه می شود. در این مطالعه، از داده های بارش روزانه ایستگاههای آفیون[۱۹] و ایزمیر[۲۰] در ترکیه استفاده می شود. برای مقایسه از روابط آماریای مانند ضریب همبستگی[۲۱]، میانگین قدرمطلق خطاها[۲۲]، و جذر میانگین مربعات خطاها[۲۳] استفاده شده است. نتایج مقایسه نشان می دهند که روش تلفیقی دقت پیش بینی را بالا برده و بهتر از ماشین بردار پشتیبان منفرد عمل می کند. نتایج روش تلفیقی در ایستگاه ایزمیر و آفیون بر روی دادههای آزمایشی به ترتیب به صورت، RMSE=46.5mm، MAE=13.6mm، R=0.782 و RMSE=21.4mm، MAE=9.0mm، R=0.815 است. در حالی در روش ماشین بردار پشتیبان منفرد این مقادیر به صورت RMSE=71.6mm، MAE=19.6mm، R=0.276 و RMSE=38.7mm، MAE=14.2mm، R=0.103 است. روش شبکه عصبی مصنوعی نیز بر روی همین مجموعه داده ها به کار گرفته شد و به این نتیجه رسیدند که تفاوتی جزئی بین روشهای شبکه عصبی و رگرسیون بردار پشتیبان وجود دارد (Kisi & Cimen, 2011).
مهدیه اسمیخانی، حمیدرضا صفوی، مائده یزدانیپور در پنجمین کنگره ملی مهندسی عمران موضوعی را با عنوان مدیریت تلفیقی منابع آب سطحی و زیرزمینی با کاربرد روشهای ماشین بردار پشتیبان و الگوریتم ژنتیک[۲۴] بیان کردند که هدف اصلی آن تدوین طرح بهره برداری بهینه از منابع آب سطحی و زیرزمینی در جهت تأمین آب مورد نیاز کشاورزی بوده است. به این منظور یک مدل مدیریت تلفیقی شامل مدل بهینهسازی مبتنی بر الگوریتم ژنتیک و مدل شبیه ساز ماشینهای بردار پشتیبان تدوین شده و قابلیت کاربردی این مدل در محدوده مطالعاتی کوهپایه-سگزی نشان داده شد. در مدل شبیهسازی که براساس ماشینهای بردار پشتیبان به منظور پیش بینی تغییرات فصلی تراز آب زیر زمینی تدوین شد، مقدار مربع ضریب همبستگی برابر با ۹۹۳/۰ به دست آمد. که مبین توانایی بسیار بالای ماشینهای بردار پشتیبان در یادگیری داده های آموزشی و همچنین دقت مدل شبیهسازی طراحی شده میباشد (اسمیخانی و همکاران، ۱۳۸۹).
تحقیقات بیشتر در زمینه پیش بینی سیل به طور خلاصه در زیر شرح داده می شود:
آسفا و همکاران روش مناسبی برای پیش بینی دبی جریان فصلی و ساعتی با بهره گرفتن از مدل SVM ارائه نمودند. در تحقیق مذکور با بهره گرفتن از میزان آب معادل برف و حجم جریان در دوره های قبل، میزان حجم جریان برای مقیاسهای زمانی شش ماهه و ۲۴ ساعته پیش بینی گردید که نتایج رضایتبخش اعلام شد (Asefa et al., 2006). یو و همکاران در مطالعه ای با بهره گرفتن از مدل SVM به پیش بینی سطح رقومی سیل در رودخانه لن-یانگ[۲۵] تایوان پرداختند. به منظور کالیبره کردن پارامترهای مدل، از روش بهینهسازی جستجوی شبکه[۲۶] استفاده شد. نتایج نشان داد که مدل به خوبی سطح آب رودخانه را برای ۱ تا ۶ ساعت بعد پیش بینی می کند (Yu et al., 2006). در تحقیقی دیگر یو و لیونگ از مدل ماشین بردار پشتیبان به منظور پیش بینی سریهای زمانی متغیرهای هیدرولوژیکی استفاده نمودند (Yu & Liong, 2006).
تحقیقات صورت گرفته در زمینه برآورد رسوب
در زمینه مباحث انتقال رسوب و پیش بینی نرخ رسوب از رگرسیون ماشین بردار پشتیبان استفاده چندانی نشده است.کلیه کارهای انجام گرفته توسط متدولوژی رگرسیون ماشین بردار پشتیبان، فقط براساس داده های هواشناسی و به نحوی به صورت مطالعه موردی هستند. همچنین بعضی از آنها برآورد نرخ رسوب را فقط براساس دبی جریان انجام دادهاند. از این قبیل میتوان به مطالعات مسعود چیمن اشاره کرد. مسعود در مطالعه خود از رگرسیون بردار پشتیبان برای پیش بینی بار معلق یا غلظت رسوب معلق در رودخانهها استفاده کرده است. داده های رسوب معلق و جریان، مربوط به دو رودخانه در ایالات متحده بودند. مقادیر رسوب معلق پیش بینی شده دارای مطابقه خوبی با داده های مشاهداتی است. نتایج به دست آمده توسط مسعود نشان میدهد که رویکرد رگرسیون بردار پشتیبان کارآیی بهتری نسبت به رویکردهای تکامل تدریجی و منطق فازی در نوشته های پیشین دارد (Çimen, 2006). عظمتالله و همکاران از تکنیک رگرسیون بردار پشتیبان برای پیش بینی بار رسوبی در سه رودخانه مالزیایی، به نامهای مودا، لانگات و کوراو، استفاده کرده اند. ایشان نشان دادند که روش رگرسیون بردار پشتیبان عملکرد بهتری را در مقایسه با روشهای بار رسوبی متداول دارد (Azamathulla et al., 2010). میسرا و همکاران از رگرسیون بردار پشتیبان به شبیهسازی رواناب و بده رسوب به صورت روزانه، هفتگی و ماهانه پرداختهاند و نتایج رگرسیون بردار پشتیبان با نتایج مربوط به شبکه های عصبی مصنوعی مقایسه شدند. یک روش جایگزین نیز فقط برای برآورد رواناب استفاده شده بود که تکنیک تشخیص الگوی رگرسیونی چندگانه[۲۷] نام دارد. این تکنیک نتایج مدل را در مقایسه با رگرسیون بردار پشتیبان چندان بهبود نبخشید. لذا از این تکنیک در پیش بینی بده رسوب استفاده نشد. ایشان به این نتیجه رسیدند که رگرسیون بردار پشتیبان در مقایسه با شبکه عصبی مصنوعی در آموزش، واسنجی و صحتسنجی مدل بهبود قابل توجهی داشته است (Misra et al., 2009).
به عنوان یک نتیجهگیری میتوان اظهار نمود که هیچکدام از این پژوهشها رویکرد برآورد بار رسوبات بستر را به صورت یک رویکرد کلی مد نظر قرار نداده و به صورت مطالعه موردی به مسأله انتقال رسوبات مینگرند. و یا حتی در برخی از این پژوهشها از دادههای بارش برای اندازهگیری رسوبات استفاده نمودهاند.
مواد و روشها
نظریه یادگیری آماری برآیند یکی ازمسائل قدیمی در علم آمار و نظریه تخمین میباشد. مبادله بایاس و واریانس به هنگام استفاده از داده های تجربی محدود، امری اجتناب ناپذیر است. نظریه یادگیری آماری این واقعیت را توجیه می کند. در این پایان نامه نظریه یادگیری آماری از دو نقطه نظر تخمین و یادگیری ماشین بیان می شود.
تخمین
به طور رسمی واپنیک، در سال ۱۹۷۹ مسأله نظریه یادگیری آماری را مطرح کرد و به نتایج مهمی دست یافت. وی توانست یک حد بالا برای خطای تخمین براساس تعداد نمونههای یادگیری و ظرفیت (پیچیدگی) خانواده تابع تخمینزننده ارائه کرد. این حد بالا رابطه مستقیم با معیار سنجش ظرفیت تابع تخمینزننده، به نام بعد VC[28]، و رابطه معکوس با تعداد نمونهها دارد. به عبارت دیگر، او نشان داد که هر چه تعداد نمونهها بیشتر باشد خطای تخمین کمتر و هر چه ظرفیت تابع تخمینزننده (بعد VC) بیشتر باشد، خطای داده های آموزشی کم شده و خطای تخمین بیشتر است به عبارتی دیگر، بیشبرازش اتفاق میافتد. و اگر توابع بسیار ساده را برگزینیم، پیچیدگی پایین بوده ولی خطای آموزشی بالا میرود. برای مثال، میتوان شکل ذیل را مشاهده نمود.
شکل ۴‑۱: نمایشی از شرایط بیشبرازش در مدلسازی
بعد VC، بیشینه تعداد نقاطی است که میتوانند از طریق همه راههای ممکن به وسیله همان مجموعه توابع از هم جدا شوند. (۲h= تعداد راه های ممکن)
برای ابرصفحات متعلق به IRn میتوان نشان داد که بعد VC برابر با n+1 است. به عنوان مثال، در شکل ذیل برای حالت دو بعدی داریم:
شکل۴‑۲: دستهبندیهای مختلفی که سه داده میتوانند با هم داشته باشند
= ۲۳= ۸ ⇒ VC dim. =h=3راههای ممکن برای جداسازی داده ها
واپنیک ثابت کرد که همیشه با احتمال مقدار زیر، که VC Confidence خوانده می شود، یک حد بالا برای خطای تخمین است.
(۴‑۱)
که در آن h همان بعد VC است. البته پس از VC Confidence حدهای دیگری مانند Annealed VC Entropy و Growth Function نیز معرفی شدند ولی به دلیل اینکه ارزیابی آنها مشکل بود، مورد توجه قرار نگرفتند.
یادگیری ماشین
هدف اصلی در مسأله طبقه بندی دودویی، تخمین تابع (۴-۲) با بهره گرفتن از داده های یادگیری نشان داده شده در (۴-۳)، به طوری که تابع (۴-۲) بتواند برچسب داده های جدید را به درستی پیش بینی کند.
(۴‑۲)
(۴‑۳)
اگر فرض کنیم که x و از یک تابع توزیع احتمال توأم P(x,y) تولید شده اند، میتوان ریسک مورد انتظار تابع (۴-۲) را برای نمونههایی که در فرایند یادگیری استفاده نشدهاند را با بهره گرفتن از رابطه (۴-۴) محاسبه کرد.