تعمیم یک مدل ساده به مدلی با n متغیر مستقل کار بسیار ساده ای است. بنابراین می توان مدل رگرسیون چند متغیره را به صورت زیر بیان کنیم :
Y =α + β۱x1 + β۲x2 + β۳x3 + . . . + βnxn + εn ; n=1, 2,…, t
رگرسیون خطی دارای مفروضاتی است که برای استفاده از این مدل وجود آن ها ضروری می باشد. در ادامه به معرفی این مفروضات و آزمون های آن ها می پردازیم.
۳-۱۳-۱-۱ آزمون خود همبستگی
یکی از فرضه های مدل رگرسیون خطی صفر بودن کواریانس بین اجزای خطا در طول زمان ( یا به صورت مقطعی برای انواع داده ها) می باشد. به عبارت دیگر فرض فوق مبین این است که خطاها به یکدیگر وابسته نیستند. در صورتی که خطاها غیر همبسته نباشند، به این معنی است که خود همبسته هستند و یا به صورت پیاپی همبسته می باشند. بنابراین فرض مزبور نیازمند آزمون است.
پیامدهای ناشی از وجود خودهمبستگی، مشابه پیامدهای ناشی از نادیده گرفتن ناهمسانی واریانس است. به طوری که ضرایب برآورد شده با بهره گرفتن از ols نااریب بوده ولی ناکارا است. یعنی حتی در نمونه های بزرگ بهترین برآورد کننده های خطی نااریب نیست، به طوری که خطای معیار برآورد شده می تواند نادرست باشد. بنابراین امکان دارد که استنباط های نادرستی در مورد این که آیا یک متغیر عامل تعیین کننده مهمی در تغییرات متغیر وابسته باشد یا نه صورت پذیرد.
ساده ترین آزمون خودهمبستگی پسماندها، آزمون دوربین – واتسون است. دوربین – واتسون آزمونی برای خودهمبستگی مرتبه اول است، یعنی این آزمون تنها برای رابطه بین یک خطا و مقدار قبلی خودش می باشد. آماره دوربین واتسون بر یکی از سه مقدار مهم صفر، ۲ و ۴ دلالت دارد.
در صورتی که آماره دوربین – واتسون ۲ باشد، یعنی زمانی که هیچگونه خود همبستگی بین پسماندها وجود ندارد. به طور کلی می توان گفت که اگر این آماره نزدیک عدد ۲ باشد، شواهد کمی دال بر خودهمبستگی وجود دارد.
اگر آماره برابر صفر باشد، خودهمبستگی کامل مثبتی بین پسماندها وجود دارد.
همچنین اگر آماره دوربین – واتسن برابر با مقدار ۴ باشد، خودهبستگی کامل منفی بین پسماندها وجود دارد.
البته آزمون های دیگری نیز مانند آزمون بروش – گودفری برای آزمون خودهمبستگی وجود دارد. این آزمون عمومیت بیشتری نسبت به آزمون دوربین – واتسون داشته و می تواند در شرایط گسترده تری مورد استفاده قرار گیرد، زیرا دارای محدودیت های دوربین – واتسون به صورت شکلی از رگرسیون مرحله اول نمی باشد (بروکز،۱۳۸۹).
در نرم افزار EViews آماره دوربین واتسون به صورت خودکار محاسبه می شود، همچنین آزمون بروش – گودفری را نیز می توان اجرا کرد، که همان آزمون LM می باشد .
۳-۱۳-۱-۲ آزمون همسانی واریانس ها
یکی از مفروضات معادله رگرسیون ثابت بودن واریانس خطاها می باشد که به عنوان فرض همسانی واریانس ها شناخته می شود. در صورتی که خطاها، واریانس ثابتی نداشته باشند، گفته می شود که ناهمسانی واریانس وجود دارد.
آزمون های آماری رسمی متعددی در زمینه ناهمسانی واریانس وجود دارد که یکی از ساده ترین این روش ها آزمون گلدفلت – کوانت[۵۱] یا GO می باشد. بر اساس این روش کل نمونه با طول T به دو زیر نمونه با طول T1 و T2 تقسیم و مدل رگرسیونی هر زیر گروه برآورد شده و واریانس دو پسماند محاسبه می شوند. فرضیه صفر این است که واریانس جزء اخلال ها برابر باشد. آماره این آزمون با GO نشان داده می شود که نسبت ساده ای از دو واریانس پسماند است که واریانس بزرگتر در صورت کسر قرار می گیرد. در صورتی که آماره آزمون از مقدار بحرانی تجاوز کند، فرضیه صفر مبتنی بر یک واریانس ثابت رد می شود.
آزمون معروف دیگری به نام آزمون عمومی وایت[۵۲] در زمینه ناهمسانی واریانس وجود دارد. این آزمون به لحاظ اندک بودن مفروضات آن مفید می باشد(بروکز،۱۳۸۹).
۳-۱۳-۱-۳ آزمون نرمال بودن پسماندها
به منظور اجرای فرضیه های تک یا توأم در مورد پارامترهای مدل، فرض نرمال بودن پسماندهای مدل مطرح میشود. سومین و چهارمین گشتاور استاندارد شده یک توزیع به عنوان چولگی و کشیدگی شناخته می شود. چولگی معیاری است مبنی بر این که توزیع پیرامون میانگینش متقارن نیست و کشیدگی معیاری برای توپری و دنباله های توزیع است. یک توزیع نرمال چوله نبوده و کشیدگی آن برابر ۳ است. همچنین می توان ضریبی را برای کشیدگی مازاد تعریف کرد که برابر با ضریب کشیدگی منهای ۳ می باشد، به طوری که یک توزیع نرمال ضریب کشیدگی مازادی برابر صفر دارد. یک توزیع نرمال به صورت متقارن و میانه پهنا است. یک توزیع نرمال پیرامون میانگینش متقارن است در حالی که یک توزیع چوله این گونه نیست و یکی از دنباله ها طولانی تر از دیگری است.
یک توزیع کشیده توزیعی است که دارای دنباله های توپر بوده و در بالای میانگین دارای ارتفاع بیشتری نسبت به یک متغیر تصادفی با توزیع نرمال با همان میانگین و انحراف معیار می باشد. در حالی که یک توزیع پهن در قسمت میانگین دارای ارتفاع کم با دنباله های کم پشت و نازک تر می باشد و بیشتر توزیع در شانه های توزیع نسبت به توزیع نرمال قرار دارد (بروکز،۱۳۸۹). آزمون های مختلفی برای آزمون نرمال بودن متغیرها مورد استفاده قرار می گیرد. آزمون جاک – برا، آندرسون – دارلینگ و ریان – جوینر از آن جمله هستند.
۳-۱۳-۲ همبستگی
تحلیل همبستگی ابزاری آماری است که بوسیله آن میتوان درجهای را که یک متغیر به متغیر دیگر، از نظر خطی مرتبط است را اندازهگیری کرد. به عبارت سادهتر همبستگی معیاری است که برای تعیین میزان ارتباط دو متغیر استفاده میشود و معمولا همراه با تحلیل رگرسیون بکار می رود. در همبستگی دو معیار ضریب همبستگی و ضریب تعیین بحث میشود.
۳-۱۳-۲-۱ ضریب همبستگی ()
ضریب همبستگی نوع رابطه مستقیم یا معکوس و همچنین شدت رابطه بین دو یا چند متغیر را نشان میدهد. ضریب همبستگی همیشه بین ۱- و ۱ می باشد. اگر ۱ = باشد در آنصورت تمامی نقاط بر روی یک خط راست قرار دارند و همبستگی، مثبت و کامل میباشد یعنی ضریب زاویه (شیب) خط مثبت است. اگر۱- = باشد در این حالت تمامی نقاط روی خط مستقیم قرار دارند ولی ضریب زاویه خط منفی است و اگر چنانچه ۰ = باشد نشانه عدم وجود همبستگی میان متغیرهاست.
متداولترین ضریب همبستگی، ضریب همبستگی پیرسون است که بصورت زیر قابل محاسبه است :
که در آن :
= ضریب همبستگی جامعه
= ضریب همبستگی پیرسون نمونه می باشد.
مقدار rp همواره بین ۱+ و ۱- و یا خود این اعداد می باشد . در صورتی که rp برابر با ۱+ باشد ، همبستگی خطی مثبت و صد در صد و اگر rp برابر با ۱- باشد ، همبستگی خطی منفی و صد در صد وجود دارد. همچنین زمانی که rp نزدیک به صفر باشد ، همبستگی خطی بین دو متغیر X و Y وجود ندارد .
۳-۱۳-۲-۲ آزمون معنی داری
آزمون های معناداری ، اطلاعاتی را در مورد اطمینان به وجود یک همبستگی در اختیار ما می گذارد. در این آزمون فرضیه H0 مورد آزمایش قرار می گیرد که بر خلاف فرض مقابل H1 ، مدعی است بین دو متغیر هیچ همبستگی وجود ندارد. آزمون معنی دار بودن یک الگوی آماری است که بر اساس آن به احتمال خطای معینی از دو فرضیه H0 و H1 یکی انتخاب می شود. این احتمال خطا که شاخص آن سطح معنیدار بودن آلفا ( α ) است ، بیانگر احتمالی است که بر اساس آن ما فرض مقابل یعنی H1 را انتخاب می کنیم و وجود یک همبستگی را می پذیریم ، علیرغم اینکه فرضیه H0 صحیح بوده و فقط یک همبستگی تصادفی و یا هیچ همبستگی وجود نداشته باشد (عادل آذر، ۱۳۸۳).
۳-۱۳-۲-۳ ضریب تعیین()
ضریب تعیین یکی از مهمترین معیارهایی است که با آن میتوان رابطه بین دو متغیر و را توضیح داد. اگر مشاهدات و میانگین مشاهدات باشد، آنگاه میزان انحراف مشاهدات حول میانگین خود، برابر خواهد بود. مجموع انحرافات بین مشاهدات ( ) و برآورد آن را به وسیله خط رگرسیون ( ) را با نشان می دهیم.
حال نسبت را در نظر می گیریم؛ با فرض ثابت بودن هر چقدر کمتر شود، این امر نشان می دهد که خط رگرسیون توانسته است تغییرات را توضیح دهد. حداکثر مقدار برابر با و حداقل آن برابر صفر است. بنابراین استفاده از که آن را ضریب تعیین مینامیم، کار تحلیل را سادهتر می کند. این مقدار همیشه بین صفر و یک است. اگر چنانچه صفر باشد، نشان دهنده آن است که خط رگرسیون دقیقاً توانسته است تغییرات را به تغییرات نسبت دهد. در اینصورت است. همچنین اگر چنانچه برابر با باشد، در آنصورت خط رگرسیون هرگز نتوانسته است تغییرات را به تغییرات نسبت دهد. در این حالت است (عادل آذر، ۱۳۸۳). برای محاسبه ضریب تعیین از رابطه زیر نیز میتوان استفاده کرد:
۳-۱۴روش حداقل مربعات معمولی (OLS)
برای مدلهای رگرسیون خطی، روش حداقل مربعات معمولی[۵۳] ساده ترین و مرسوم ترین روش است. طرح اولیه این روش را که معمولا با OLS نشان داده میشود، کارل فریدریش گاوس ریاضی دان معروف آلمانی در قرن هجدهم مطرح کرده است. زیربنای فکری روش حداقل مربعات معمولی این است که ضرایب مدل مقادیری اختیار کنند که مدل رگرسیون نمونه بیشترین نزدیکی را به مشاهدات داشته باشد. به عبارت دیگر کمترین انحراف را از مشاهدات نشان دهد. برای درک بهتر، قاعده کلی که در این روش موجود است، بیان می گردد:
اگر مدل رگرسیون خطی رابطه را با مدل خطی رابطه زیر تخمین بزنیم، این خط باید کمترین فاصله را با مشاهدات ما داشته باشد. معیار روش حداقل مربعات معمولی این است که ضرایب را باید چنان تخمین زد که مجموع مربعات باقی ماندها یعنی به حداقل برسد.
روش OLS برای برآورد ضرایب نیاز به هیچ شرطی روی جمله اخلال ندارد اما برای آنکه ضرایب برآورد شده نااریب (بدون تورش) باشند و استنتاج آماری (مثلا تستهای معناداری) روی آنها امکان پذیر باشد، برقرار بودن فروض کلاسیک (که در ادامه تشریح می گردد) الزامی است.
اگر آزمونهای آماری بعد از انجام OLS ، بر نقض یکی از فروض کلاسیک صحه بگذارند، دیگر مجاز به استفاده از روش OLS برای برآورد مقادیر آن مدل نیستیم. در این صورت باید یا مدل و یا روش برآورد را تغییر دهیم. (گجراتی، ۱۳۸۷).
۳-۱۵ آزمون معنادار بودن رگرسیون
برای بررسی توان خط رگرسیون برای بیان مقادیر مشاهده شده متغیر وابسته از آماره F و آزمون ANOVA استفاده می شود. در یک معادله رگرسیون چند گانه، چنانچه هیچ گونه رابطه ای میان متغیر وابسته و متغیرهای مستقل وجود نداشته باشد، باید تمامی ضرایب متغیرهای مستقل در معادله برابر صفر باشند. بدین ترتیب ما می توانیم معنادار بودن رگرسیون را آزمون نماییم. در مورد آزمون ANOVA سطح معناداری بدست آمده آماره F با سطح معناداری ۵ درصد مقایسه شده و اگر معناداری بدست آن آماره کمتر از ۵ درصد باشد، فرض خطی بودن مدل تایید می گردد.
۳-۱۶ آزمون معنادار بودن ضرایب
پس از معنادار بودن رگرسیون باید معناداری هر کدام از ضرایب آزمون گردد. هدف از انجام این آزمون آن است که مشخص شود آیا در سطح اطمینان مورد نظر، ضریب محاسبه شده مخالف صفر است یا خیر. فرض های این آزمون برای عرض از مبدا و برای میزان ارتباط متغیر مستقل و متغیر های کنترلی با بهره گرفتن از آماره t انجام می گیرد.
این روش بطور مستقل توسط آر. ای ـ فیشر و به طور مشترک به وسیله نیمن و پیرسون ایجاد و تکمیل شده است. به طور کلی آزمون معنی دار بودن، روشی است که با بهره گرفتن از نتایج نمونه ای درستی و یا نادرستی فرضیه را در جامعه تعیین می نماید. تصمیم درباره پذیرش و یا رد نیز بر اساس مقدار عددی تابع آزمون حاصل از داده های موجود انجام می شود. بر اساس این آزمون چنانچه سطح معناداری محاسبه شده بیشتر از ۰۵/۰ باشد، در این صورت مقادیر محاسبه شده از لحاظ آماری، در سطح اطمینان ۹۵ درصد معنی دار نیستند.
به طور رایج در کلیه برآوردها این آزمون برای بررسی معنی داری ضرایب مدل مورد استفاده قرار میگیرد به این معنی که فرضیه ، که صفر بودن ضریب و در نتیجه عدم تاثیر متغیر مستقل مربوطه برمتغیر وابسته در جامعه مورد بررسی می باشد، را مورد آزمون قرار می دهد. در صورت رد فرضیه (با توجه به شرایط ذکر شده در پاراگراف قبل) فرضیه ، که مخالف صفر می باشد (یعنی اثر گذاری متغر مستقل بر متغیر وابسته) مورد پذیرش قرار می گیرد (گجراتی، ۱۳۸۷).
۳-۱۷ آزمون هم خطی [۵۴]
هم خطی وضعیتی است که نشان می دهد یک متغیر مستقل تابعی از سایر متغیرهای مستقل است. برای اندازه گیری همخطی می توان ازعامل تورم واریانس[۵۵] (VIF) استفاده نمود. عامل تورم واریانس، تعیین می کند که چه میزان واریانس ضرایب رگرسیون برآورد شده در مقایسه با زمانی که متغیرهای مستقل رابطه خطی ندارند، متورم شده اند. یا به عبارت دیگر، تعیین می کند که اگر متغیرهای مستقل(پیش بینی کننده) همبستگی داشته باشند، چه میزان واریانس ضریب رگرسیون برآورده شده افزایش می یابد. اگر VIF مساوی ۱ باشد، همخطی وجود ندارد، اما اگر بین ۱ و ۵ باشد، همبستگی ممکن است قابل اغماض باشد. زمانی که بین ۵ و ۱۰ باشد، همبستگی قوی وجود دارد و ضرایب رگرسیون به صورت ضعیف برآورد شده اند. VIF بزرگ تر از ۱۰ نشان می دهد که همخطی، نتایج رگرسیون را به میزان بسیار زیادی تحت تاثیر قرار داده است. در این شرایط برای کاهش همخطی می توان متغیر های مستقل بی اهمیت را از مدل حذف کرد.
۳-۱۸ بررسی نرمال بودن خطاها
یکی دیگر از مفروضات در نظر گرفته شده در رگرسیون آن است که خطاها دارای توزیع نرمال با میانگین صفر هستند. بدیهی است در صورت عدم برقراری این پیش فرض، نمی توان از رگرسیون استفاده کرد. بدین منظور باید مقادیر استاندارد خطاها محاسبه شود و نمودار توزیع داده ها و نمودار نرمال آنها رسم شود و سپس مقایسه ای بین دو نمودار صورت گیرد. در صورتی که خطاها دارای توزیع نرمال نباشد، می توان از لگاریتم متغیرها به جای خود متغیرها استفاده کرد (مومنی،۱۳۸۶).
۳-۱۹ خلاصه فصل