تابع لگاریتم درستنمایی برای سه سوال نمونه در شکل ۳‑۶ نشان داده شده است. توجه داشته باشید که این تابع دقیقا همان بیشینه ای را دارد که در تابع درستنمایی خام در شکل ۳‑۵ نشان داده شده است. در یک آزمون کوتاه میتوان توابع لگاریتم درستنمایی را برای هر پاسخ هر یک از سوالها با هم جمع نموده و برآورد تقریبی سطح صفت آزمودنی را با یک نگاه کلی مشاهده کرد. اما در جهان واقعی با مجموعه ای از داده ها مربوط به هزاران آزمودنی به ۵۰ سوال، محققان به برخی روشهای عددی نیاز دارند تا بتوانند بیشینهی تابع درستنمایی یک الگوی مشخص پاسخدهی را به دقت مشخص کنند.
شکل ۳‑۶: تابع لگاریتم درستنمایی برای آزمون ۳ سوالی.
یک روش رایج برای یافتن بیشینه تابع لگاریتم درستنمایی استفاده از روش تکرار شونده نیوتن- رافسون[۲۱] است. این الگوریتم برای یافتن مد (به جای میانگین) تابع لگاریتمی درستنمایی در مورد هر آزمودنی به کار میرود. توجه داشته باشید که تابع مربوط به شکل ۳‑۶ در واقع یک توزیع است.
بیشینه کردن تابع درستنمایی
با داشتن یک بردار از پارامترهای برآورد شده سوال و یک بردار برای پاسخهای سوال، نخستین گام در الگوریتم نمره گذاری نیوتن-رافسون این است که یک اندازه اولیه برای θ تعیین شود. این اندازه اولیه نمایانگر یک حدس در مورد سطح صفت آزمودنی است. در مثالهای این فصل، ارزش اولیه θ=۰ در نظر گرفته شده است. با داشتن این اندازه برآورد شده موقتی برای θ، مشتقهای اول و دوم تابع لگاریتمی درست نمایی بر اساس این اندازه θ (مطابق معادله۳‑۶) محاسبه می شود. این اندازهها برای مدل ۲PL به ترتیب در معادله۳‑۷ و معادله۳‑۸ نشان داده شده اند.
معادله۳‑۷: مشتق اول
معادله۳‑۸: مشتق دوم
سپس نسبت این اندازهها یعنی ε که معادل خارج قسمت مشتق اول بر مشتق دوم است محاسبه می شود. سرانجام، برآورد θ اولیه را از اندازه ε کم کرده و سطح صفت جدیدی بر اساس آن، مانند معادله ۳‑۹ محاسبه می شود. با بهره گرفتن از برآورد جدید سطح صفت، فرایند تکرار آنقدر ادامه داده می شود تا اندازه ε از یک مقدار کوچک معینی کمتر باشد و در این مثال، وقتی که این نسبت یعنی ε کمتر از ۰۰۱/۰ است، عمل تکرار متوقف می شود.
معادله ۳‑۹
در شکل ۳‑۷ تابع برای یک امتحان شونده فرضی که به ۵ سوال اول یک آزمون (که از نظر ضرایب تشخیص یکسان و از نظر دشواری سوال متفاوت و متقارن) پاسخ درست و به ۵ سوال دوم آن پاسخ غلط داده است نشان داده می شود. اکنون مشتق اول تابع لگاریتم درستنمایی شیب آن را نشان میدهد. بنابراین، بیشینه تابع لگاریتم درستنمایی در جایی قرار خواهد گرفت که مشتق اول برابر صفر باشد. در اصل لازم است پیدا شود که مشتق اول تابع لگاریتم درستنمایی در کجا برابر صفر است. مشتق دوم شیب مشتق اول است که در دامنه صفت ارزشیابی شده و همیشه منفی است.
شکل ۳‑۷: تابع احتمال لگاریتمی و مشتق اول و دوم آن.
روش نیوتن-رافسون به سرعت در برآورد بیشینه درستنمایی به همگرایی میرسد. برای توضیح این مطلب، فرض کنید که سطح صفت آزمودنی ۱- است. توجه داشته باشید که در عمل، بیشینه درستنمایی سطح صفت برای این آزمودنی برابر صفر است. درجدول ۳‑۲، ملاحظه می شود که ، ۲۱۱/۳ = مشتق اول، ۹۲۰/۲- = مشتق دوم، و بنابراین نسبت آنها برابر ۰۹/۱- است. ملاحظه میکنید وقتی که مقدار واقعی سطح صفت کم برآورد می شود، مشتق اول مثبت و در نتیجه نسبت مشتق اول به دوم منفی خواهد بود، زیرا مشتق دوم همیشه منفی است(به معادله۳‑۸ مراجعه شود). با کم کردن ۰/۱- از ۰۹/۱- برآورد جدید سطح صفت برابر ۰۹/۰ به دست می آید. در تکرار بعدی مشتق اول برابر ۳۰۳/۰، مشتق دوم برابر ۳۶۴/۰۳ و نسبت آنها برابر ۰۹۰/۰ است. اکنون برآورد جدید سطح صف برابر ۰/۰ است و با این مقدار مشتق اول برابر ۰ خواهد بود و در نتیجه فرایند تکرار در همینجا متوقف می شود. به طور صحیح ارزش سطح صفت ۰۰/۰ را به عنوان بیشینه درستنمایی در نظر گرفته شده است.
جدول ۳‑۲: مجموعههای تکرارشونده نیوتن– رافسون به دریافتن بیشینه احتمال برآورد سطح صفت.
برای توضیح بیشتر، اگر فرض شود که در آغاز فرایند جستجو اندازه سطح صفت به جای ۱- برابر با ۵/۱+ میبود، بخش پایینی جدول ۳‑۲ آنچه را که در این صورت اتفاق میافتاد نشان میدهد. وقتی که سطح صفت کم برآورد[۲۲] می شود مشتق اول مثبت و مشتق دوم منفی است. با محاسبه نسبت این دو و کم کردن آن از مقدار قبلی، برآورد جدیدی به دست می آید که به برآورد درست سطح صفت بیشینه درستنمایی آزمودنی نزدیکتر است. برعکس، اگر سطح صفت بیش برآورد[۲۳] شود. در این صورت مشتق اول و دوم منفی میشوند، و با محاسبه نسبت آنها و کم کردن از برآورد قبلی، برآورد جدیدی بدست می آید که به برآورد صحیح سطح صفت بیشینه درستنمایی نزدیکتر خواهد بود. در هر دو صورت، در نهایت مشتق اول لگاریتم به صفر میل می کند، و نسبت مشتق اول به دوم نیز به صفر میل می کند و در نتیجه حداکثر (مد) تابع لگاریتم درستنمایی بدست آورده می شود.
برآوردکننده بیشینه درستنمایی سطح صفت چند ویژگی مثبت جانبی (در نمونههای بزرگ) دارد. نخست آنکه، این برآوردکننده عاری از سوگیری است یعنی اندازه مورد انتظار θ همیشه با اندازه واقعی آن برابر است. علاوه بر این، برآوردکننده کارآمد است و خطاهای آن دارای توزیع نرمال است. با وجود این، برآورد کننده بیشینه درستنمایی با چند مشکل مواجه است. از بردارهایی که به همه سوالها پاسخ درست و یا به همه آنها پاسخ نادرست داده شده باشد، هیچ برآورد بیشینه درستنمایی ML بدست نمیآید. همچنین ویژگیهای خوب آماری آن فقط در بینهایت درست است و این ویژگیها بر این پیش فرض استوارند که پاسخها با مدل برازش دارند ( بوک و میسلوی، ۱۹۸۲). تحت شرایط پاسخهای گمراهکننده و محدود بودن سوالهای آزمون هیچ تضمینی ندارد که ویژگیهای آماری مثبت به دست آید. سرانجام، برای آزمونهای کوتاه (مثلا کمتر از ۲۰ سوال) که تحت مدل ۳PL درجهبندی شده اند، برخی از بردارهای پاسخ ممکن است به کمینهی مکانی برسند و الگوریتم ML با راهحل درست به همگرایی نرسد.
در آزمونهای کوتاه، پژوهشگر به دلیل آگاهی محدودی که در مورد آزمون وجود دارد نمیتواند به هیچ یک از نمرهها به ویژه کرانهها، اعتماد داشته باشد. دلیل این امر آن است که صرفنظر از سطح صفت، خطاهای استاندارد بسیار بزرگاند (یعنی اصل تقارن برقرار نیست). وقتی که سوالها از نوع مدل راش است و نیز از ضرایب تشخیصی یکسانی برخوردارند، همه آزمودنی هایی که نمره خام یکسان دارند نمره سطح صفت و خطای معیار آنها نیز یکسان است. در مدل راش، نمره گذاری به روش ML، نسبت به همسانی الگوی پاسخدهی آزمودنی حساس نیست. یعنی صرف نظر از اینکه آزمودنی چگونه نمره خام خاصی را به دست می آورد، نمره خام یک و همواره به میزان سطح صفت و خطای معیار یکسان منجر می شود. بنابراین دشواری سوالهای پاسخ داده شده و سوالهای بی پاسخ بر خطای معیار بیتاثیرند. در مدل راش، نمره خام آزمودنی یک آماره مکفی برای برآورد سطح صفت وی به شمار میرود.
اما در آزمونی که ضرایب تشخیص متفاوت و پارامتر دشواری ثابت دارد، آزمودنیهایی که نمره خام یکسانی داشته اند حالا بر حسب الگوهای پاسخدهیشان از اندازه های متفاوت سطح صفت برخوردارند. به ویژه، آزمودنیهایی که به سوالهای با ضرایب تشخیص بالاتر درست پاسخ دادهاند، اندازه سطح صفت بالاتری را به دست آوردهاند. در مدل ۲PL، نمره آزمونشوندگان بر اساس پاسخهای درست سوالهایی تعیین می شود که ضرایب تشخیص بالاتری دارند، نه سوالهایی که دشوارترند. وقتی ضرایب تشخیص سوالها متفاوت باشند، بسیار محتمل است که یک آزمودنی که نمره های بالاتر از فرد دیگر گرفته است از سطح صفت پایینتری برخوردار باشد. اما نباید نتیجه گرفت که پارامتر دشواری سوال هیچ نقشی ایفا نمیکند. در واقع سطح دشواری سوال از نقش بزرگی برخوردار است، زیرا مکان لگاریتم درستنمایی را تعیین می کند، ونیز تعیین می کند که تابع در کجا به بیشینه می شود.
بیشنه پسین[۲۴]
مشکل اصلی برآورد به روش ML که در بخش قبلی مورد بحث قرار گرفت، این است که برای یک آزمودنی که به همه سوالها پاسخ صحیح یا غلط داده است نمی توان هیچ سطح صفتی را محاسبه کرد. همچنین روشهای ML ماهیت مجانب دارند و در مورد نمونههای بزرگ به بهترین وجه قابل اجرا هستند. در مورد برآورد سطح صفت نمونهها به سوال ها اشاره دارند، بنابراین برآورد ML زمانی از بیشترین ارزش برخوردار است که پژوهشگر با تعداد سوالهای زیادی سرکار دارد.
چنانکه بسیاری از پژوهشگران یادآور شده اند میتوان با وارد کردن اطلاعات پیشین به شکل توزیع پشین در تابع لگاریتم درستنمایی، با محدودیتهای روشهای ML مقابله کرد. سودمندی این روش در آن است که پژوهشگر بخواهد فرض کند که یک پارامتر درون دامنه مشخصی از اندازهها قرار میگیرد، این اندازه های اولیه امکان محاسبه کارآمدتر را فراهم می کنند. از طرفی توزیعهای پیشین در برابر اندازه های پرت یا نقاط موثر در داده ها که ممکن است اثرهای غیرضروری در برآورد پارامتر سوال یا شخص داشته باشند نقش حفاظتی دارند.
همانند برآورد پارامتر سوال، در برآورد سطح صفت آزمودنی نیز میتوان توزیع پیشین را مشخص کرد. وقتی که توزیعهای پیشین در برآورد سطح صفت آزمودنی به کار میروند، این روش به عنوان راهبرد نمره گذاری بیشینه پسین(MAP) نامیده می شود. روش برآورد MAP، یک روش برآورد بیزی است که در آن پژوهشگر از اطلاعات پیشین درباره مقدار پارامتر همراه با تابع لگاریتم درستنمایی مشاهده شده استفاده می کند تا برآورد سطح صفت بر اساس بیشینه کردن یک توزیع پسین دست یابد.
برای درک برآورد به روش MAP چند مفهوم کلیدی وجود دارد. نخستین آنها موضوع توزیع پیشین است. توزیع پیشین فقط یک توزیع احتمالی (فرضی) است که پژوهشگر فرض می کند آزمودنیها یک نمونه تصادفی از آن توزیع هستند. رایجترین توزیع پیشین برای برآورد سطح صفت در نظریه سوال پاسخ، توزیع طبیعی استاندارد است. بدین معنا که پژوهشگران فرض می کنند آزمودنیها از یک توزیع با میانگین صفر و واریانس ۱ نمونه گیری شده اند. به لحاظ نظری، هر یک از اشکال مختلف میتوانند به عنوان توزیع پیشین فرض شوند، اما اغلب به نظر میرسد که توزیع طبیعی انتخاب درستتری باشد. دومین مفهوم مهم، تابع لگاریتم درستنمایی است که در مدل برآورد بیشینه ML مورد بحث قرار گرفته است. سومین مفهوم مهم، توزیع پسین میباشد. تعریف توزیع پسین آسان است زیرا برابر حاصلضرب تابع لگاریتم درستنمایی در تابع توزیع پیشین است. به بیان دیگر، توزیع پسین، همان تابع لگاریتم درستنمایی است که توزیع پیشین به آن اضافه شده است. بنابراین، هدف نمرهگذاری به روش MAP یافتن اندازهای از θ است که پسین را به حداکثر برساند. اندازهای از θ که توزیع پسین را به حداکثر برساند با مد برابر است و به همین خاطر این روش را گاهی روش برآورد مدی بیس مینامند. در شکل ۳‑۸، تابع توزیع طبیعی به عنوان توزیع پیشین نشان داده شده است. برای برآورد سطح صفت آزمودنی، دقیقاً همان مراحلی را که در بخش گذشته شرح داده شد دنبال می شود. به عبارت دیگر، با یک حدس در مورد اندازه θ آغاز می شود و سپس با بهره گرفتن از یک الگوی پاسخدهی خاص و پارامترهای سوال، لگاریتم درستنمایی و مشتق اول و دوم تابع درستنمایی مذکور محاسبه می شود.
شکل ۳‑۸ : تابع توزیع طبیعی.
اما پیش از محاسبه نسبت مشتق اول به مشتق دوم (ε)، توزیع پیشین با تعدیل مشتقهای اول و دوم ادغام می شود. پس از تعدیل مشتقهای اول دوم، مقدار ε را محاسبه کرده و برآورد سطح صفت مطابق آن اصلاح می شود. بدیهی است هر چه آزمون کوتاهتر باشد، توزیع پیشین برآوردهای سطح صفت را بیشتر تحت تاثیر قرار میدهد. از سوی دیگر در آزمون های طولانی، توزیع پیشین به وسیله تابع درستنمایی پوشیده می شود و لذا نقش بسیار ناچیزی در برآورد سطح صفت دارد.
خطاهای استاندارد کوچکتر و برآورد مقادیر سطح صفت که به سمت میانگین توزیع پیشین کشیده می شوند، نقاط ضعف و قدرت راهبرد نمرهگذاری MAP را نشان می دهند. نقطه قوت این است که برای همه آزمودنیها، حتی کسانی که الگوهای پاسخدهی تمام درست و یا تمام نادرست دارند، برآورد سطح صفت امکان پذیر است. نقطه قوت دوم آن است که ادغام اطلاعات پیشین باعث افزایش دقت برآورد سطح صفت می شود. از سوی دیگر، مشکل این روش این است که نمره های MAP با سوگیری همراهند، به ویژه زمانی که تعداد سوالها کم است( مثلاً کمتر از ۲۰). بدین معنا که مقدار مورد انتظار MAP با مقدار پارامتر واقعی آن برابر نیست. علاوه بر این باید شکل خاصی برای توزیع پیشین فرض شود. اگر توزیع پیشین نادرست مورد استفاده قرار گیرد، نمرهها به طور جدی سودار و گمراهکننده خواهند بود.
نمره گذاری به روش پسین[۲۵] مورد انتظار
برخلاف روشهای برآورد ML و MAP، برآورد سطح صفت به روش پسین مورد انتظار، روشی بدون تکرار است. (باک و میسلوی، ۱۹۸۲). بر عکس روش ML، روش EAP برای کلیه الگوهای پاسخدهی - حتی در الگوهای پاسخدهی که به همه سوالها درست و یا نادرست پاسخ داده شده باشد- سطح صفت محدودی را به دست میدهد. روش EAP یک برآوردکننده بیزی است، که به جای مد توزیع از میانگین توزیع پسین مشتق شده است. منطق حاکم بر روش نمره گذاری EAP به شرح زیر است.
برای هر مجموعه ای از سوالهای مقیاس( یعنی آزمون )، یک مجموعه چگالیهای احتمال، یا وزنهایی در تعداد ثابتی از مقادیر مشخص θ محاسبه می شود. در عوض تعداد محدود مقادیر θ مشخص شده، گرههای انتگرال[۲۶] نامیده می شوند. چنانچه در معادله ۳‑۱۰ نشان داده شده است، چگالیها یا وزنها از یک توزیع نرمال استاندارد گرفته میشوند.
معادله ۳‑۱۰