استاندارد سازی کردن شامل شیوه های ایجاد فرمهای معادل آزمون(فرم همتا)، شیوه های ایجاد بانکهای متجانسی از سوالات(همسانی درونی)، یا معادل کردن نیمههای آزمون(دو نیمه کردن) و هم شامل شیوه های ایجاد همسانی در نمرهگذاری از طریق بهبود دستورالعملها و فرایندهای استاندارد شده نمرهگذاری میان ارزیابان خواهد بود. استانداردسازی کردن اثرات خاصی روی انواع معینی از اعتبار خواهد داشت و هنگام توسعه ابزارهای اندازه گیری، یکی از عاملهایی ست که باید برای افزایش اعتبار آن را در نظر داشت (میلر، ۲۰۱۰).
دامنه ی گروه
اعتبار آزمون همچنین بستگی به نمونه گیری افراد مورد مطالعه دارد. رین اسکاف (۲۰۰۱) مطرح می کند، که اگر از دامنه وسیعی از افراد نمونه گیری شود به طوریکه واریانس نمره واقعی بزرگ باشد،نسبت به زمانی که افراد با دامنه محدود شدهتری از نمرات واقعی نمونه گیری شده اند، آزمون اعتبار بزرگتری خواهد داشت. علت آن ثابت بودن مقدار واریانس خطا در گروه های نمونه متفاوت است.
در نتیجه مقدار ضریب اعتبار آزمون تابع درجه ناهمگنی نمرات واقعی گروه نمونه است. هر چه همگنی گروه نمونه بیشتر باشد، واریانس نمرات واقعی کاهش مییابد و در نتیجه ضریب اعتبار پایین را به دنبال خواهد داشت.
سطح توانایی در گروه
هر چه میزان توانایی افراد مورد مطالعه با سطح دشواری آزمون هماهنگتر و همخوانتر باشد، میزان اعتبار آزمون نیز بالاتر خواهد بود.
تأثیر خطاهای نظامدار و تصادفی
خطاهای اندازه گیری به دو دسته ی؛ خطای تصادفی[۱۲۹] یا شانسی و خطای نظامدار[۱۳۰] یا سیستماتیک تقسیم می شوند. خطای تصادفی خطایی است که از شرایط تصادفی آزمودنیها یا خود سوالات آزمون ناشی می شود. این نوع خطا غیرقابل پیش بینی و غیرقابل کنترل بوده لذا اعتبار را کاهش میدهد. نوع دیگر خطا، خطای ثابت یا سیستماتیک است که به عواملی مربوط می شود که به طور منظم و از روی قاعده و لذا کنترلپذیر در اندازه گیری دخالت می کند و اثرات معین و مشخصی را اعمال می کند. از این رو اعتبار را کم یا زیاد نمیکند.
از دیگر عوامل مؤثر بر اعتبار آزمون میتوان همگونی سوالات و ضریب تشخیص را نام برد.
خطای معیار اندازه گیری[۱۳۱]
شخصی را تصور کنید که n بار مورد اندازه گیری قرار میگیرد، با فرض اینکه نمرات به دست آمده
توزیع طبیعی دارند، در این صورت میانگین این توزیع معرف نمرهی واقعی آزمودنی و انحراف معیار آن معرف خطای معیار اندازه گیری(SEM) است. خطای معیار اندازه گیری انحراف معیار توزیع نمرات خطاست و نشان دهنده ی دقت عملکرد آزمودنی است و به ما میگوید که هر نمرهی آزمون چقدر دقیق است. به بیانی دیگر، SEM به ما میگوید که چقدر در یک اندازه گیری انعطاف وجود دارد. دامنه تغییرات SEM از صفر تا انحراف معیار نمرات مشاهده شده است. وقتی = SEM ، در روند اندازه گیری هیچ ثباتی وجود ندارد و ضریب اعتبار برابر صفر است. و هنگامیکه ۰ = SEM ، ثبات کامل در نمرهها وجود دارد و ضریب اعتبار مساوی یک است. در عمل، مقدار SEM عددی بین این دو کران خواهد بود. SEM بزرگتر، انعطاف زیادی را شامل می شود و فاصله اطمینان بزرگی دارد و اینکه اعتماد کمتری نسبت به دقت ویژگی اندازه گیری شده به ما می دهد. SEM به دو طریق زیر محاسبه می شود:
الف) از طریق نمرات مشاهده شده
آزمون بر روی گروهی از آزمودنیها به کرات اجرا می شود. از آنجا که در هر آزمون برای هر آزمودنی سه نمره (نمره مشاهده شده، نمره واقعی و نمره خطا) وجود دارد، این سه نمره برای هر آزمودنی در اندازه گیریهای متوالی محاسبه می شود. با محاسبه انحراف معیار توزیع نمرات خطا، بهدست می آید. این روش عملی نیست زیرا اجرای اندازه گیریهای متوالی بر روی آزمودنیها غیرممکن است.
ب) از طریق ضریب اعتبار آزمون و انحراف معیار نمرات مشاهده شده آزمودنی ها .
SEM =
همچنین لرد فرمول دیگری را برای محاسبه SEM بر مبنای مفروضه آزمونهای تصادفی موازی ارائه داده است که تابع تعداد سوالات آزمون و نیز نسبت پاسخهای درست فرد در جامعه سوال است. این فرمول برخلاف فرمول بالا، مبتنی بر مفروضه یکسانی واریانس توزیع های خطا نیست.
با فرض طبیعی بودن توزیع نمرات، میتوان با بکارگیری SEM، حول نمرات مشاهده شده فواصل اطمینان ایجاد کرد و احتمال اینکه نمرهی واقعی درون یک فاصله معین بیفتد را برآورد کرد.
CIP =
برخی نیز معتقدند که فواصل اطمینان را میبایست حول برآورد نمره واقعی ایجاد کرد. در صورت نقض مفروضات SEM (یکسانی واریانس و طبیعی بودن توزیع)، فواصل اطمینان گمراه کننده خواهد بود (اسکولتز و همکاران،۲۰۱۱؛ میلر،۲۰۱۰؛ کاپلان و ساکوزو، ۲۰۰۴، ترجمه دلاور و همکاران، ۱۳۸۸؛ مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱).
مفهوم اعتبار در IRT
دو شاخص اعتبار در CTT، ضریب اعتبار و دیگری خطای معیار اندازه گیری است. در IRT مفهوم سنتی اعتبار جایی ندارد. به جای آن، بر روی مفهوم اساسیتر خطای معیار اندازه گیری تأکید می شود. به بیانی دیگر، نمره واقعی (سطح توانایی) آزمودنی با چه دقتی برآورد می شود؟
به میزان دقتی که در برآورد توانایی وجود دارد، آگاهی گفته می شود. میتوان گفت آگاهی همزاد واژه اعتبار در CTT است. از تابع آگاهی جهت برآورد خطای معیار استفاده می شود. خطای معیار برآورد، را میتوان از طریق معکوس ریشه دوم آگاهی برای سطوح مختلف توانایی طبق فرمول زیر محاسبه نمود :
SE () =
خطای معیار برآورد در IRT در زمینههایی مشابه خطای معیار اندازه گیری در CTT است. هر دو، به ترتیب با آگاهی و اعتبار رابطه معکوس دارند. با این حال تفاوتهای عمدهای نیز دارند. از جمله اینکه مقدار خطای معیار برآورد در سطوح مختلف توانایی تغییر می کند در حالی که خطای معیار اندازه گیری در CTT برای همه سطوح توانایی یکسان است. نکته دیگری که لازم است به آن اشاره شود این است که در CTT نمی توان سهم هر سوال را در اعتبار آزمون مستقل از سایر سوالات آزمون، برآورد کرد. اما درIRT برای هر سوال به طور جداگانه و همچنین برای کل آزمون میتوان تابع آگاهی را محاسبه نمود (رین اسکاف، ۲۰۰۱؛ جزوه فلسفی نژاد، ۱۳۹۱).
تعریف و مفهوم روایی
کاپلان و ساکوزو[۱۳۲]، روایی را به صورت توافق بین نمره آزمون و کیفیتی که قرار است اندازه بگیرد تعریف کرده اند (روان آزمایی، ۲۰۰۴ ،ترجمه دلاور و همکاران، ۱۳۸۸، ص۱۳۷). برخی گفتهاند آزمونی رواست که چیزی را اندازه بگیرد که برای اندازه گیری آن ساخته شده است. روایی به مناسب بودن، بامعنا بودن و سودمندی تفسیرها و کاربردهایی که از نمرات آزمون به عمل می آید اشاره می کند. تائید این گونه تفسیرها و کاربردهای نمرات آزمون، مستلزم جمعآوری شواهد است و روایی، بیانگر میزان مناسبت و کفایت این شواهد است. وقتی گفته می شود آزمونی رواست، در مورد روایی تفسیرها و کابردهای آن صحبت می شود نه خود آزمون. نکتهی دیگر اینکه، روایی امری نسبی است و یک آزمون می تواند برای کاربرد معینی روا باشد و برای کاربردی دیگر فاقد روایی.
تاریخچه روایی
بنا به آنچه در سایت آماری گارسون در بحث تاریخچه روایی آمده است؛ برخی از نویسندگان اولیه به سادگی روایی را معادل با اثبات همبسته بودن یک مقیاس ساخته شده با یک متغیر وابسته میدانستند و در واقع یک مقیاس ممکن بود روا در نظر گرفته شود در صورتیکه یک اندازه از هر چیزی با آن همبسته باشد (گیلفورد[۱۳۳]،۱۹۴۶). در سال ۱۹۵۴ انواع روایی توسط انجمن روانشناسان آمریکا (APA) تدوین شد که در این راستا، ۴ طبقه شناسایی شد: روایی محتوا[۱۳۴]، روایی سازه[۱۳۵]، روایی همزمان[۱۳۶] و روایی پیشبین[۱۳۷]. هر نوعی با یک هدف متفاوت تحقیقی مطابقت داشت. روایی محتوا با آزمون محتوای مادههای موضوع، روایی سازه با اندازه گیری مفاهیم ذهنی مانند IQ، روایی همزمان با ابداع مقیاسهای آزمونهای جدید برای جایگزینی آزمونهای موجود و روایی پیشبین با ابداع شاخص هایی از عملکرد آینده مرتبط بود. در سال ۱۹۶۶ نوع شناسی APA دو نوع اخیر را تحت عنوان روایی وابسته به ملاک[۱۳۸] نامگذاری کرد. بعدها برخی افراد از جمله شپارد[۱۳۹] (۱۹۹۳) استدلال کردند که هر دو روایی محتوا و ملاک زیر گروهی از روایی سازه هستند، و تنها یک نوع روایی وجود دارد. کرونباخ (۱۹۷۱) این بحث را مطرح کرد که روایی مسئله مربوط به آزمون یا مقیاس نیست، بلکه مربوط به تفاسیر محققین از یک آزمون یا مقیاس میباشد که این به طور گستردهای امروزه پذیرفته شده است. برخی مثل میسک[۱۴۰] (۱۹۸۹) روایی سازه را به عنوان تنها نوع پذیرفتهاند، اما استانداردهای گوناگونی را برای ارزیابی آن استدلال می کنند. به طورخلاصه، بیش از نیم قرن گذشته، مفهوم روا سازی از برقراری ارتباط با یک متغیر وابسته تا این ایده که محققان باید به هر تفسیر از هر مقیاس، آزمون، یا ابزار اندازه گیری یک سازه را روا ببخشند، بسط داده شده است.
انواع روایی
رواسازی مستلزم جمع آوری انواع متفاوتی از شواهد است که جهت تأئید نتایج حاصل از نمرات آزمون
به کار می رود. با اینکه روایی یک مفهوم بسیط و یگانه است لذا در عمل بسته به هدفهای خاص آزمون
و روشهای برآورد، انواع مختلفی از آن وجود دارد. در اینجا بر مبنای آزمونهای هنجار مرجع، به بررسی
و مطالعه انواع روایی پرداخته می شود.
صوری/ذهنی
منطقی/ نمونه گیری
نمودار ۲-۶ : روش های برآورد روایی
پیش بین
همزمان
همگرا
واگرا
همسانی درونی
تمایز سنی
تحلیل عاملی
تفاوت های گروهی
روایی محتوا
تعیین روایی محتوا، اولین گام در بررسی تمام آزمونهاست. این روایی اشاره به تحلیل منطقی محتوای یک آزمون دارد و مبتنی بر قضاوت ذهنی است لذا در مقایسه با دیگر انواع روایی بیشتر در معرض خطاست. روایی محتوا به دو نوع تقسیم می شود. نوع اول، روایی صوری یا ذهنی است که اشاره به ظاهر آزمون دارد. اینکه آزمودنیها با مشاهده سوالات آزمون بتوانند به محتوایی که آزمون مدعی اندازه گیری آن است پی ببرند. برای برآورد این نوع روایی، از قضاوت متخصصان موضوعی استفاده می شود. نوع دوم، روایی منطقی یا نمونه گیری بیانگر این مطلب است که نمونه سوالات آزمون تا چه حد معرف جامعه سوالات ممکن است که میتوان از محتوای موضوع مورد نظر تهیه کرد و این سوالات تا چه میزان حیطههای آن موضوع را پوشش می دهند. این نوع روایی بیشتر در ساخت آزمونهای پیشرفتتحصیلی حائز اهمیت است. برای برآورد این نوع روایی، جدول مشخصات به کار گرفته می شود.
لاشه[۱۴۱] (۱۹۷۵) روشی برای کمیسازی روایی محتوایی معرفی کرد که در مقایسه با روشهای جایگزین برای کمیسازی روایی محتوایی ارزیابان، ساده و راحت است. به طوریکه تنها نیاز به محاسبات ساده و ارائه یک جدول برای تعیین نقطه برش ارزش بحرانی دارد.
روش لاشه برای تعیین ضریب روایی محتوایی بدین شرح است؛ گروهی از متخصصان موضوعی، هر یک از سوالات ابزار را بر روی یک مقیاس سه نقطهای(ضروری، مفید اما غیر ضروری و غیر ضروری) درجهبندی می کنند. آمارهی آن، نسبت روایی محتوایی (CVR)[142] تبدیل خطی از نسبت تعداد ارزیابانی که سوال را ضروری تشخیص می دهند به تعداد کل ارزیابان شرکت کننده در پنل است. CVRبا استفاده از فرمول زیر محاسبه می شود:
CVR =
تعداد ارزیابانی که سوال را ضروری تشخیص داده اند :
تعداد کل ارزیابان شرکت کننده :
دانلود مطالب پژوهشی در رابطه با بررسی روایی و اعتبار آزمون دروس زیست شناسی و ...