دوازده گام ساخت آزمون

دوازده گام برای طراحی آزمون های اثربخش
استیون داونینگ برای ساخت آزمون های پیشرفت تحصیلی، توانایی و مهارت دوازده گام اصلی بیان می کند که در مقاله حاضر به آنها پرداخته شده است. این گام ها به همراه مثال ها و نمونه هایی ارائه شده است که در نتیجه تجربیات و مطالعات نویسنده به دست آمده است. با اینکه برخی از این گام ها در آزمون های نگرش سنج نیز کاربرد دارند، در این مقاله به این نوع آزمون ها پرداخته نشده است.
در تدوین یک آزمون در ابتدا قبل از شروع ساخت آزمون توصیه می شود هزینه های یک آزمون را در نظر بگیرید، چرا که این روزها حتی ساده ترین آزمون ها هم میلیون ها تومان هزینه دارد. سپس با توجه به گام های زیر دست به اقدام زده و از متخصصین حوزه مربوطه حتما کمک بخواهید آزمون سازی فرایندی تخصصی است و نمی توان صرفا با داشتن اطلاعاتی همچون اطلاعات ناقص کتاب های فارسی چنین کاری را انجام داد.
توجه: نکاتی که به صورت بولت در گام نخست ارائه شده است تجربه نگارنده است.
نکته: برخی از مراحل زیر ممکن است برای ساخت آزمون های در مقیاس کوچک کاربردی نداشته باشد.
توجه: نگارش سوال و ساخت آزمون در آزمون های نگرش سنج و شخصیت تفاوت های اساسی با آزمون های شناختی و پیشرفت تحصیلی دارد.
گام اول
طرح کلی
الف: چه سازه ای اندازه گیری می شود؟
- تعریف نادرست سازه موجب واریانس نامرتبط شده و تفسیر نمره آزمون را مشکل می کند.
- تحت تاثیر تعریف ناقص سازه مدل های اندازه گیری با داده ها برازش ندارند.
- تعریف ناقص سازه در نهایت نتیجه دلخواه را تامین نمی کند و صرفا موجب اتلاف هزینه می شود.
- آزمون روایی و اعتبار ندارد.
ب: تا چه اندازه باید به زمان بندی پایبند بود؟
- عدم پایبندی به زمان موجب مشکلاتی در رابطه با روایی و اعتبار می شود. برای مثال اگر یک آزمون پیشرفت تحصیلی مقرر باشد که در ابتدای سال تحصیلی اجرا شود و پایبندی نباشد ممکن است در یک ماه پس از گذشت سال تحصیلی نتایج متفاوت تری حاصل کنیم که نتیجه رشد و یادگیری دانش آموز است در حالی که آیتم هایی که به کار برده شده برای دانش آموزان در قبل از شروع سال تحصیلی است.
- موجب هزینه بیشتر و پایبند نبودن مجریان کار به تعهداتشان نسبت به مرکز درخواست کننده ساخت آزمون می شود.
- ممکن است در اثر تورم، هزینه های طرح در طول یک سال تا چند برابر بشود و چون فرد متعهد به سازمان است بنابراین همه هزینه ها را باید از جیب مبارک پرداخت کند.
- آزمونگران یک پژوهش به دلیل مبلغ کمی که دریافت می کنند اغلب پس از حدود یک سال از انجام کار سر باز می زنند و موجب می شود در مدت طولانی تری به افراد جدید، اجرای آزمون را آموزش بدهیم که این یعنی از دست رفتن تجربه افراد سابق در آزمونگری که هزینه و وقت زیادی صرف آموزش آنها شده است.
- ستاد توسعه علوم و فناروی های شناختی در طی سال های گذشته هزینه زیادی بابت ساخت آزمون هایی همچون هوش استنفورد-بینه، وکسلر، حافظه و … کرده است اما زمان صرف شده برای هنجاریابی و انتشار آن چنان طولانی شده است که ویرایش جدید این آزمون ها کمتر از دو سال دیگر منتشر می شود، بنابراین هزینه های صرف شده عملا از دست رفته و با توجه به نتایج جدید مطالعات، اندازه گیری های حاصل این آزمون ها کاربرد چندانی ندارد.
ج: چه کسی مسئول اجرای تکالیف است؟
- تجربه نشان داده که پژوهش یک فعالیت جمعی است. در ایران همه کارها توسط یک نفر انجام می شود که اغلب در رابطه با همه زوایای آزمون سازی (برای مثال دانش تخصصی حوزه مرتبط با آزمون، توانایی مدیریت کردن، اجرای آزمون، آنالیز کردن آزمون، نمونه گیری صحیح و …) تخصص و تجربه لازم را ندارد.
د: تعریف حوزه محتوایی آزمون و سازه مورد اندازه گیری
- در آزمون وودکاک جانسون به عنوان یک آزمون پیشرفت تحصیلی انتخاب واژگان به عنوان آیتم های آزمون از اهمیت خاصی برخوردار است، کسی که تخصص حوزه پیشرفت تحصیلی را نداشته باشد بنابراین نمی تواند آیتم هایی را بسازد که روایی آزمون را تضمین کند. این خود نیاز به تخصص های دیگر را نشان می دهد.
- انتخاب آیتم ها برای مثال در این آزمون (وودکاک جانسون) بر مبنای دشواری و تشخیص آیتم ها، پایه تحصیلی، مدل اندازه گیری، زبان شناسی، کاربرد عمومی در جامعه، جنبه های فرهنگی و … صورت می پذیرد.
- تعداد آیتم ها برای هر حوزه محتوایی چقدر باید باشد. یا در انتها در کل آزمون از هر حوزه محتوایی چه آیتم هایی باید وجود داشته باشد.
ه: روایی و اعتبار آزمون چگونه بررسی خواهد شد؟
- در رابطه با روایی و اعتبار روش های مختلفی وجود دارد. توصیه می شود مطالعات جدید در این حوزه خوانده شود. کتاب های فارسی مبحث روایی را به طور محدود و مرتبط با نیم قرن پیش بحث کرده اند. کتاب استانداردهایی برای آزمون های روان شناختی پیشنهاد می شود.
- در روش های نوین اندازه گیری آلفا و شیوه های که در سابق استفاده می شد کمتر مورد توجه است.
ن: انتخاب مدل روان سنجی (کلاسیک یا سوال پاسخ)
- مدل کلاسیک اندازه گیری امروزه کمتر در ساخت آزمون ها کاربرد دارند. اگر چه در هنگام آزمون سازی شاخص های این مدل نیز بررسی و گزارش می شود. در ایران اندک کسانی را پیدا می کنیم که از نظریه جدید اندازه گیری مانند سوال-پاسخ (IRT) استفاده کرده اند.
و: طراحان پرسش های آزمون چه کسانی خواهند بود؟
- گروهی از متخصصین از حوزه های مختلف از جمله متخصص رشد کودک، روان شناس تربیتی، زبان شناس، روان سنج و … نیازمند انجام این کار خواهند بود که هر کدام از جنبه ای به پرسش ها می پردازند.
ب: مسئول نگارش سوال های جدید چه کسی است؟
پ: مسئول انتخاب سوال های نهایی چه کسی (انی) خواهد بود؟
ت: مسئول تولید، چاپ و یا پرینت آزمون چه کسی است؟
ث: امنیت آزمون را چه کسی باید بر عهده داشته باشد؟
- اعتبار و روایی یک آزمون به پوشیده بودن محتوای آن برای عموم است. در ایران به علت عدم مسئله کپی رایت، پس از مدتی آزمون ها سر از مجموعه هایی همچون آزمون یار پویا و … در می آورند و افراد سودجویی در فضای مجازی آنها را به فروش می رسانند به همین دلیل می بایست تحت شرایط خیلی پیچیده ای محتوا را نگه داشت. برای مثال مشاهده شده که والدین برای ورود کودکانشان به مدرسه آزمون هوش می خرند و آن را به فرزندانشان آموزش می دهند. تجربه شخصی اینجانب نشان می دهد در برخی موارد هوش کودک تا 170 هم مشاهده شده است.
- راهکار اجرای نمره گذاری در قالب فضای مجازی و بستن قرارداد با کسانی که مجوز حوزه مربوطه را دارند تا در صورت ایجاد مشکل از شخص بابت خسارت، غرامت دریافت شود. البته ناگفته نماند که باز هم نقص هایی در این سیستم وجود دارد و امکان امنیت صددرصد وجود ندارد.
- استفاده از روش هایی همچون سنجش انطباقی می تواند تا حدود زیادی امنیت آزمون را تضمین کند.
ی: مکانیزم کنترل کیفیت صحت مواد آزمون چگونه است؟
- آزمون های هوشی برای مثال قطعاتی دارند که گروه های سنی پایین باید از آنها استفاده کنند، قطعات پلاستیکی که در ویرایش پنجم این ازمون به کار برده شده که وقتی سوال از آزمودنی می شود این دو قطعه چه تفاوتی با هم دارند، آزمودنی به رنگ آنها اشاره می کند در حالی که طول قطعات مد نظر است و فرد نمره نمی گیرد.
- بعلاوه قطعات چوبی باید با رنگ خوراکی، رنگ شود چون کودک ممکن است آنها را به دهانش ببرد که استاندارد نیست.
- دفترچه های آزمون آنچنان ناکارآمد هستند که پس از دو مرتبه استفاده تکه تکه می شوند. فرد خریدار حق دارد که آزمونی با مواد با کیفیت بخرد، چون پول داده است.
س: آزمون کجا و کی و به وسیله چه کسانی اجرا می شود.
- در آزمون ها، منظور از هنجاریابی شرایط اجرا، تفسیر و نمره گذاری یکسان است. در اجرای آزمون ها در ایران محیط اجرا تعریف نشده و هنگامی که در محیطی متفاوت تر از محیط اولیه آزمون اجرا می شود نتایج متفاوتی حاصل می شود. برای مثال مشاهده شده که در یک اتاقک بسیار گرم و بدون تهویه از آزمودنی، آزمون گرفته می شود و آزمودنی دائم اذعان گرم بودن می کند و نسبت به واکنشی که به آزمون های کامپیوتری باید بدهد زمان را از دست می دهد و همین موجب تشخیص نامناسب می شود.
ش: نمره برش چگونه تعیین می شود؟
- نمره های برش روش های مختلفی دارند. برای مثال ROC، استفاده از این روش ها منوط به برنامه ریز اولیه برای محاسبات نقطه برش و تفسیر نمرات در بالا و پایین این نمرات است. بی توجهی به این موضوع می تواند تمام زحمت شما را هدر بدهد.
ص: نمرات آزمون چگونه گزارش می شوند؟
- نمرات آزمون به صورت های مختلف می تواند گزارش بشود. برای ارائه به سازمان ها و نهادهای قضایی نحوه ی گزارش می بایست چگونه باشد؟ استفاده درون کلینیک و متخصص حوزه باید چگونه باشد؟ نتایج اگر در اختیار خود فرد آزمودنی قرار می گیرد آیا باید مطابق فرم گزارش متخصص باشد؟
ض: تاریخ های کلیدی از طراحی تا اجرا چگونه تعیین می شود و چگونه برنامه زمانی را می توان با دقت اجرا کرد؟
- تجربه نشان داده در علوم رفتاری اغلب در خصوص جنبه های اجرایی کار اطلاعات چندانی وجود ندارد و زوایای پنهان دیده نمی شود. کسانی که تجربه اجرایی و عملیاتی دارند بهترین راهنماها در این حوزه هستند. بعلاوه متخصصین حوزه ی کسب و کار نیز توانمندهای بالایی در این حوزه دارند که توصیه می شود از آنها کمک بگیرید.
د: چه کسی مسئول تکمیل مستندات فعالیت های مهم، داده ها، نتایج و ارزشیابی آزمون است؟
ذ: تفسیر نمرات چگونه صورت می پذیرد؟
- ممکن است یک آزمون تفاسیر مختلفی از یک نمره مشاهده شده را نشان بدهد. تفسیرهای مختلف از یک نمره یکسان باید مطابق با تعریف اولیه سازه و نمرات حاصل شده از آزمون در گزارش آزمون نوشته شود.
گام دوم
تعریف محتوا
- طرح نمونه گیری برای حوزه محتوایی خاص/کلی
- روش های متنوع مرتبط با هدف سنجش
- شواهد روایی وابسته به محتوا
- توصیف فرایند سازه آزمون
گام سوم
مشخصات آزمون، نقشه آزمون
- نوع فرمت آزمون (گزیده پاسخ یا عملکردی)
- تعداد کل پرسش های آزمون
- طبقه بندی شناختی مورد استفاده برای طراحی سوال (بلوم)
- تعیین این که آزمون باید شامل محرک بصری باشد یا نه؟
- قواعد نمره گذاری (یک امتیاز برای پاسخ صحیح و صفر برای پاسخ غلط)
- تفسیر نمرات (نرم مرجع یا هنجار مرجع)
- زمان مور نیاز برای آزمون
گام چهارم
تدوین سوال
- تدوین محرک اثربخش
- فرمت سوال
- شواهد روایی مرتبط با پایبندی به اصول مبتنی بر مستندات
- آموزش طراحان و بررسی کنندگان سوال
- ویرایش موثر سوال
- نواقص منسوب به واریانس غیر مرتبط با سازه
گام پنجم
طراحی آزمون و تجمیع سوال ها
- طراحی و ایجاد شکل آزمون
- انتخاب سوال ها برای هر شکل مشخص آزمون
- نمونه گیری عملیاتی به وسیله یک برنامه از قبل طراحی شده
- بیان ملاحظات یا شرایط خاص
- نحوه قرار گرفتن و جایگاه پاسخ سوال در آزمون
- نحوه قرار گرفتن سوال در آزمون
- امنیت سوال ها
گام ششم
تولید آزمون
- فعالیت های مربوط به چاپ یا بسته بندی کامپیوتری
- مسائل امنیتی
- مسائل مربوط به روایی و کنترل کیفیت آزمون
گام هفتم
اجرای آزمون
- مسائل روایی در رابطه با استاندارد کردن
- مسائل مربوط به افراد ناتوان
- نظارت بر اجرا
- امنیت آزمون
- مسائل مربوط به زمان
گام هشتم
نمره گذاری پاسخ های آزمون
- مسائل مربوط به روایی نمره گذاری
- کنترل کیفیت نمره گذاری
- نمره گذاری اولیه و روایی کلید
- نمره گذاری نهایی
گام نهم
نمره قبولی
- اتخاذ رویه قابل دفاع در ارائه نمره قبولی: نسبی در مقابل مطلق
- مسائل روایی در رابطه با نمره برش
- مقایسه استانداردها
گام دهم
گزارش نتایج آزمون
- مسائل مربوط به روایی: دقت، کنترل کیفیت
- زمان بندی ارائه نتایج
- سوء استفاده های احتمالی
- چالش ها
- بازپس گیری نتایج
گام یازدهم
- بانک سوال
- مسائل مربوط به امنیت سوال
- سودمندی سوال ها
- انعطاف پذیری سوال ها
- اصول طراحی بانک سوال
- اثربخشی بانک سوال
گام دوازدهم
گزارش فنی ازمون
- تدوین شواهد و مستندات اعتبار (در برگرفتن جزئیات)
- همه جانبه بودن و سیستماتیک
- پیشنهادات
مطالب زیر را حتما مطالعه کنید
چگونه داده های پژوهش خود را وارد نرم افزار SPSS یا Excel کنیم؟
ورود داده های پرسشنامه ها با توجه به سوالات پژوهش است و باید نکاتی را در هنگام ورود داده به SPSS یا Excel (اکسل) در نظر بگیریم. این مقاله تلاش شده است تا شیوه های مختلف داده با توجه به طرح های تحلیل واریانس، کوواریانس و همبستگی که شامل تحلیل های عاملی و مدل های ساختاری و تحلیل مسیر می شود را شرح بدهیم.
مقدار مناسب اندازه های اثر کوهن
اندازه اثر شدت رابطه بین متغیر مستقل با وابسته یا ملاک را نشان می دهد. این شاخص شامل d کوهن، ضریب امگا، F کوهن و شاخص های دیگری می شود که هر کدام برای یک آزمون خاص استفاده می شوند. در این مقاله سعی کرده ایم این شاخص ها را به صورت اجمالی شرح بدهیم.
80 درصد دانشجویان قبل از نگارش پایان نامه به این موارد توجه نمی کنند!
نوشتن پرپوزال بدون دقت، انتخاب استاد راهنمای غیر متخصص، عدم همکاری استاد با دانشجو، نمونه گیری غلط، مشکلات جمع آوری پرسشنامه آنلاین و ده ها مشکل دیگه از جمله مواردی هستند که قبل از انجام هر پژوهشی می بایست همه به اون توجه کنند تا پس از یک دوره طولانی اضطراب و استرس و فرسودگی به این نتیجه نرسند که کاش به این موارد توجه کرده بودم.
چطور خطی بودن یک همبستگی را بررسی کنیم؟
برخی اوقات یک مدل تحلیل مسیر، ساختاری یا رگرسیون را محاسبه می کنیم اما نتیجه حاصله یا عدم ارتباط را نشان می دهد یا ارتباط کاذب را. یعنی همبستگی یا وجود ندارد یا همبستگی بالایی دارد، یکی از دلایل و مشکلات عدم برازش مدل ها و پیش بینی نکردن رگرسیون می تواند عدم خطی بودن باشد. در این مقاله سعی کرده ام با یک ملاک عینی این نتیجه را به شما نشان بدهم.
انواع ضریب همبستگی در SPSS
محاسبه همبستگی نیاز به در نظر گرفتن نکاتی دارد. از جمله می توان به مقیاس اندازه گیری متغیرها، خطی بودن، حجم نمونه، متقارن بودن و … اشاره کرد. عدم توجه به این موارد می تواند موجب عدم همبستگی یا همبستگی بیش از حد را موجب بشود و نتایج متناقض با مطالعات و پژوهش های گذشته را به شما بدهد.
ورود داده به SPSS
برای ورود داده به SPSS می بایست که به نوع متغیر، مقیاس اندازه گیری، طرح پژوهش، شیوه تجزیه و تحلیل، نحوه کد گذاری یا ارزش کذاری متغیرها، داشتن گروه آزمایش و کنترل، معکوس کردن داده ها و تبدیل داده و تغییر ساختار داده ها توجه کرد. در این مقاله سعی کرده ام که نکات مهم را به شما منتقل کنم.
دیدگاهتان را بنویسید