Независимая оценка качества образования с помощью современных контрольно-оценочных средств базируется на использовании однопараметрической дихотомической модели Раша [1] , где qi – уровень подготовки i-го студента; βj – трудность j-го задания теста; pij – вероятность правильного выполнения i-м студентом j-го задания. Точность расчета латентных параметров qi () зависит от того, насколько точно известны значения латентных параметров βj (), где N – число студентов, участвующих в тестировании; L – число заданий используемого при этом теста. Чем точнее определены значения βj, тем качественнее (с меньшей погрешностью) будут рассчитаны значения qi латентного параметра «уровень подготовки» студента. Оценки и латентных параметров βj и qi рассчитываются по результатам тестирования, которые представляются в виде дихотомической матрицы ответов X=(xij) [1]. Расчет оценок осуществляется численными методами на основе итерационных выражений [1, 2], полученных с использованием метода максимального правдоподобия.
Важным требованием к оценкам максимального правдоподобия и латентных параметров однопараметрической дихотомической модели Раша является наличие у них свойства состоятельности [3].
Состоятельность оценок () при неограниченном возрастании объема выборки участников тестирования N и конечном числе одинаковых по трудности (βj=0) заданий теста L доказана теоретически [4]. Затем было установлено, что оценки максимального правдоподобия и латентных параметров однопараметрической дихотомической модели Раша являются состоятельными при N→∞ и L→∞.
Целью данной работы является экспериментальная проверка состоятельности оценок максимального правдоподобия , латентных параметров однопараметрической дихотомической модели Раша при неограниченно возрастающем объеме выборки студентов N и числе заданий теста L.
Проверка проводилась на основе вычислительного эксперимента. В первой его части исследовалась зависимость оценок максимального правдоподобия латентных параметров «трудность задания» теста и «уровень подготовки» студента от размера матрицы результатов тестирования (матрицы ответов). Предполагалось, что распределения оценок и являются нормальными. В качестве их параметров были приняты значения, полученные при обработке модели нормативной дихотомической матрицы ответов размером 60´49 (первая строка таблицы 1). С их использованием на основе методики моделирования дихотомических матриц ответов, изложенной в [5], и созданного на ее основе алгоритма формировались модели дихотомических матриц размером 501´500, 1002´1000, 1503´1500, 2004´2006 и 2505´2505. Затем они обрабатывались программным комплексом RILP-1M [6], анализировались и сравнивались между собой оценки латентных параметров ( N1=501, N2=1002, N3=1503, N4=2004, N5=2505) и (L1=500, L2=1000, L3=1500, L4=2006, L5=2505) при одинаковых значениях pi и pj, где pi - доля верных ответов i-го виртуального студента на все задания виртуального теста, соответствующего исходной модели матрицы; pi - доля верных ответов всех виртуальных студентов на j-е виртуальное задание этого же теста. Анализ полученных данных начинался со сравнения статистических параметров, характеризующих распределения оценок: выборочных средних , и оценок стандартных отклонений и , которые представлены в таблице 1 в строках со 2-й по 6-ю. Из сравнения видно, что значения параметров достаточно близки, поэтому можно считать представительство результатов тестирования виртуальных студентов с разным уровнем подготовки и результатов выполнения виртуальных заданий с разным уровнем трудности во всех моделях матриц примерно одинаковым, что является свидетельством их нормативности.
Таблица 1
Статистические параметры моделей матриц ответов
Размер матрицы
|
, логит
|
, логит
|
, логит
|
, логит
|
60´49
|
0,043
|
1,33234
|
0,000
|
1,42348
|
501´500
|
0,047
|
1,41256
|
0,000
|
1,45031
|
1002´1000
|
0,051
|
1,44373
|
0,000
|
1,46848
|
1503´1500
|
0,046
|
1,40319
|
-0,003
|
1,40221
|
2004´2006
|
0,042
|
1,40026
|
-0,002
|
1,415
|
2505´2505
|
0,042
|
1,40048
|
-0,002
|
1,40784
|
Различия между собой кривых , полученных при разных значениях Nk (), и кривых , рассчитанных при различных значениях Lm (), наиболее заметны на краях диапазонов изменения оценок и . На рисунке (а) представлены кривые для интервала изменения от 2 до 3 логит, а на рисунке (б) – для интервала от минус 3 до минус 4 логит. Из рисунка (а) видно, что значения соответствующие одному и тому же значению pi, тем больше, чем меньше размер матрицы. Наибольшие расхождения наблюдаются для значений рассчитанных по матрицам 501´500 (кривая 1) и 2004´2006 (кривая 4). Например, при pi=0,86 эти различия составляют 2 %. Из рисунка (а) видно также, что значения , и (кривые 3, 4, 5) практически одинаковы. Данный результат позволяет сделать вывод о том, что оценки латентных параметров достигают своих предельных значений при размере матрицы результатов тестирования 1500´1500 и при его дальнейшем увеличении не изменяются. Анализ различий оценок в диапазоне от минус 3 до минус 4 логит (рис. (б)) показывает, что по сравнению с рисунком (а) характер поведения оценок не меняется: для одинаковых pi большим по модулю значениям соответствуют матрицы меньших размеров. Иначе говоря, крутизна кривых возрастает с увеличением размера матрицы.
На рисунке (в) изображены кривые для моделей матриц разных объемов, позволяющие судить о зависимости оценок латентного параметра «трудность задания» от размера матрицы. Как и для оценок , при N, L≥1500 значения оценок достигают своих предельных значений и с дальнейшим увеличением N, L не изменяются.
Таким образом, делаем следующие выводы:
1) с ростом объема выборки студентов N и числа заданий теста L оценки латентных параметров стремятся к предельным значениям, что является свидетельством их состоятельности;
2) оценки латентных параметров достигают предельных значений при N=1500 и L=1500 и с дальнейшим ростом N, L не изменяются, что позволяет говорить об их несмещенности;
3) с увеличением размера матрицы крутизна кривых и увеличивается.
Во второй части вычислительного эксперимента полученные на моделях матриц ответов результаты проверялись на реальной матрице результатов тестирования ограниченного объема, в качестве которой использовалась матрица ответов М1 размером 51´50. Анализ гистограмм оценок латентных параметров () и (), рассчитанных с помощью программного комплекса RILP-1M, показал, что их распределения не противоречат гипотезе о нормальном законе распределения с параметрами mq=0,447 логит, σq=0,85293 логит, mβ=0,000 логит, σβ=0,80755 логит. С использованием этих статистических параметров были сформированы 4 модели нормативных дихотомических матриц ответов [5]: М2 – 503´503, М3 – 1003´1000, М4 – 1505´1507 и М5 – 2003´2006 в предположении нормального распределения значений оценок латентных параметров и , рассчитанных по этим моделям матриц. В процессе обработки сформированных моделей матриц наряду с оценками латентных параметров и находились их выборочные средние арифметические , и оценки стандартных отклонений , . Нормативность исследуемых моделей матриц подтверждается данными таблицы 2.
Таблица 2
Статистические параметры матриц ответов, моделирующих матрицу М1
Матрица
|
, логит
|
, логит
|
, логит
|
, логит
|
51´50
|
0,447
|
0,85293
|
0,000
|
0,80755
|
503´503
|
0,466
|
0,86995
|
-0,009
|
0,82472
|
1003´1000
|
0,463
|
0,86537
|
-0,009
|
0,80942
|
1505´1507
|
0,464
|
0,86266
|
-0,009
|
0,81924
|
2003´2006
|
0,466
|
0,85647
|
-0,009
|
0,81161
|
Значения латентных параметров (i=) и (j=) исходной матрицы М1 представлены во вторых столбцах таблиц 3, 4, значения оценок и – в столбцах 3–6.
По долям верных ответов pi первого столбца таблицы 3 находились соответствующие им значения () для каждого из четырех массивов, полученных по сформированным моделям матриц М2–М5. По значениям определялись значения , которые заносились в столбцы c 3-го по 6-й таблицы 3, а затем сравнивались с оценками и между собой. Анализ полученных данных подтверждает полученные в первой части вычислительного эксперимента выводы: оценки латентных параметров стремятся к предельным значениям, которые достигаются при N, L1500. Отличия их от исходных оценок для большинства заданий (исключая из рассмотрения оценки логит) составляют от 1 до 5 %, но могут достигать и 8 %. В столбцах 7 и 8 таблицы 3 показаны погрешности расчета оценок максимального правдоподобия латентных параметров модели Раша для исходной матрицы ответов М1 и для модели матрицы ответов М4 размером 1505´1507, а в столбце 9 – кратность отношения погрешностей. Видно, что погрешность расчета значений оценок по матрице М4 снижается более чем в 5 раз. Таким образом, моделирование реальной матрицы ответов позволяет уточнить значения оценок латентных параметров и не менее чем в 5 раз снизить погрешность их расчета.
Аналогичный анализ оценок латентных параметров (табл. 4), выполненный по описанной схеме, также подтверждает полученные в первой части вычислительного эксперимента выводы. За счет моделирования матрицы ответов значения оценок латентных параметров могут быть уточнены на 1–10 %, в отдельных случаях – на 16 %, а погрешность их расчета снижена в 5 и более раз.
На основе полученных результатов предложен следующий метод расчета оценок латентных параметров «трудность задания» (метод калибровки заданий) и «уровень подготовки» студента по матрицам результатов тестирования ограниченного объема:
1) обрабатывают дихотомическую матрицу результатов тестирования ограниченного объема NH´LH программными средствами, базирующимися на использовании теории латентных переменных и однопараметрической дихотомической модели Раша;
2) выявляют тип и параметры распределений оценок латентных переменных и ;
3) формируют модель матрицы ответов размером 1500´1500 по найденным значениям параметров распределения оценок и ;
4) обрабатывают модель найденной матрицы; сверяют параметры распределений полученных статистик и с параметрами распределений оценок и исходной матрицы ответов; если параметры сильно различаются, повторяют пункты 3 и 4 до тех пор, пока эти различия не станут приемлемыми;
5) по значениям долей pi верных ответов студентов на все задания и долей pj верных ответов всех студентов на задания теста, которые соответствуют найденным оценкам и , находят наиболее близкие к ним значения pi0 и pj0, рассчитанные по сформированной модели дихотомической матрицы 1500´1500;
6) выбирают из массивов значений и оценки и по значениям pi0 и pj0 ();
7) принимают найденные оценки , и погрешности их расчета в качестве значений латентных параметров qi, βj и погрешностей их расчета.
Таким образом, результаты вычислительного эксперимента подтверждают полученный теоретическим путем вывод о состоятельности оценок максимального правдоподобия латентных параметров βj «трудность задания» теста и qi «уровень подготовки» студента при больших объемах выборки студентов N и большом количестве заданий теста L. Установлено, что оценки , достигают своих предельных значений , при N=L=1500.
Предложенный метод калибровки заданий теста по матрицам результатов тестирования ограниченного объема позволит существенно повысить ее точность и снизить погрешности оценки результатов образовательной деятельности.
Литература
1. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М., 2000. 168 с.
2. Елисеев И.Н. Теоретические основы алгоритма расчета латентных переменных программным комплексом RILP-1M // Программные продукты и системы. 2011. № 2 (94). С. 67–71.
3. Елисеев И.Н., Шрайфель И.С. Доказательство несостоятельности стандартных оценок латентных параметров дихотомической модели Раша // Изв. вузов: Электромеханика, 2012. № 1. С. 85–96.
4. Елисеев И.Н., Шрайфель И.С. Модель оценивания латентных параметров дихотомической модели Раша // Изв. вузов. Северо-Кавказский регион: Технические науки. 2011. № 6. С. 37–46.
5. Елисеев И.Н. Модель дихотомической матрицы результатов тестирования // Программные продукты и системы. 2011. № 3. С. 80–86.
6. Елисеев И.Н., Елисеев И.И., Фисунов А.В. Програм- мный комплекс RILP-1 // Программные продукты и системы. 2009. № 2. С. 178–181.