Экспериментальное подтверждение состоятельности оценок трудности заданий теста

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Экспериментальное подтверждение состоятельности оценок трудности заданий теста

Experimental acknowledgement of consistency of estimations of difficulty of tasks of a test

Статья опубликована в выпуске журнала № 2 за 2012 год. [ на стр. 153 ]
Аннотация:Состоятельность оценок максимального правдоподобия латентного параметра «трудность задания» однопара-метрической дихотомической модели Раша при фиксированном числе одинаковых по трудности заданий теста L и неограниченно возрастающем объеме выборки студентов N подтверждена результатами вычислительного экспери-мента. Показано, что при этих же условиях оценки уровня подготовки i-го студента, рассчитанные по допустимой дихотомической матрице ответов, стремятся по вероятности к их первоначальным оценкам .
Abstract:The results of numerical experiments confirmed the consistency of maximum likelihood estimates of the latent parameter «difficulty of the task» Rush's dichotomous one-parameter model at the fixed number of tasks of test L of identical test difficulty and indefinitely increasing the sample size of students N. It is shown, that under the same conditions of estimation of level of preparation of n-th student, calculated from the permissible dichotomous response matrix, tend in probability to their original estimates .

Авторы: Елисеев И.Н. (ein@sssu.ru) - Южно-Российский государственный университет экономики и сервиса, г. Шахты, кандидат технических наук
Ключевые слова: модель раша, латентный параметр, задание теста, состоятельность оценок, тест, дихотомическая матрица
Keywords: Rush's model, the latent parameter, the test task, consistency of assessments, test, dichotomous matrix
Количество просмотров: 9660	Версия для печати Выпуск в формате PDF (5.19Мб) Скачать обложку в формате PDF (1.31Мб)

Для независимой оценки состояния учебной работы образовательного учреждения в качестве входных данных используются результаты тестирования учебных достижений обучаемых с помощью педагогических тестов. При прочих равных условиях надежность этих результатов будет определяться качеством тестов и входящих в них за- даний. Одним из важных показателей качества последних является точность определения латентного параметра «трудность задания» теста bj (точность калибровки задания). Чем точнее определены значения bj, тем с меньшей погрешностью будут найдены значения qi латентного параметра «уровень подготовки» студента.

Оценки и латентных параметров bj и qi рассчитываются по результатам тестирования, которые представляются в виде дихотомической матрицы ответов X=(xij) [1]. Расчет оценок осуществляется численными методами на основе итерационых выражений [1, 2], полученных с использованием метода максимального правдоподобия:

(1)

где – строчные, – столбцовые суммы элементов матрицы X. Вероятности pij правильного выполнения i-м студентом с уровнем подготовленности qi j-го задания трудностью bj определяются дихотомической моделью Раша:

. (2)

Важным требованием к оценкам максимального правдоподобия и латентных параметров однопараметрической дихотомической модели Раша является наличие у них свойства состоятельности. Традиционное определение состоятельности к оценкам этих параметров неприменимо, поэтому в работе [3] предложено следующее условие состоятельности для оценок латентных параметров модели Раша.

Пусть , – числовые последовательности. При всех N, L³2 рассмотрим оценки параметров qi, i=1, 2, …, N, и оценки параметров bj, j=1, 2, …, L, рассчитанные по формулам (1), для дихотомической матрицы ответов X размера N´L, полученной в результате ответа N тестируемых с уровнем знаний q1, q2, …, qN на L заданий теста трудности b1, b2, …, bL. Назовем эти оценки состоятельными, если для любых двух ограниченных последовательностей , найдется неслучайная двойная последовательность , такая, что при всех i, j³1 величины , сходятся по вероятности, соответственно, к qi и bj при N®¥, L®¥. Необходимость введения в условие состоятельности последовательности связана с тем, что при всех N, L³1 матрица вероятностей , вычисляемых по формуле (2), а значит, и строчные , и столбцовые суммы (1£i£N, 1£j£L) для этой матрицы инвариантны относительно изменения параметров qi, bj (1£i£N, 1£j£L) на одну и ту же величину a. Использование последовательности дает возможность корректировать значения оценок и . В противном случае получается заведомо невыполнимое условие состоятельности. Чтобы убедиться в этом, предположим, что оценки , , n=1, 2, …, удовлетворяют введенному в [3] понятию состоятельности. Тогда для любых неслучайных ограниченных последовательностей , , например, для нулевых последовательностей , , оценки , сходятся по вероятности к qn и bn соответственно, то есть к нулю при N®¥, L®¥. Однако в таком случае матрица вероятностей для оценок , , рассчитанных для ограниченных последовательностей , , окажется такой же, что и для нулевых последовательностей, и оценки будут сходиться по вероятности к нулю, что исключает их сходимость к единице. Это говорит о неверности предположения о состоятельности оценок , и делает бессмысленным рассмотрение введенного определения состоятельности без использования последовательности .

На практике объем выборки N участников тестирования можно сделать достаточно большим, но число заданий L теста ограничивается разумным значением, при котором зависимость результатов выполнения теста от утомляемости тестируемых можно считать несущественной (как правило, L=50 [2]). В связи с этим важно знать, обладают ли оценки максимального правдоподобия латентных параметров однопараметрической дихотомической модели Раша, рассчитанные по матрице ответов с достаточно большим числом строк N и ограниченным числом столбцов L, свойством состоятельности.

В [2] теоретически исследована состоятельность оценок и () при неограниченном возрастании объема выборки участников тестирования N и конечном числе одинаковых по трудности (bj=0) заданий теста L. Было показано, что при каждом фиксированном i≥1 оценки уровня знаний i-го студента, рассчитанные по допустимой дихотомической матрице ответов, стремятся по вероятности к их первоначальным оценкам при N→∞. При этих же условиях оценки максимального подобия параметров bj=0, , сходятся по вероятности к нулю, что означает наличие у них свойства состоятельности. Следует отметить, что в качестве значения bj трудности каждого из заданий можно было бы выбрать другое, отличное от нуля значение b0, поскольку функция (2) и ограниченность последовательности инвариантны относительно изменения всех параметров на одну и ту же величину b0.

Полученные в [2] теоретические результаты нуждаются в экспериментальной проверке.

Целью этой работы является экспериментальное исследование состоятельности оценок максимального правдоподобия латентных параметров однопараметрической дихотомической модели Раша при фиксированном числе одинаковых по трудности заданий теста L и неограниченно возрастающем объеме выборки студентов N.

Провести экспериментальные исследования с использованием реального теста не представляется возможным, поскольку на практике нельзя получить L тестовых заданий абсолютно одинаковой трудности. В связи с этим проверка проводилась на основе вычислительного эксперимента в два этапа. На первом этапе с помощью имитационного моделирования создавалось несколько выборок значений q1, q2, …, qN в предположении, что они распределены по нормальному закону. Значения математического ожидания mq и стандартного отклонения sq выбирались равными mq=0, sq=1,414 логит. В дальнейшем модель матрицы формировалась двумя способами. В соответствии с первым из них для каждой из полученных выборок qi и выборки заданий с нулевой трудностью bj=0 формировалась матрица вероятностей pij, значения которых вычислялись по формуле (2) модели Раша. С помощью имитационного моделирования на основе закона равной вероятности элементы матрицы вероятностей заменялись на 0 и 1. В результате этого получали дихотомическую матрицу с числом строк N и числом столбцов L=49. Объем выборки виртуальных тестируемых N´L после удаления экстремальных строк и столбцов оказался равным 202´49 и 1233´49. Каждая из сформированных таким образом матриц обрабатывалась программным комплексом RILP-1M [4], в результате находились значения оценок , и начальные значения уровня подготовки . Рассчитывалось относительное отклонение gi оценок от значений . Анализировались полученные значения оценок латентных параметров bj и сравнивались с bj=0 . Вычислялось среднее выборочное оценок , и анализировались их характеристические кривые.

Подпись:

Рис. 2. Характеристические кривые виртуальных
заданий виртуального теста, рассчитанные
по модели матрицы 1002х49 вторым способом Подпись:

Рис. 1. Характеристические кривые виртуальных
заданий виртуального теста, рассчитанные
по модели матрицы 1233´49 первым способом Анализ полученных данных показал, что при увеличении объема выборки N величина gi снижается. Для матрицы размером 202´49 среднее значение gicp оказалось равным 0,5 %, а диапазон изменения значений gi составил от 0,36 до 0,81 %. Для матрицы размером 1233´49 значения gi изменялись в интервале от 0,13 до 0,28 %, а gicp снизилось до 0,15 %. Разброс значений составил от –0,21 логит до 0,157 логит (для матрицы 1233´49), выборочное среднее оценок оказалось равным нулю. Равенство =0 подтверждается и симметричным относительно точки с координатами (0,5; 0) расположением характеристических кривых виртуальных заданий (рис. 1). Все это подтверждает полученные в работе [2] теоретические результаты.

Формирование модели матрицы вторым способом проводилось на основе моделирования в соответствии с алгоритмом, описанным в [5]. Были сформированы 3 матрицы: 501´49, 1002´49 и 3007´49. Их обработка показала, что во всех трех случаях оценки полностью совпадают с оценками . Значения оценок почти для всех виртуальных заданий оказались равными нулю, то есть значениям bj. Для отдельных виртуальных заданий наблюдалось отклонение от нулевых значений. Оно составило 0,005 логит для матрицы 501´49 и 0,002 логит для матрицы 3007´49. Характеристические кривые всех виртуальных заданий полностью совпали (рис. 2), выродившись в одну кривую, причем проходящую через точку с координатами (0,5; 0), что свидетельствует о равенстве всех нулю.

На втором этапе вычислительного эксперимента осуществлялась проверка справедливости теоретически полученных результатов для значения bj, отличного от нуля. Для этого с помощью описанного в [5] алгоритма формировалась генеральная дихотомическая матрица ответов размером 1012´49. Термин «генеральная матрица» понимается в том же смысле, что и в работе [5]. По сформированной генеральной матрице ответов с помощью программного комплекса RILP-1M рассчитывались генеральные значения qi и bj латентных параметров (), находились параметры закона распределения mq=0 логит и sq=1,42443 логит значений qi () в предположении его нормальности. Из полученных значений bj выбиралось одно: b48=0,491 логит, индивидуальный балл которого Y48=416. На его основе формировалась модель матрицы ответов с числом строк N=1012 и числом столбцов L=49. Все столбцовые суммы yj задавались одинаковыми, равными 416. В качестве строчных сумм выбирались строчные суммы xi генеральной матрицы, которые корректировались так, чтобы итоговые суммы и были равны. Сформированная таким образом модель дихотомической матрицы ответов обрабатывалась программным комплексом RILP-1M, и анализировались полученные значения оценок трудности всех заданий ().

Анализ показал, что для всех виртуальных заданий полученные значения оказались равными 0,494 логит. Отклонение γ от генерального значения bj=0,491 логит составило 0,6 %. Оценки полностью совпали с оценками .

Таким образом, результаты вычислительного эксперимента подтверждают полученный теоретическим путем вывод о стремлении оценок максимального правдоподобия латентного параметра q к первоначальным значениям и о состоятельности оценок латентного параметра «трудность задания» теста при неограниченном возрастании объема выборки N.

Литература

1. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М., 2000. 168 с.

2. Елисеев И.Н., Шрайфель И.С. Модель оценивания латентных параметров дихотомической модели Раша // Изв. вузов: Технич. науки. 2011. № 6. С. 37–46.

3. Елисеев И.Н., Шрайфель И.С. Доказательство несостоятельности стандартных оценок латентных параметров дихотомической модели Раша // Изв. вузов: Электромеханика, 2012. № 1. С. 85–96.

4. Елисеев И.Н., Елисеев И.И., Фисунов А.В. Програм- мный комплекс RILP-1 // Программные продукты и системы. 2009. № 2. С. 178–181.

5. Елисеев И.Н. Модель дихотомической матрицы результатов тестирования // Программные продукты и системы. 2011. № 3. С. 80–86.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=3136	Версия для печати Выпуск в формате PDF (5.19Мб) Скачать обложку в формате PDF (1.31Мб)
Статья опубликована в выпуске журнала № 2 за 2012 год. [ на стр. 153 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей