Достоверность оценивания знаний при компьютерном тестировании

№1

16 Марта 2024

2024

Достоверность оценивания знаний при компьютерном тестировании

Лазаренко Г.П. () -
Ключевое слово:
Ключевое слово:

Одним из актуальных направлений развития информационных технологий в системе высшего образования является разработка и применение компьютерных педагогических тестов (ПТ). ПТ представляют собой [1] группу взаимосвязанных заданий, которые наиболее часто имеют одну из следующих форм: задание на выбор ответа; задание на дополнение утверждения; задание на установление соответствия; задание на установление последовательности. Выполнение тестового задания оценивается по двоичной системе («правильно», «неправильно»), а результат выполнения всего ПТ оценивается по количеству «правильно» выполненных заданий. Следует отметить, что в общем случае оценка за тест зависит не только от уровня знаний тестируемого, но также и от качества используемого ПТ, которое определяется двумя показателями – корректностью формулирования тестовых заданий и адекватностью механизма оценивания результата ПТ.

Корректность формулирования заданий ПТ достигается тщательной логико-лингвистической проработкой материалов, включаемых в тестовые задания.

Что же касается адекватности механизма оценивания результатов ПТ, то этот показатель является вероятностной характеристикой и определяется законами математической статистики. Действительно, ПТ формируется из ограниченного подмножества (n) тестовых заданий, которые случайным образом извлекаются из общего множества (N) заданий, охватывающих в совокупности содержание всего проверяемого учебного курса. Иначе говоря, каждое тестовое задание является случайной величиной генеральной совокупности (N), а группа заданий (n), включенных в один ПТ, является случайной выборкой из этой генеральной совокупности. Тестирование, соответствующее такой модели, эквивалентно статистическому контролю качества, проводимому на основе одноступенчатого выборочного плана [2,3], и характеризуется следующими основными параметрами: N – общее число тестовых заданий, охватывающих в совокупности содержание всего проверяемого учебного курса; D – число тестовых заданий множества N, на которые тестируемый не знает правильного ответа; q = D/N – индекс неподготовленности тестируемого; n – число тестовых заданий, включенных в ПТ; d – число заданий в составе n заданий ПТ, на которые тестируемый дает неправильный ответ; с – браковочное число, являющееся критерием оценивания результата тестирования: при d<=c результат тестирования считается положительным, а при d>c отрицательным; P(q) – оперативная характеристика теста, которая равна вероятности положительного оценивания ПТ при заданном значении индекса неподготовленности q тестируемого и является показателем адекватности оценивания знаний тестируемого.

Оперативная характеристика P(q) может выступать в роли показателя адекватности ПТ, так как она представляет собой вероятность положительного результата теста при заданном значении индекса неподготовленности q тестируемого. Для вычисления значения оперативной характеристики обычно используется формула:

где Pn(d) – вероятность того, что в случайной выборке тестовых заданий объемом n появятся d заданий, на которые тестируемый не может дать правильный ответ.

В общем случае Pn(d) имеет гипергеометрическое распределение:

где CDd – число сочетаний из D по d; CN-Dn-d – число сочетаний из (N-D) по (n-d); CNn – число сочетаний из N по n.

Численный анализ гипергеометрического распределения оперативной характеристики P(q), проведенный для значений n=<0,1N и N=<100, показывает, что основными факторами, влияющими на оперативную характеристику, являются три параметра плана теста: количество заданий n; браковочное число с; индекс неподготовленности q. Зависимость P(q) от N проявляется очень слабо и обнаруживается только в третьем знаке числовых значений P(q). Поэтому можно с точностью до 1% прогнозировать значения P(q) по трем переменным n, c, q. В частности, семейство расчетных оперативных характеристик, позволяющее теоретически оценивать достоверность результатов тестирования при выполнении ПТ с n=3, представлено в таблице 1.

Таблица 1

с	q
	0,0	0,1	0,2	0,3	0,4	0,5	0,6	0,7	0,8	0,9
	P(q)
0	1,00	0,72	0,50	0,33	0,21	0,12	0,07	0,02	0,01	0,00
1	1,00	0,98	0,90	0,79	0,65	0,50	0,35	0,21	0,10	0,02
2	1,00	1,00	0,99	0,98	0,94	0,89	0,80	0,67	0,50	0,28

Итак, достоверность ПТ характеризуется вероятностью возникновения ошибок первого рода («риск тестируемого»), которая равна величине 1-P(q), и вероятностью возникновения ошибок второго рода («риск тестирующего»), которая равна величине P(q).

Например, тест с числом заданий n=3 при 60%-й подготовленности тестируемого, то есть при q=0,4, для браковочных чисел с=0, 1, 2 характеризуется рисками тестирующего P(q), равными 21%, 65% и 94%, и рисками тестируемого 1–P(q), равными 79%, 35% и 6% соответственно. Иными словами, если браковочным числам с=0, 1, 2 поставить в соответствие оценки «отлично», «хорошо» и «удовлетворительно», то получение тестируемым оценки «удовлетворительно» можно считать практически гарантированным, так как для q=0,4 и с=2 риск тестируемого минимален (6%). Тот же «удовлетворительно» подготовленный тестируемый имеет реальные шансы и на получение более высокой оценки: 35%-я вероятность получения оценки «хорошо» и даже 21%-я вероятность получения оценки «отлично». Итак, если полагать, что 60%-я подготовленность тестируемого объективно соответствует оценке «удовлетворительно», то рассмотренный нами тест можно считать недостаточно достоверным, так как он характеризуется большой вероятностью завышения оценки знаний. По-видимому, такой тест может применяться только в неответственных случаях контроля знаний.

Если в качестве другого примера рассмотреть оперативную характеристику теста ГИБДД (N=400, n=20, c=2), используемого для квалификационной проверки знания правил дорожного движения, то можно видеть (табл. 2), что при выполнении этого теста на успех можно рассчитывать только при тщательной проработке контролируемого материала.

Таблица 2

с	q
	0,1	0,2	0,3	0,4	0,5	0,6	0,7	0,8	0,9
	P(q)
2	0,678	0,199	0,032	0,003	0,000	0,000	0,000	0,000	0,000

Действительно, в этом случае при q>=0,3 (70%-я подготовленность тестируемого) риск тестируемого равен 97%. То есть вероятность «случайного» получения зачета ничтожно мала. И даже при q=0,1 (90%-я подготовленность тестируемого) риск тестируемого все еще остается значительным и равен 32%. Из этого видно, что в данном тесте достоверность оценивания знаний весьма высока. Это вполне соответствует ответственности теста и важности правильной аттестации экзаменуемых специалистов.

Таким образом, использование математического аппарата статистического контроля качества применительно к педагогическому тестированию знаний позволяет формализовано оценивать степень достоверности тестов, что весьма важно при проектировании контрольных тестов и тестовых программ. Задача проектирования теста с требуемым уровнем достоверности результатов тестирования может решаться в следующей последовательности:

- разработать N контрольных заданий, охватывающих в совокупности содержание всего проверяемого учебного курса;

- определить количественный состав теста – число контрольных заданий n, включаемых в один ПТ;

- назначить количество браковочных чисел с, поставив каждому браковочному числу в соответствие определенную оценку за выполнение теста;

- установить номинальные значения индексов неподготовленности q для назначенных браковочных чисел;

- установить верхние границы вероятности ошибки второго рода P(q) («риск тестирующего») для установленных значений индексов неподготовленности q;

- определить значения с по установленным q и P, используя для этого семейство оперативных характеристик P(q), соответствующих назначенному n.

Список литературы

1. Матушанский Г.У. Проектирование педагогических тестов для контроля знаний // Информатика и образование. – 2000. - № 6. - С. 7 – 10.

2. Бочаров П.П., Печенкин А.В. Теория вероятностей. Математическая статистика – М.: Гардарика, 1998. - 328 с.

3. Андрианов Ю.И. и др. Квалиметрия в приборостроении и машиностроении – Л.: Машиностроение, 1990. - 223 с.

http://swsys.ru/index.php?id=506&lang=.&page=article

Perhaps, you might be interested in the following articles of similar topics: