ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Публикационная активность

(сведения по итогам 2016 г.)
2-летний импакт-фактор РИНЦ: 0,493
2-летний импакт-фактор РИНЦ без самоцитирования: 0,389
Двухлетний импакт-фактор РИНЦ с учетом цитирования из всех
источников: 0,732
5-летний импакт-фактор РИНЦ: 0,364
5-летний импакт-фактор РИНЦ без самоцитирования: 0,303
Суммарное число цитирований журнала в РИНЦ: 5022
Пятилетний индекс Херфиндаля по цитирующим журналам: 355
Индекс Херфиндаля по организациям авторов: 499
Десятилетний индекс Хирша: 11
Место в общем рейтинге SCIENCE INDEX за 2016 год: 304
Место в рейтинге SCIENCE INDEX за 2016 год по тематике "Автоматика. Вычислительная техника": 11

Больше данных по публикационной активности нашего журнале за 2008-2016 гг. на сайте РИНЦ

Вход


Забыли пароль? / Регистрация

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
16 Декабря 2017

Достоверность оценивания знаний при компьютерном тестировании

Статья опубликована в выпуске журнала № 2 за 2006 год.[ 25.06.2006 ]
Аннотация:
Abstract:
Авторы: Лазаренко Г.П. () - , ,
Ключевое слово:
Ключевое слово:
Количество просмотров: 5007
Версия для печати
Выпуск в формате PDF (1.41Мб)

Размер шрифта:       Шрифт:

Одним из актуальных направлений развития информационных технологий в системе высшего образования является разработка и применение компьютерных педагогических тестов (ПТ). ПТ представляют собой [1] группу взаимосвязанных заданий, которые наиболее часто имеют одну из следующих форм: задание на выбор ответа; задание на дополнение утверждения; задание на установление соответствия; задание на установление последовательности. Выполнение тестового задания оценивается по двоичной системе («правильно», «неправильно»), а результат выполнения всего ПТ оценивается по количеству «правильно» выполненных заданий. Следует отметить, что в общем случае оценка за тест зависит не только от уровня знаний тестируемого, но также и от качества используемого ПТ, которое определяется двумя показателями – корректностью формулирования тестовых заданий и адекватностью механизма оценивания результата ПТ.

Корректность формулирования заданий ПТ достигается тщательной логико-лингвистической проработкой материалов, включаемых в тестовые задания.

Что же касается адекватности механизма оценивания результатов ПТ, то этот показатель является вероятностной характеристикой и определяется законами математической статистики. Действительно, ПТ формируется из ограниченного подмножества (n) тестовых заданий, которые случайным образом извлекаются из общего множества (N) заданий, охватывающих в совокупности содержание всего проверяемого учебного курса. Иначе говоря, каждое тестовое задание является случайной величиной генеральной совокупности (N), а группа заданий (n), включенных в один ПТ, является случайной выборкой из этой генеральной совокупности. Тестирование, соответствующее такой модели, эквивалентно статистическому контролю качества, проводимому на основе одноступенчатого выборочного плана [2,3], и характеризуется следующими основными параметрами: N – общее число тестовых заданий, охватывающих в совокупности содержание всего проверяемого учебного курса; D – число тестовых заданий множества N, на которые тестируемый не знает правильного ответа; q = D/N – индекс неподготовленности тестируемого; n – число тестовых заданий, включенных в ПТ; d – число заданий в составе n заданий ПТ, на которые тестируемый дает неправильный ответ; с – браковочное число, являющееся критерием оценивания результата тестирования: при d<=c результат тестирования считается положительным, а при d>c отрицательным; P(q) – оперативная характеристика теста, которая равна вероятности положительного оценивания ПТ при заданном значении индекса неподготовленности q тестируемого и является показателем адекватности оценивания знаний тестируемого.

Оперативная характеристика P(q) может выступать в роли показателя адекватности ПТ, так как она представляет собой вероятность положительного результата теста при заданном значении индекса неподготовленности q тестируемого. Для вычисления значения оперативной характеристики обычно используется формула:

,

где Pn(d) – вероятность того, что в случайной выборке тестовых заданий объемом n появятся d заданий, на которые тестируемый не может дать правильный ответ.

В общем случае Pn(d) имеет гипергеометрическое распределение:

,

где CDd – число сочетаний из D по d; CN-Dn-d – число сочетаний из (N-D) по (n-d); CNn – число сочетаний из N по n.

Численный анализ гипергеометрического распределения оперативной характеристики P(q), проведенный для значений n=<0,1N и N=<100, показывает, что основными факторами, влияющими на оперативную характеристику, являются три параметра плана теста: количество заданий n; браковочное число с; индекс неподготовленности q. Зависимость P(q) от N проявляется очень слабо и обнаруживается только в третьем знаке числовых значений P(q). Поэтому можно с точностью до 1% прогнозировать значения P(q) по трем переменным n, c, q. В частности, семейство расчетных оперативных характеристик, позволяющее теоретически оценивать достоверность результатов тестирования при выполнении ПТ с n=3, представлено в таблице 1.

Таблица 1

с

q

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

P(q)

0

1,00

0,72

0,50

0,33

0,21

0,12

0,07

0,02

0,01

0,00

1

1,00

0,98

0,90

0,79

0,65

0,50

0,35

0,21

0,10

0,02

2

1,00

1,00

0,99

0,98

0,94

0,89

0,80

0,67

0,50

0,28

Итак, достоверность ПТ характеризуется вероятностью возникновения ошибок первого рода («риск тестируемого»), которая равна величине 1-P(q), и вероятностью возникновения ошибок второго рода («риск тестирующего»), которая равна величине P(q).

Например, тест с числом заданий n=3 при 60%-й подготовленности тестируемого, то есть при q=0,4, для браковочных чисел с=0, 1, 2 характеризуется рисками тестирующего P(q), равными 21%, 65% и 94%, и рисками тестируемого 1–P(q), равными 79%, 35% и 6% соответственно. Иными словами, если браковочным числам с=0, 1, 2 поставить в соответствие оценки «отлично», «хорошо» и «удовлетворительно», то получение тестируемым оценки «удовлетворительно» можно считать практически гарантированным, так как для q=0,4 и с=2 риск тестируемого минимален (6%). Тот же «удовлетворительно» подготовленный тестируемый имеет реальные шансы и на получение более высокой оценки: 35%-я вероятность получения оценки «хорошо» и даже 21%-я вероятность получения оценки «отлично». Итак, если полагать, что 60%-я подготовленность тестируемого объективно соответствует оценке «удовлетворительно», то рассмотренный нами тест можно считать недостаточно достоверным, так как он характеризуется большой вероятностью завышения оценки знаний. По-видимому, такой тест может применяться только в неответственных случаях контроля знаний.

Если в качестве другого примера рассмотреть оперативную характеристику теста ГИБДД (N=400, n=20, c=2), используемого для квалификационной проверки знания правил дорожного движения, то можно видеть (табл. 2), что при выполнении этого теста на успех можно рассчитывать только при тщательной проработке контролируемого материала.

Таблица 2

с

q

 

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

 

P(q)

 

2

0,678

0,199

0,032

0,003

0,000

0,000

0,000

0,000

0,000

                     

Действительно, в этом случае при q>=0,3 (70%-я подготовленность тестируемого) риск тестируемого равен 97%. То есть вероятность «случайного» получения зачета ничтожно мала. И даже при q=0,1 (90%-я подготовленность тестируемого) риск тестируемого все еще остается значительным и равен 32%. Из этого видно, что в данном тесте достоверность оценивания знаний весьма высока. Это вполне соответствует ответственности теста и важности правильной аттестации экзаменуемых специалистов.

Таким образом, использование математического аппарата статистического контроля качества применительно к педагогическому тестированию знаний позволяет формализовано оценивать степень достоверности тестов, что весьма важно при проектировании контрольных тестов и тестовых программ. Задача проектирования теста с требуемым уровнем достоверности результатов тестирования может решаться в следующей последовательности:

-    разработать N контрольных заданий, охватывающих в совокупности содержание всего проверяемого учебного курса;

-    определить количественный состав теста – число контрольных заданий n, включаемых в один ПТ;

-    назначить количество браковочных чисел с, поставив каждому браковочному числу в соответствие определенную оценку за выполнение теста;

-    установить номинальные значения индексов неподготовленности q для назначенных браковочных чисел;

-    установить верхние границы вероятности ошибки второго рода P(q) («риск тестирующего») для установленных значений индексов неподготовленности q;

-    определить значения с по установленным q и P, используя для этого семейство оперативных характеристик P(q), соответствующих назначенному n.

Список литературы

1. Матушанский Г.У. Проектирование педагогических тестов для контроля знаний // Информатика и образование. – 2000. - № 6. - С. 7 – 10.

2. Бочаров П.П., Печенкин А.В. Теория вероятностей. Математическая статистика – М.: Гардарика, 1998. - 328 с.

3. Андрианов Ю.И. и др. Квалиметрия в приборостроении и машиностроении – Л.: Машиностроение, 1990. - 223 с.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=506
Версия для печати
Выпуск в формате PDF (1.41Мб)
Статья опубликована в выпуске журнала № 2 за 2006 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: