Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Достоверность оценивания знаний при компьютерном тестировании
Аннотация:
Abstract:
Автор: Лазаренко Г.П. () - | |
Ключевое слово: |
|
Ключевое слово: |
|
Количество просмотров: 9832 |
Версия для печати Выпуск в формате PDF (1.41Мб) |
Одним из актуальных направлений развития информационных технологий в системе высшего образования является разработка и применение компьютерных педагогических тестов (ПТ). ПТ представляют собой [1] группу взаимосвязанных заданий, которые наиболее часто имеют одну из следующих форм: задание на выбор ответа; задание на дополнение утверждения; задание на установление соответствия; задание на установление последовательности. Выполнение тестового задания оценивается по двоичной системе («правильно», «неправильно»), а результат выполнения всего ПТ оценивается по количеству «правильно» выполненных заданий. Следует отметить, что в общем случае оценка за тест зависит не только от уровня знаний тестируемого, но также и от качества используемого ПТ, которое определяется двумя показателями – корректностью формулирования тестовых заданий и адекватностью механизма оценивания результата ПТ. Корректность формулирования заданий ПТ достигается тщательной логико-лингвистической проработкой материалов, включаемых в тестовые задания. Что же касается адекватности механизма оценивания результатов ПТ, то этот показатель является вероятностной характеристикой и определяется законами математической статистики. Действительно, ПТ формируется из ограниченного подмножества (n) тестовых заданий, которые случайным образом извлекаются из общего множества (N) заданий, охватывающих в совокупности содержание всего проверяемого учебного курса. Иначе говоря, каждое тестовое задание является случайной величиной генеральной совокупности (N), а группа заданий (n), включенных в один ПТ, является случайной выборкой из этой генеральной совокупности. Тестирование, соответствующее такой модели, эквивалентно статистическому контролю качества, проводимому на основе одноступенчатого выборочного плана [2,3], и характеризуется следующими основными параметрами: N – общее число тестовых заданий, охватывающих в совокупности содержание всего проверяемого учебного курса; D – число тестовых заданий множества N, на которые тестируемый не знает правильного ответа; q = D/N – индекс неподготовленности тестируемого; n – число тестовых заданий, включенных в ПТ; d – число заданий в составе n заданий ПТ, на которые тестируемый дает неправильный ответ; с – браковочное число, являющееся критерием оценивания результата тестирования: при d<=c результат тестирования считается положительным, а при d>c отрицательным; P(q) – оперативная характеристика теста, которая равна вероятности положительного оценивания ПТ при заданном значении индекса неподготовленности q тестируемого и является показателем адекватности оценивания знаний тестируемого. Оперативная характеристика P(q) может выступать в роли показателя адекватности ПТ, так как она представляет собой вероятность положительного результата теста при заданном значении индекса неподготовленности q тестируемого. Для вычисления значения оперативной характеристики обычно используется формула: , где Pn(d) – вероятность того, что в случайной выборке тестовых заданий объемом n появятся d заданий, на которые тестируемый не может дать правильный ответ. В общем случае Pn(d) имеет гипергеометрическое распределение: , где CDd – число сочетаний из D по d; CN-Dn-d – число сочетаний из (N-D) по (n-d); CNn – число сочетаний из N по n. Численный анализ гипергеометрического распределения оперативной характеристики P(q), проведенный для значений n=<0,1N и N=<100, показывает, что основными факторами, влияющими на оперативную характеристику, являются три параметра плана теста: количество заданий n; браковочное число с; индекс неподготовленности q. Зависимость P(q) от N проявляется очень слабо и обнаруживается только в третьем знаке числовых значений P(q). Поэтому можно с точностью до 1% прогнозировать значения P(q) по трем переменным n, c, q. В частности, семейство расчетных оперативных характеристик, позволяющее теоретически оценивать достоверность результатов тестирования при выполнении ПТ с n=3, представлено в таблице 1. Таблица 1
Итак, достоверность ПТ характеризуется вероятностью возникновения ошибок первого рода («риск тестируемого»), которая равна величине 1-P(q), и вероятностью возникновения ошибок второго рода («риск тестирующего»), которая равна величине P(q). Например, тест с числом заданий n=3 при 60%-й подготовленности тестируемого, то есть при q=0,4, для браковочных чисел с=0, 1, 2 характеризуется рисками тестирующего P(q), равными 21%, 65% и 94%, и рисками тестируемого 1–P(q), равными 79%, 35% и 6% соответственно. Иными словами, если браковочным числам с=0, 1, 2 поставить в соответствие оценки «отлично», «хорошо» и «удовлетворительно», то получение тестируемым оценки «удовлетворительно» можно считать практически гарантированным, так как для q=0,4 и с=2 риск тестируемого минимален (6%). Тот же «удовлетворительно» подготовленный тестируемый имеет реальные шансы и на получение более высокой оценки: 35%-я вероятность получения оценки «хорошо» и даже 21%-я вероятность получения оценки «отлично». Итак, если полагать, что 60%-я подготовленность тестируемого объективно соответствует оценке «удовлетворительно», то рассмотренный нами тест можно считать недостаточно достоверным, так как он характеризуется большой вероятностью завышения оценки знаний. По-видимому, такой тест может применяться только в неответственных случаях контроля знаний. Если в качестве другого примера рассмотреть оперативную характеристику теста ГИБДД (N=400, n=20, c=2), используемого для квалификационной проверки знания правил дорожного движения, то можно видеть (табл. 2), что при выполнении этого теста на успех можно рассчитывать только при тщательной проработке контролируемого материала. Таблица 2
Действительно, в этом случае при q>=0,3 (70%-я подготовленность тестируемого) риск тестируемого равен 97%. То есть вероятность «случайного» получения зачета ничтожно мала. И даже при q=0,1 (90%-я подготовленность тестируемого) риск тестируемого все еще остается значительным и равен 32%. Из этого видно, что в данном тесте достоверность оценивания знаний весьма высока. Это вполне соответствует ответственности теста и важности правильной аттестации экзаменуемых специалистов. Таким образом, использование математического аппарата статистического контроля качества применительно к педагогическому тестированию знаний позволяет формализовано оценивать степень достоверности тестов, что весьма важно при проектировании контрольных тестов и тестовых программ. Задача проектирования теста с требуемым уровнем достоверности результатов тестирования может решаться в следующей последовательности: - разработать N контрольных заданий, охватывающих в совокупности содержание всего проверяемого учебного курса; - определить количественный состав теста – число контрольных заданий n, включаемых в один ПТ; - назначить количество браковочных чисел с, поставив каждому браковочному числу в соответствие определенную оценку за выполнение теста; - установить номинальные значения индексов неподготовленности q для назначенных браковочных чисел; - установить верхние границы вероятности ошибки второго рода P(q) («риск тестирующего») для установленных значений индексов неподготовленности q; - определить значения с по установленным q и P, используя для этого семейство оперативных характеристик P(q), соответствующих назначенному n. Список литературы 1. Матушанский Г.У. Проектирование педагогических тестов для контроля знаний // Информатика и образование. – 2000. - № 6. - С. 7 – 10. 2. Бочаров П.П., Печенкин А.В. Теория вероятностей. Математическая статистика – М.: Гардарика, 1998. - 328 с. 3. Андрианов Ю.И. и др. Квалиметрия в приборостроении и машиностроении – Л.: Машиностроение, 1990. - 223 с. |
Постоянный адрес статьи: http://swsys.ru/index.php?id=506&page=article |
Версия для печати Выпуск в формате PDF (1.41Мб) |
Статья опубликована в выпуске журнала № 2 за 2006 год. |
Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Формулировка задачи планирования линейных и циклических участков кода
- Унифицированный информационный интерфейс и его реализация в комплексной САПР
- Кросс-система автоматизации разработки программного обеспечения на базе языка высокого уровня Рада
- Потоковый анализ программ, управляемый знаниями
- Метод оценки безопасности информации в автоматизированных системах
Назад, к списку статей