Выравнивание различных тестов на единую метрическую шкалу

№1

16 Марта 2024

2024

Выравнивание различных тестов на единую метрическую шкалу

Хлебников В.А. () -
Ключевое слово:
Ключевое слово:

Отображение результатов тестирования по разным тестам и в разные годы на единой метрической шкале возможно лишь в том случае, если тестовые задания разных лет имеют соизмеримые количественные характеристики трудностей. Создание соответствующей метрической шкалы предполагает калибровку тестовых заданий разных лет по единой научно обоснованной схеме и накопление определенного множества заданий, известные трудности которых и задают индексы нужной шкалы. Частным случаем является задача выравнивания на единую шкалу различных вариантов одного и того же теста.

Решение указанной проблемы должно выработать как рекомендации по созданию тестов для калибровки заданий разных лет, так и рекомендации по математической обработке таких тестов. Данная работа посвящена совместной математической обработке различных тестов одинаковой содержательной валидности.

Уравнения связи и взвешенные уравнения измерений

Результаты тестирования по всем тестам, разработанным для калибровки заданий, мы рекомендуем обрабатывать совместно.

Предположим, что обработке подлежат T различных тестов (или вариантов теста), содержащих по заданий, где верхний индекс t здесь и в дальнейшем обозначает номер теста (или номер варианта), t=1,2,...,T, а номера заданий в каждом тесте начинаются с нуля. Количество испытуемых, работавших над тестом с номером t равно . Общее количество заданий (дихотомического типа) будем обозначать буквой K= (хотя не все задания являются различными в силу перекрытий тестов), а общее количество участников тестирования - буквой N=.

Нами получены соответствующие уравнения связи, то есть уравнения, связывающие то, что мы ищем, с тем, что мы измеряем. Они имеют вид:

, (1)

где введено обозначение

, (2)

j=0,1,2,...,K-1; g=0,1,2,...,K-1, но g>j.

Здесь - вероятность того, что некоторый испытуемый с уровнем подготовленности верно выполнит задание j, а при выполнении задания g ошибется; - вероятность того, что тот же испытуемый верно выполнит задание g, тогда как задание j окажется выполненным им ошибочно.

Так как обработке подлежат K заданий, то количество m таких уравнений равно числу сочетаний из K по 2, то есть m=.

Если среди всех N испытуемых имеются такие, которые выполняли и задание j, и задание g, то вместо модельной величины (2), содержащей неизвестные вероятности, естественно воспользоваться ее доступной статистической оценкой вида

. (3)

Здесь - количество испытуемых, верно выполнивших задание с номером j, но не выполнивших задание с номером g; - количество испытуемых, верно выполнивших задание с номером g, но не выполнивших задание с номером j; "~" – результат измерения соответствующей величины. Числа и подсчитываются по элементам матрицы индикаторов ответов.

Заметим, что одно и то же расстояние измеряется каждым испытуемым i=1,2,..., работавшим над заданиями j и g, вне зависимости от его уровня подготовленности . Другими словами, объект измерений (2) остается постоянным для каждого испытуемого и может быть оценен формулой (3) без каких-либо дополнительных гипотез.

Итак, искомая разность параметров и для непосредственного измерения недоступна, но можно измерить ее функцию вида (2). Результат измерения определяется числом (3). Его дисперсия зависит от чисел и и определяется ниже. В конечном счете вместо модельных уравнений связи мы имеем экспериментальные уравнения измерений:

. (4)

Вес правой части уравнения равен

, (5)

где обозначает дисперсию такого измерения, вес которого условно принят за единицу.

Правая часть уравнений измерений (4) может быть получена лишь в том случае, когда имеются испытуемые, работавшие и над заданием j, и над заданием g. В противном случае величина остается неопределенной, а ее вес равен нулю.

Количество реальных уравнений измерений обычно равно , что меньше количества уравнений связи , поскольку задания разных тестов одними и теми же испытуемыми обычно не выполняются.

Количество независимых неизвестных в этих уравнениях еще меньше и определяется числом K-1. Поэтому всегда имеются избыточные измерения, общее количество которых обычно равно .

Точность измеренного значения относительно соответствующего истинного значения определяется дисперсией

, (6)

где - количество испытуемых, работавших над заданиями j и g; относительная частота является оценкой неизвестной вероятности ; относительная частота является оценкой неизвестной вероятности .

Соответствующий вес обратно пропорционален указанной дисперсии и, согласно (5) и (6), определяется формулой

, (7)

где j=0,1,2,...,K-1 и g=0,1,2,...,K-1 при j - дисперсия единицы веса.

Если какие-либо значения не удалось измерить, то соответствующий вес принимается равным нулю.

Для определенности примем вес измерения за единицу. Это означает, что

(8)

и, таким образом, мы можем вычислить по формулам (6)-(8) конкретные значения весов всех измерений.

Решение уравнений измерений методом наименьших квадратов

Для тестов, состоящих в общей сложности из K заданий, система уравнений связи насчитывает уравнений вида

, (9)

где j=0,1,2,...,K-1; g=0,1,2,...,K-1; j

Перепишем (9) следующим образом:

. (10)

Здесь - результат измерения , а - истинная случайная ошибка такого измерения с нулевым математическим ожиданием и дисперсией:

. (11)

Для общности рассуждений записываются уравнения связи (9) в форме (10) и в том случае, когда их правая часть не измерялась и, следовательно, результат измерения отсутствует. Из реальных вычислений такие фиктивные уравнения будут удалены автоматически, так как их вес полагается равным нулю.

Если ошибками пренебречь, то соответствующая система уравнений измерений

(12)

оказывается несовместной и любые ее решения приводят к необходимости добавить к правым частям некоторые поправки , являющиеся уклонениями от результатов непосредственных измерений:

, j

Система таких уравнений называется системой уравнений поправок.

Обработка каждого теста (варианта теста) по отдельности

Задание с номером 0, задающее начало отсчета шкалы каждого теста, следует выбирать среди узловых заданий.

Сначала надо решать систему нормальных уравнений, не обращая внимания на наличие узловых заданий. Не пересекаются и множества испытуемых, работавших над различными тестами.

Для выравнивания вычисленных оценок на единую шкалу надо составить и решить систему уравнений. Количество таких уравнений равно количеству пар узловых заданий. При этом возможны два подхода – строгий и приближенный.

Как при строгом, так и при приближенном подходе все элементы матрицы Q вычисляются относительно единого начала, используя тот факт, что задания с номером 0 всех тестов являются узловыми.

Итак, общая проблема калибровки тестовых заданий и выравнивания их характеристик на единую шкалу трактуется нами как задача на условный экстремум. При этом предложение обрабатывать совместно много тестов (или много вариантов одного теста) не приводит к существенному увеличению объема требуемых вычислений и может быть реализовано в рамках традиционной технологии обработки результатов тестирования.

http://swsys.ru/index.php?id=453&lang=.&page=article

Perhaps, you might be interested in the following articles of similar topics: