Калибровка заданий теста с использованием бутстреп-метода

Send article

Journal influence

Higher Attestation Commission (VAK) - К1 quartile

Russian Science Citation Index (RSCI)

Bookmark

Next issue

№4

Publication date:

09 December 2024

Issues

2024

2023

№4 2023

all issues

Calibration test tasks using bootstrap method

The article was published in issue no. № 2, 2010
Abstract:The article substantiates the possibility of using bootstrap method for calibration of the test tasks. The basis of computer experiments shows that using this method can significantly reduce the size of interval estimates difficult tasks.
Аннотация:В статье обосновывается возможность использования бутстреп-метода для калибровки заданий теста. На основе машинного эксперимента показано, что с помощью этого метода можно значительно снизить величину интервальных оценок трудности заданий.

Authors: (ein@sssu.ru) - , Ph.D

Keywords: a bootstrap method, calibration, the test task, test
Page views: 11946	Print version Full issue in PDF (4.97Mb) Download the cover in PDF (1.38Мб)

Важным этапом создания надежных педагогических и диагностических тестов для управления качеством образовательной деятельности в учреждениях профессионального образования является калибровка (определение трудности) их заданий (индикаторов). Калибровка проводится с помощью современных методов и программ расчета латентных переменных на основе обработки результатов тестирования. Как правило, объем используемой выборки студентов невелик (от 20 до 50 человек), из-за чего погрешность калибровки получается недопустимо большой. Причем выборка эта является единственной, и увеличение ее объема за счет накопления данных в течение определенного времени зачастую неприемлемо.

Подпись:
а)

б)
Рис. 1. Зависимость от n для заданий:
а) легкого и б) трудного Современные подходы к решению проблем подобного рода базируются на использовании параметрических методов и связаны с генерированием выборки необходимого объема на основе закона распределения, полученного по результатам тестирования. Однако при малых объемах выборки трудно верно выбрать саму параметрическую модель и с приемлемой точностью рассчитать ее параметры. Из-за этого погрешность оценки выборочного среднего и дисперсии получается большой и снизить ее не представляется возможным.

Указанного недостатка лишены методы увеличения объема выборки, в которых используется непосредственное размножение экспериментальных результатов тестирования, такие как бутстреп-метод, метод складного ножа [1] и их модификации. За счет размножения исходной выборки с их помощью создается выборка существенно большего объема.

Целью данной работы является исследование возможности использования бутстреп-метода для снижения погрешности калибровки трудности заданий теста и уменьшения величины ее интервальных оценок.

Для исследования была выбрана матрица результатов тестирования студентов (выборка) размером 50´42. Формирование бутстреп-выборок производилось следующим образом. Исходная матрица тиражировалась большое число раз (N), причем каждая последующая матрица располагалась строго под предшествующей. При таком размножении положение столбцов всех матриц сохранялось неизменным. В результате тиражирования получалась выборка большего объема, число столбцов которой оставалось равным 42, а количество строк возрастало в N раз. Затем из нее случайным образом отбирались с возвращением n матриц размером 50´42, каждая из которых обрабатывалась, как и исходная матрица, с помощью программного комплекса RILP-1 [2]. Число n менялось. На первом этапе количество тиражирований N выбиралось равным 100, и строки полученной матрицы размером 5000´42 не перемешивались. Из нее последовательно извлекались с возвращением группы матриц с n=10, 25, 50, 75, 100, 200, 300,…, 2000. В результате обработки матриц находились бутстреп-выборки βj(Б)* (j=1, 2, 3, …, n). Каждое из рассчитанных бутстреп-значений βj(Б)* усреднялось по n выборкам, и определялись оценки среднего значения и стандартного отклонения .

Зависимость величины от количества n извлекаемых матриц в группе для самого легкого задания № 31 показана на рисунке 1 а), и для самого трудного задания № 20 – на рисунке 1 б). Прямыми линиями на рисунке показаны значения оценок β20* и β31*, рассчитанные для исходной матрицы. Из графиков видно, что при n≤200 значения статистически неустойчивы. Как показал анализ, для ÷βj*ç≥0,1 логита амплитуда колебаний может достигать 20–25 % от среднего значения. Статистическая устойчивость оценок заметно улучшается, когда число извлекаемых матриц n в группе превышает 500. Максимальное отклонение от усредненного значения, вычисленного по группам матриц с 500≤n≤2000, составляет не более 7–10 % практически для всех заданий теста с çβj*ç ≥0,1. Вывод об улучшении статистической устойчивости подтверждается результатами анализа зависимости оценки среднеквадратичного отклонения от n (рис. 2). При n≥500 амплитуда колебаний значений для рассматриваемых заданий существенно снижается. С учетом данного вывода в качестве предельных оценок величин и были приняты их усредненные значения и , рассчитанные по 16 группам матриц с n=500, 600, …, 2000.

Подпись:
Рис. 2. Зависимость от n для заданий:
легкого (1), трудного (2) и средней трудности (3) Для практического использования полученных результатов важно знать, какое минимальное количество групп матриц s и число бутстреп-матриц в группе n необходимо выбрать, чтобы усредненные по ним значения и мало отличались от предельных и . С этой целью исследовалась зависимость относительной погрешности оценок и от значений s и n. Для проведения исследований были выбраны самое легкое и самое трудное задания теста, а также задания одинаковой трудности 1, 13 и 38 (βj*=0,467 логита).

Относительные погрешности γβj* и γσj* рассчитывались по одной группе матриц с n=600 (s=1) и при усреднении по группам матриц с различными значениями n и s (см. табл.).

Зависимость γβj* и γσj* от числа s групп бутстреп-матриц

j	Отн. погр. γ (%)	s=1	s=2			s=4	s=6	s=9	s=11
j	Отн. погр. γ (%)	n=600		n=500, 600	n=600, 700	n=500, 600, …, 800	n=500, 600, …, 1000	n=800, 900, …, 1600	n=1000, 1100, …, 2000
1	γβ1*	2		1,30	2,80	0,74	0,74	0,28	0,50
1	γσ1*	4,40		3,20	1,32	0,90	0,48	0,56	0,38
20	γβ20*	1,50		1	1,25	0,48	0,23	0,28	0,14
20	γσ20*	1,24		0,46	1,32	0,90	0,56	0,22	0,20
31	γβ31*	0,22		0,17	0,35	0,09	0,07	0,03	0,10
31	γσ31*	0,70		2	2	0,04	0,50	0,74	0,10
13	γβ13*	3,80		0,27	1	0,36	0,77	0,18	0,35
13	γσ13*	0,40		3	3,90	0,02	0,30	0,04	0,04
38	γβ38*	1,70		2,30	0,60	1,50	0,99	0,46	0,40
38	γσ38*	3		0,13	1,78	0,82	0,80	0,35	0,35

Из таблицы видно, что погрешность расчета менее 1 % и для , и для обеспечивается при усреднении не менее чем по шести группам бутстреп-матриц с n=500, 600, …, 1000. Использование только четырех групп бутстреп-матриц приводит к увеличению относительной погрешности оценки до 1,5 %. Снижение погрешности до 0,5 % достигается при усреднении не менее чем по 11 группам бутстреп-матриц.

На втором этапе исследовалось влияние на результаты оценок и числа m перемешиваний строк размноженной матрицы. Исследования проводились для одной группы матриц с n=800, количество которых выбиралось равным 10, для 16 групп матриц с n=500, 600, …, 2000 и для 6 групп матриц с n=500, 600, …, 1000. Количество перемешиваний изменялось с интервалом Δm1=5ּ105 в диапазоне от 0 до 107 и с интервалом Δm2=5ּ106 в диапазоне от 5ּ106 до 108. Для одной группы матриц рассчитывались средние значения по десяти извлеченным матрицам и находились их относительные отклонения γβj* от величины .

Анализ результатов показал, что зависимость γβj*(m) носит случайный характер. Разброс значений относительно для большинства заданий (анализировались задания с çβj*ç>0,1 логита) составляет 1–2 %, но для отдельных может достигать 5 %. Это выше разброса значений , рассчитанных по 10 бутстреп-матрицам при m=0 (для большинства заданий γβj*(0) изменяется от 0,5 до 1 %, для отдельных достигает 4 %). Анализ характера зависимости γσj (m) относительных изменений также свидетельствует о том, что статистическая устойчивость оценок ухудшается при перемешивании (γσj возрастает на 1,5–2 %).

Расчет предельных оценок , , выполненный по 16 группам матриц для различного числа перемешиваний m, показал, что отличие значений от не превышает 0,7 % для указанных в таблице заданий, если m принимает значения 5ּ106, 107, 2ּ107. При m=106 и m=1,5ּ107 может достигать 1–1,5 %. Значения γβj* практически не отличаются от указанных и для других заданий теста, но когда çβj*çблизко к 0,1 логита, они могут возрастать до 4 %. При s=6 различия и несколько выше и могут достигать 6 %. Изменения предельных оценок для этих же значений s могут увеличиваться до 3,5 %, что превышает колебания значений , рассчитанных для m=0.

Таким образом, перемешивание строк размноженной матрицы приводит не к повышению устойчивости оценок и , как ожидалось, а, скорее, к ее снижению.

На третьем этапе оценивались и сравнивались интервалы изменения значений βj* и . Для случая непараметрической статистики [3] трудность j-го задания, рассчитанная по исходной матрице размером k´l, будет находиться в интервале .

Здесь k – число строк в исходной матрице; U(p) – число, зависящее от величины доверительной вероятности p. С учетом данного выражения отношение λ ширины интервалов изменения исходного значения βj* и полученного бутстреп-значения составит . Например, для задания № 10 (σj*=0,498, =0,296, k=50, n=500) величина λ составила 5,32.

Таким образом, использование бутстреп-метода позволяет существенно уменьшить величину интервальных оценок трудности заданий теста и за счет этого повысить точность их калибровки.

Литература

1. Efron B. Bootstrap methods: Another look at the jackknife Ann. Statist, 1979. V. 7. № 1, pp. 1–25.

2. Елисеев И.Н., Елисеев И.И., Фисунов А.В. Программный комплекс RILP-1 // Программные продукты и системы. 2009. № 2. С. 178–181.

3. Орлов А.И. Эконометрика: учеб. пособие для вузов. М.: Изд-во «Экзамен», 2002. С. 83.

Permanent link: http://swsys.ru/index.php?id=2524&lang=en&page=article	Print version Full issue in PDF (4.97Mb) Download the cover in PDF (1.38Мб)
The article was published in issue no. № 2, 2010

Perhaps, you might be interested in the following articles of similar topics:

Back to the list of articles

Software & Systems

Journal influence

Bookmark

Next issue

Issues

Calibration test tasks using bootstrap method