На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

Экспериментальные исследования состоятельности оценок латентных параметров модели Раша

Experimental study of an estimator consistensy related to the Rash model latency features
Статья опубликована в выпуске журнала № 3 за 2012 год. [ на стр. 166-171 ]
Аннотация:Состоятельность оценок максимального правдоподобия латентных параметров «трудность задания» теста и «уровень подготовки» студента однопараметрической дихотомической модели Раша при неограниченно возрас-тающем объеме выборки студентов N и числе заданий теста L подтверждена результатами вычислительного экспе-римента. Показано, что предельные значения оценок латентных параметров достигаются при N=1500 и L=1500 и с дальнейшим ростом N, L практически не изменяются. Предложен метод калибровки заданий теста по матрицам ре-зультатов тестирования ограниченного объема, позволяющий существенно снизить ее погрешность. Исследования выполнялись на основе вычислительного эксперимента. В первой его части исследовалась зависи-мость оценок максимального правдоподобия латентных параметров и от размера матрицы результатов тести-рования. Предполагалось, что распределения оценок и являются нормальными. На основе дихотомической матрицы ответов размером 60х49 и предложенного автором алгоритма были сформированы нормативные дихотоми-ческие матрицы результатов тестирования размером от 501500 до 25052505. Затем они обрабатывались, данные обработки представлялись графически. Анализировались и сравнивались между собой оценки латентных параметров , а также ( ). Во второй части вычислительного эксперимента полученные на моделях матриц ответов результаты проверялись на реальной матрице результатов тестирования М1 размером 5150. Модели нормативных матриц ответов форми-ровались с использованием статистических параметров распределения статистик и , рассчитанных по матрице М1. Полученные оценки латентных параметров и сравнивались с соответствующими значениями оценок параметров и матрицы М1.
Abstract:Consistency of an estimator of the maximum likelihood related to latency features «task severity» of the test and «preparation level» of a student in one-parameter dichotomous Rash model when the amount of selected students N and number of the test task L grows without limitation, is supported by computing experiment. It is shown that extreme values of latency features are achieved when N=1500 and L=1500, and they stay stable with following growth of N, L. They offer calibration technique to calibrate test tasks by test resulting matrix of limited amount, which significantly reduces its measure of inaccuracy. The study was performed based on computation experiment. First part of the study examined dependence of the maximum likelihood related to latency features and from matrix size of the test results. It was assumed that estimate distribution and was normal. Based on dichotomous result matrix with dimensions of 6049 and provided algorithm, the author formed reference dichotomous resulting matrix of tests with dimensions of 501500 to 25052505. Then they were processed and the data was presented in graphic form. Data was analyzed and latency features were compared among themselves , and ( ) as well. In the second part of the computing experiment, results received from the result matrix model were checked upon M1 real test result matrix with dimensions of 5150. Reference result matrix models were formed using statistic parameters of statistics distribution and , calculated with M1 matrix. Resulting estimation of latency features and were compared against proper estimations of and of M1 matrix.
Авторы: Елисеев И.Н. (ein@sssu.ru) - Южно-Российский государственный университет экономики и сервиса, г. Шахты, кандидат технических наук
Ключевые слова: модель раша., латентный параметр, задание теста, состоятельность оценок, тест, модель матрицы, дихотомическая матрица
Keywords: Rush's model, the latent parameter, the test task, consistency of assessments, test, matrix model, dichotomous matrix
Количество просмотров: 8974
Версия для печати
Выпуск в формате PDF (7.64Мб)
Скачать обложку в формате PDF (1.33Мб)

Размер шрифта:       Шрифт:

Независимая оценка качества образования с помощью современных контрольно-оценочных средств базируется на использовании однопараметрической дихотомической модели Раша [1] , где qi – уровень подготовки i-го студента; βj – трудность j-го задания теста; pij – вероятность правильного выполнения i-м студентом j-го задания. Точность расчета латентных параметров qi () зависит от того, насколько точно известны значения латентных параметров βj (), где N – число студентов, участвующих в тестировании; L – число заданий используемого при этом теста. Чем точнее определены значения βj, тем качественнее (с меньшей погрешностью) будут рассчитаны значения qi латентного параметра «уровень подготовки» студента. Оценки  и  латентных параметров βj и qi рассчитываются по результатам тестирования, которые представляются в виде дихотомической матрицы ответов X=(xij) [1]. Расчет оценок осуществляется численными методами на основе итерационных выражений [1, 2], полученных с использованием метода максимального правдоподобия.

Важным требованием к оценкам максимального правдоподобия  и  латентных параметров однопараметрической дихотомической модели Раша является наличие у них свойства состоятельности [3].

Состоятельность оценок  () при неограниченном возрастании объема выборки участников тестирования N и конечном числе одинаковых по трудности (βj=0) заданий теста L доказана теоретически [4]. Затем было установлено, что оценки максимального правдоподобия  и  латентных параметров однопараметрической дихотомической модели Раша являются состоятельными при N→∞ и L→∞.

Целью данной работы является экспериментальная проверка состоятельности оценок максимального правдоподобия ,  латентных параметров однопараметрической дихотомической модели Раша при неограниченно возрастающем объеме выборки студентов N и числе заданий теста L.

Проверка проводилась на основе вычислительного эксперимента. В первой его части исследовалась зависимость оценок максимального правдоподобия латентных параметров «трудность задания» теста  и «уровень подготовки» студента  от размера матрицы результатов тестирования (матрицы ответов). Предполагалось, что распределения оценок  и  являются нормальными. В качестве их параметров были приняты значения, полученные при обработке модели нормативной дихотомической матрицы ответов размером 60´49 (первая строка таблицы 1). С их использованием на основе методики моделирования дихотомических матриц ответов, изложенной в [5], и созданного на ее основе алгоритма формировались модели дихотомических матриц размером 501´500, 1002´1000, 1503´1500, 2004´2006 и 2505´2505. Затем они обрабатывались программным комплексом RILP-1M [6], анализировались и сравнивались между собой оценки латентных параметров  ( N1=501, N2=1002, N3=1503, N4=2004, N5=2505) и  (L1=500, L2=1000, L3=1500, L4=2006, L5=2505) при одинаковых значениях pi и pj, где pi - доля верных ответов i-го виртуального студента на все задания виртуального теста, соответствующего исходной модели матрицы; pi - доля верных ответов всех виртуальных студентов на j-е виртуальное задание этого же теста. Анализ полученных данных начинался со сравнения статистических параметров, характеризующих распределения оценок: выборочных средних ,  и оценок стандартных отклонений  и , которые представлены в таблице 1 в строках со 2-й по 6-ю. Из сравнения видно, что значения параметров достаточно близки, поэтому можно считать представительство результатов тестирования виртуальных студентов с разным уровнем подготовки и результатов выполнения виртуальных заданий с разным уровнем трудности во всех моделях матриц примерно одинаковым, что является свидетельством их нормативности.

Таблица 1

Статистические параметры моделей матриц ответов

Размер матрицы

, логит

, логит

, логит

, логит

60´49

0,043

1,33234

0,000

1,42348

501´500

0,047

1,41256

0,000

1,45031

1002´1000

0,051

1,44373

0,000

1,46848

1503´1500

0,046

1,40319

-0,003

1,40221

2004´2006

0,042

1,40026

-0,002

1,415

2505´2505

0,042

1,40048

-0,002

1,40784

Различия между собой кривых , полученных при разных значениях Nk (), и кривых , рассчитанных при различных значениях Lm (), наиболее заметны на краях диапазонов изменения оценок  и . На рисунке (а) представлены кривые  для интервала изменения от 2 до 3 логит, а на рисунке (б) – для интервала от минус 3 до минус 4 логит. Из рисунка (а) видно, что значения  соответствующие одному и тому же значению pi, тем больше, чем меньше размер матрицы. Наибольшие расхождения наблюдаются для значений  рассчитанных по матрицам 501´500 (кривая 1) и 2004´2006 (кривая 4). Например, при pi=0,86 эти различия составляют 2 %. Из рисунка (а) видно также, что значения ,  и  (кривые 3, 4, 5) практически одинаковы. Данный результат позволяет сделать вывод о том, что оценки латентных параметров  достигают своих предельных значений при размере матрицы результатов тестирования 1500´1500 и при его дальнейшем увеличении не изменяются. Анализ различий оценок  в диапазоне от минус 3 до минус 4 логит (рис. (б)) показывает, что по сравнению с рисунком (а) характер поведения оценок не меняется: для одинаковых pi большим по модулю значениям  соответствуют матрицы меньших размеров. Иначе говоря, крутизна кривых  возрастает с увеличением размера матрицы.

Подпись:  
а)   в диапазоне изменения q от 2 до 3 логит
 
б)   в диапазоне изменения q от -3 до -4 
 
в)   в диапазоне изменения β от 2 до 4 логит
Зависимости для моделей матриц разного размера: 
1 – 501´500; 2 – 1002´1000; 3 – 1503´1500; 
4 – 2004´2006; 5 – 2505´2505
На рисунке (в) изображены кривые  для моделей матриц разных объемов, позволяющие судить о зависимости оценок латентного параметра «трудность задания»  от размера матрицы. Как и для оценок , при N, L≥1500 значения оценок  достигают своих предельных значений и с дальнейшим увеличением N, L не изменяются.

Таким образом, делаем следующие выводы:

1) с ростом объема выборки студентов N и числа заданий теста L оценки латентных параметров стремятся к предельным значениям, что является свидетельством их состоятельности;

2) оценки латентных параметров достигают предельных значений при N=1500 и L=1500 и с дальнейшим ростом N, L не изменяются, что позволяет говорить об их несмещенности;

3) с увеличением размера матрицы крутизна кривых  и  увеличивается.

Во второй части вычислительного эксперимента полученные на моделях матриц ответов результаты проверялись на реальной матрице результатов тестирования ограниченного объема, в качестве которой использовалась матрица ответов М1 размером 51´50. Анализ гистограмм оценок латентных параметров  () и  (), рассчитанных с помощью программного комплекса RILP-1M, показал, что их распределения не противоречат гипотезе о нормальном законе распределения с параметрами mq=0,447 логит, σq=0,85293 логит, mβ=0,000 логит, σβ=0,80755 логит. С использованием этих статистических параметров были сформированы 4 модели нормативных дихотомических матриц ответов [5]: М2 – 503´503, М3 – 1003´1000, М4 – 1505´1507 и М5 – 2003´2006 в предположении нормального распределения значений оценок латентных параметров  и , рассчитанных по этим моделям матриц. В процессе обработки сформированных моделей матриц наряду с оценками латентных параметров  и  находились их выборочные средние арифметические ,  и оценки стандартных отклонений , . Нормативность исследуемых моделей матриц подтверждается данными таблицы 2.

Таблица 2

Статистические параметры матриц ответов, моделирующих матрицу М1

Матрица

, логит

, логит

, логит

, логит

51´50

0,447

0,85293

0,000

0,80755

503´503

0,466

0,86995

-0,009

0,82472

1003´1000

0,463

0,86537

-0,009

0,80942

1505´1507

0,464

0,86266

-0,009

0,81924

2003´2006

0,466

0,85647

-0,009

0,81161

Значения латентных параметров  (i=) и  (j=) исходной матрицы М1 представлены во вторых столбцах таблиц 3, 4, значения оценок  и  – в столбцах 3–6.

По долям верных ответов pi первого столбца таблицы 3 находились соответствующие им значения  () для каждого из четырех массивов, полученных по сформированным моделям матриц М2–М5. По значениям  определялись значения , которые заносились в столбцы c 3-го по 6-й таблицы 3, а затем сравнивались с оценками  и между собой. Анализ полученных данных подтверждает полученные в первой части вычислительного эксперимента выводы: оценки латентных параметров  стремятся к предельным значениям, которые достигаются при N, L1500. Отличия их от исходных оценок  для большинства заданий (исключая из рассмотрения оценки  логит) составляют от 1 до 5 %, но могут достигать и 8 %. В столбцах 7 и 8 таблицы 3 показаны погрешности расчета оценок максимального правдоподобия латентных параметров модели Раша для исходной матрицы ответов М1 и для модели матрицы ответов М4 размером 1505´1507, а в столбце 9 – кратность отношения погрешностей. Видно, что погрешность расчета значений оценок  по матрице М4 снижается более чем в 5 раз. Таким образом, моделирование реальной матрицы ответов позволяет уточнить значения оценок латентных параметров  и не менее чем в 5 раз снизить погрешность их расчета.

Аналогичный анализ оценок латентных параметров  (табл. 4), выполненный по описанной схеме, также подтверждает полученные в первой части вычислительного эксперимента выводы. За счет моделирования матрицы ответов значения оценок латентных параметров  могут быть уточнены на 1–10 %, в отдельных случаях – на 16 %, а погрешность их расчета снижена в 5 и более раз.

На основе полученных результатов предложен следующий метод расчета оценок латентных параметров «трудность задания»  (метод калибровки заданий) и «уровень подготовки» студента  по матрицам результатов тестирования ограниченного объема:

1)    обрабатывают дихотомическую матрицу результатов тестирования ограниченного объема NH´LH программными средствами, базирующимися на использовании теории латентных переменных и однопараметрической дихотомической модели Раша;

2)    выявляют тип и параметры распределений оценок латентных переменных  и ;

3)    формируют модель матрицы ответов размером 1500´1500 по найденным значениям параметров распределения оценок  и ;

4)    обрабатывают модель найденной матрицы; сверяют параметры распределений полученных статистик  и  с параметрами распределений оценок  и  исходной матрицы ответов; если параметры сильно различаются, повторяют пункты 3 и 4 до тех пор, пока эти различия не станут приемлемыми;

5)    по значениям долей pi верных ответов студентов на все задания и долей pj верных ответов всех студентов на задания теста, которые соответствуют найденным оценкам  и , находят наиболее близкие к ним значения pi0 и pj0, рассчитанные по сформированной модели дихотомической матрицы 1500´1500;

6)    выбирают из массивов значений  и  оценки  и  по значениям pi0 и pj0 ();

7)    принимают найденные оценки ,  и погрешности их расчета в качестве значений латентных параметров qi, βj и погрешностей их расчета.

Таким образом, результаты вычислительного эксперимента подтверждают полученный теоретическим путем вывод о состоятельности оценок максимального правдоподобия латентных параметров βj «трудность задания» теста и qi «уровень подготовки» студента при больших объемах выборки студентов N и большом количестве заданий теста L. Установлено, что оценки ,  достигают своих предельных значений ,  при N=L=1500.

Предложенный метод калибровки заданий теста по матрицам результатов тестирования ограниченного объема позволит существенно повысить ее точность и снизить погрешности оценки результатов образовательной деятельности.

Литература

1.     Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М., 2000. 168 с.

2.     Елисеев И.Н. Теоретические основы алгоритма расчета латентных переменных программным комплексом RILP-1M // Программные продукты и системы. 2011. № 2 (94). С. 67–71.

3.     Елисеев И.Н., Шрайфель И.С. Доказательство несостоятельности стандартных оценок латентных параметров дихотомической модели Раша // Изв. вузов: Электромеханика, 2012. № 1. С. 85–96.

4.     Елисеев И.Н., Шрайфель И.С. Модель оценивания латентных параметров дихотомической модели Раша // Изв. вузов. Северо-Кавказский регион: Технические науки. 2011. № 6. С. 37–46.

5.     Елисеев И.Н. Модель дихотомической матрицы результатов тестирования // Программные продукты и системы. 2011. № 3. С. 80–86.

6.     Елисеев И.Н., Елисеев И.И., Фисунов А.В. Програм- мный комплекс RILP-1 // Программные продукты и системы. 2009. № 2. С. 178–181.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=3236&lang=
Версия для печати
Выпуск в формате PDF (7.64Мб)
Скачать обложку в формате PDF (1.33Мб)
Статья опубликована в выпуске журнала № 3 за 2012 год. [ на стр. 166-171 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик: