Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Семинар № 4 ССОРО.doc
Скачиваний:
22
Добавлен:
01.09.2019
Размер:
222.72 Кб
Скачать

Пример. Анализ правдоподобности дистракторов в заданиях закрытой формы с четырьмя ответами

задания

Всего

Распределение ответов испытуемых

1-й ответ

2-й ответ

3-й ответ

4-й ответ

кол.

%

Кол.

%

кол.

%

кол.

%

1

96

8

8,3

1

1,0

65

67,7*

22

22,9

2

96

4

4,2

20

20,8

2

2,1

70

72,9*

3

97

19

19,6

29

29,9

24

24,7*

25

25,8

4

93

18

19,4

10

10,8

59

63,4*

6

6,5

5

96

47

49,0

33

34,4*

9

9,4

7

7,3

6

97

0

0,0

6

6,2

91

93,8*

0

0,0

7

90

19

21,1

24

26,7

40

44,4*

7

7,8

8

93

3

3,2

11

11,8

2

2,2

77

82,8*

9

86

31

36,0

1

1,2

22

25,6

32

37,2*

10

97

35

36,1

23

23,7

39

40,2*

0

0,0

Звездочками помечены верные ответы.

В результате дистракторного анализа выявляются задания с неработающими дистракторами (вариантами ответов в закрытом задании, которые испытуемые выбирают мало или вообще не выбирают). Если в задании есть неработающие дистракторы, то вероятность угадывания правильного ответа повышается, а следовательно снижается его трудность. Такие задания требуют переработки (замены неработающих дистракторов) или удаления их из теста. Задание №6 можно переделать в открытую форму.

Дискриминативность тестового задания.

Дискриминативность (дифференцирующая способность, различающая способность) задания - это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых.

Если задание одинаково выполняется и слабыми, и сильными, то можно говорить о низкой дискриминативности задания.

Если задание выполняется сильными испытуемыми, а слабые дают отрицательный результат, то мы имеем высокую дискриминативность.

Высокая дискриминативность тестовых заданий важна для нормативно-ориентированных тестов, основная цель которых - ранжирование учащихся по уровню достижений.

Один из способов вычисления дискриминативности - вычисление с применением метода крайних групп, где для расчета берутся показатели самых слабых и самых сильных испытуемых. Чаще всего это 27 (30) % худших и 27 (30) % лучших по результатам выполнения тестового задания.

Индекс дискриминативности определяется как разность долей правильных ответов сильной и слабой групп.

(r дис)j = (p1)j - (p0)j,

или

(r дис)j = ((P1)j - (P0)j)/100%, если трудность задана в процентах

где r - индекс дискриминативности, p1 - доля правильных ответов в сильной подгруппе (27 % от всего количества), p0 - доля правильных ответов в слабой группе (27 %). Значение индекса дискриминативности располагается в интервале [- 1; 1]. Если индекс дискриминативности выше нуля (больше 0,3 считается удовлетворительным), а еще лучше стремится к 1, то это свидетельствует о том, что задание обладает хорошим (максимальным) дифференцирующим эффектом. Если r = 0, то это значит, что и слабые, и сильные испытуемые выполняют задание одинаково. Отрицательный показатель дискриминативности, появляется в том случае, когда слабые учащиеся выполняют задание правильно, а сильные - неправильно, что свидетельствует о некачественном (невалидном) задании. Соответственно тестовые задания с показателями rдис близким к 0 и rдис< 0 следует удалить

№ задания

Pj для всех испытуемых

Группа

Индекс

rдис

Pj для слабой

Pj для сильной

1

21,0

6,5

32,0

0,26

2

94,0

90,0

97,0

0,065

3

64,0

42,0

97,0

0,55

4

59,0

68,0

58,0

-0,097

5

27,0

16,0

29,0

0,13

6

70,0

29,0

94,0

0,65

7

30,0

13,0

42,0

0,29

8

12,0

9,7

16,0

0,065

9

33,0

16,0

52,0

0,35

10

73,0

42,0

90,0

0,48

Трудность и дискриминативность - взаимосвязанные характеристики тестового задания. Высокая дискриминативность, которая свидетельствует о сильном дифференцирующем эффекте тестового задания, характерна для заданий со средним показателем трудности (0,5).

С помощью подсчета значений бисериальной или точечно-бисериальной корреляции также оценивается валидность отдельных заданий теста. Коэффициенты считаются, когда один набор значений распределения задается в дихотомической шкале, а другой - в интервальной. В нашем случае мы находим показатель связи между результатами выполнения каждого задания (дихотомическая шкала) и суммой баллов испытуемых по заданиям теста (интервальная шкала). Мы будем использовать формулу для нахождения точечно-бисериального коэффициента, так как он, в отличии от бисериального, не может выходить за рамки [-1; 1], что более удобно для интерпретации.

, где

- среднее значение индивидуальных баллов испытуемых, выполнивших верно j-ое задание теста,

- среднее значение индивидуальных баллов испытуемых, выполнивших неверно j-ое задание теста,

Sx – стандартное отклонение по множеству значений индивидуальных баллов,

(N1)j – число испытуемых, выполнивших верно j-ое задание теста,

(N0)j – число испытуемых, выполнивших неверно j-ое задание теста,

N – общее число испытуемых.

В целом задание можно считать валидным, если rpbis близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно. Если цель – дифференциация учеников по уровню подготовленности, то валидные задания должны четко отделить хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Значения rpbis близкие к нулю, указывают на низкую дифференцирующую способность заданий теста. Все задания у которых rpbis<0, подлежат удалению из теста, так как на эти задания верно отвечают слабые ученики, а сильные либо ошибаются либо пропускают это задание.

Основными показателями качества теста являются надежность и валидность теста. А так как тест является инструментом педагогического измерения, то эти показатели имеют численное значение и определяются с помощью различных методов как в классической теории тестов, так и в современной теории тестов.

НАДЕЖНОСТЬ.

Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.

Тест является надежным, если при повторном тестировании (при условии, что подготовка испытуемого не изменилась) он дает примерно такие же результаты.

Педагогическое измерение не исключает некоторой ошибки измерения. При проведении тестирования могут возникнуть как случайные, так и систематические ошибки. Систематические ошибки могут возникнуть в результате использования некачественного теста (некорректная формулировка заданий, содержание тестового задания не соответствует проверяемому материалу, плохо разработанная инструкция), т.е. это те ошибки, которые чаще всего привносятся самими разработчиками. При повторном тестировании систематическая ошибка как правило остается постоянной или закономерно меняется от измерения к измерению. Случайные ошибки возникают по непредвиденным обстоятельствам и зависят не от качества теста, а от поведения и состояния испытуемого (самочувствие, усталость, волнение учащегося, опоздание).

Статистическая оценка надежности теста предполагает учет ошибки измерения.

По классической теории тестов наблюдаемый балл (X) включает в себя истинный балл (T) испытуемого и некоторую ошибку измерения (E). Формула наблюдаемого балла будет выглядеть следующим образом:

X = T + E

Истинный балл определяется как показатель испытуемого в гипотетической генеральной совокупности заданий бесконечного теста.

Ошибка измерения - статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Дисперсия наблюдаемых тестовых баллов будет равна сумме дисперсий истинных и ошибочных составляющих.

Соответственно, чем ближе показатель дисперсии наблюдаемых баллов к дисперсии баллов истинных, тем выше корреляция между множеством наблюдаемых баллов (Х) и множеством истинных баллов (Т), т.е. тест надежнее. Поэтому надежность теста (коэффициент надежности теста - rн) определяется через отношение дисперсии истинного балла к дисперсии наблюдаемого тестового балла.

Стандартная ошибка измерения находится как корень квадратный из дисперсии ошибочной компоненты

Оценка надежности теста.

Для оценки надежности нормативно-ориентированного теста используются 2-е группы методов:

  1. Двукратное тестирование:

  1. ретестовый метод;

  2. метод параллельных форм.