Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диагностика каша-малаша.docx
Скачиваний:
8
Добавлен:
20.09.2019
Размер:
179.98 Кб
Скачать

1. Критерии оценки качества тестовых процедур. Понятия надежности, валидности и репрезентативности. Принципы оценки надежности и валидности тестов. (мне кажется, это все об одном)

Объективный характер ПД, возможность проверки результатов осуществляется благодаря надёжности, валидности, репрезентативности.

Надёжность

Надёжность – относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном применении на одних и тех же испытуемых в различные моменты времени. Это даёт информацию о том, насколько внушают доверие, полученные данные. Степень надёжности может быть различной.

Важно выяснить факторы, снижающие точность измерения:

• Наличие в тесте заданий, допускающих неоднозначный вывод результатов (например, задание со свободными ответами, Амтхауэр-4).

• Нестабильность диагностируемого свойства

• Угадывание ответов (≈ 11% респондентов, заполняющих MMPI, давали правильные ответы, угадывая)

• Несовершенство диагностических методик (небрежно составленная инструкция, разнородные задания, нечётко сформулированные указания как предъявлять методику).

• Величина теста (чем длиннее тест, тем он надёжнее – связано с перекрещиванием вопросов)

• Меняющаяся ситуация обследования, связанная с разным временем дня (разное освещение, наличие / отсутствие шумов)

• Инструкция и технология проведения, влияющая на надёжность, может быть определена:

– можно изменить трудность задания и правильность ответов;

– неоднозначность инструкции, приводящей к снижению надежности.

Повышение надёжности можно достичь с помощью:

1.Улучшения качества подготовки экспериментатора

2.Ужесточения инструкции

• Различия в манере проведения эксперимента – от опыта к опыту инструкция применяется различно, также как и от задания к заданию. • Колебания в функциональном состоянии испытуемого: радость / утомление / скука / невнимательность. • Элементы субъективности в способах оценки и интерпретации результатов. Протоколирование и оценка по степени полноты, оригинальности и другим характеристикам.

Важный способ повышения надёжности – единообразие процедуры обследования, его строгая регламентация. Выборки по схожему уровню образования, способу подготовки, возрасту. К каждой выборке - свои коэффициенты надежности. Основной математико-статистический прием - корреляция по Пирсону или Спирмену. При описании видов надежности следует учитывать:

1.надежность измерительного инструмента. 2.стабильность изучаемого признака; 3.константность - независимость результатов от личности экспериментатора.

• Показатель, характеризующий стабильность измеряемого свойства – коэффициент стабильности

• Показатель, характеризующий измерительный инструмент – коэффициент надёжности

• Показатель, определяющий личность экспериментатора – коэффициент константности

Хτ = Хист + е1+е2+е3,

где Хτ – зарегистрированный результат теста

Хист – истинный результат, равный условно среднему значению, измеряемой величины при бесконечно большом измерении данного показателя в одних и тех же условиях

В реальных условиях Хτ = Хист в зависимости от величин е1,е2,е3

где е1 – систематические и случайные ошибки измерений;

е2 – величина, отражающая различия в процедуре тестирования при повторных измерениях;

е3 – внутренняя нестабильность функциональной системы.

Внешние условия могут изменяться из-за исследований. Можно отнести к E2. Вариативность повторных измерений - E3. Состояние испытуемого влияет на значение. В практике необходимо использовать результаты Хτ, где Хτ = Хист + е3, при котором е1 и е2 (результаты) – значительно малы.

Таблица градации уровня надежности тестов:

Значение коэффициентов

Характеристика надёжности

0.95-0.99

отличная

0.90-0.94

хорошая

0.80-0.89

средняя

0.70-0.79

приемлемая

0.60-0.69

низкая

Определение стабильности изучаемого признака: Колебания признака не должны иметь непредсказуемый характер. Для проверки стабильности используется приём тест-ретест – повторное обследование испытуемых тем же тестом. О стабильности признака говорят результаты первого и второго обследования по коэффициенту корреляции между ними. При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. При увеличении временного интервала стабильность признака имеет тенденцию к снижению. В этом случае используется параллельные формы теста.

Временные интервалы - несколько месяцев, но не более полугода. Причем для работы с детьми младшего возраста - срок может быть снижен до нескольких недель. Требование предъявляется к коэффициенту стабильности, если меняется свойство. Свойство сформировано и устойчиво - 0.8.

Коэффициент константности - определяется путем сравнения двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке, но проведённых разными экспериментаторами. Коэффициент корреляции должен быть не ниже 0.8.

Валидность

Валидность – это комплексная характеристика методики, указывающая на то, что тест измеряет и насколько хорошо он это делает. Валидность определяет обоснованность прогноза развития исследуемого качества. Валидизация – это проверка валидности, которая осуществляется путем сопоставления ее с другими методиками, конструктное содержание которых известно. Наличие корелляции между старыми и новыми тестами измеряет примерно ту же сферу поведения, личных качеств, способностей, что и эталонная методика.

Виды валидности:

Внешняя – мера возможности распространения результатов тестирования на генеральную совокупность. Осуществляется определением репрезентативности экспериментальной выборки и перекрестной валидизации.

Перекрёстная – определение валидности теста на выборке испытуемых, отличающихся от той, на которой отрабатывался стимульный материал и задания к тесту. Для проведения прагматической валидизации методики - оценки эффективности - обычно используют внешний критерий, то есть показатель изучаемого свойства в повседневной жизни. Такими критериями могут быть: 1. Успеваемость для тестов способности к обучению, тестов достижения и тестов интеллекта; 2. Производственные достижения для методик профессиональной направленности; 3. Эффективность реальной деятельности - рисование, моделирование - для тестов специальных способностей. 4. Субъективные оценки для тестов личности.

Для доказательства валидности Тиффин и МакКормик выделили 4 типа внешних критериев: Критерий исполнения - количество выполняемой работы, успеваемость, время, затраченное на обучение, темп роста квалификации; – Субъективный критерий - включает различные виды ответов, которые отражают отношение человека к чему-либо или кому-либо, его мнение, взгляды, предпочтения - получают с помощью интервью, опросников, анкет. – Физиологические критерии - используются при изучении влияния окружающей среды (измеряются различные психофизиологические показатели – частота пульса, давление крови). – Критерий случайностей - применяется, когда цель исследования касается отбора лиц для приёма на работу, которые менее подвержены несчастным случаям.

Внешний критерий должен отвечать трём основным требованиям: - должен быть релевантным; - свободным от помех и контоминаций; - надежным;

Релевантность - смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, то есть, они должны быть качественно однородными по психологической сущности.

Требования свободы от помех вызываются тем, что та или иная деятельность зависит от двух особенностей:

– от человека и его индивидуальных особенностей

– от условий учёбы, труда, которые могут принести помехи

Чтобы избежать влияния помех, выбираются группы людей в одинаковых условиях. Метод корректировки помех – носит обычно статистический характер. Не менее 50 человек для оценки валидности, но исследование лучше проводить в группе до 200 человек. Валидность считается по признаку статистической значимости. Высокий - 0.6, низкий - 0.2-0.3.

Виды валидности:

Валидность по содержанию (критериальная) – часто используют в тестах достижений, применяется всего 3-4 вопроса из изучаемого материала. Проводится сопоставление успешности теста с оценками учителей, подходит подходит к критериально-ориентированным тестам. В ряде случаев используется понятие - логическая валидность. • Валидность по одновременности (текущая) – определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Результаты успешности по тесту сравнивают с производительностью, успеваемостью и др.

Предсказывающая (прогностическая) – определяется также по внешнему критерию, но собирается информация через некоторое время после исследования. Точность диагноза находится в обратной зависимости от времени, заданного для прогнозирования.

Ретроспективная – определяется на основе критерия, отражающего события или качества в прошлом. Может быть использована для быстрого получения сведений по предсказательной возможности методики. Сопоставление оценок с прошлыми данными.

Иллюзорная валидность (ложная) – иллюзия соответствия результатов исследования личностным характеристикам испытуемого. Является следствием применения предельно общих формулировок, которые применимы ко всем другим методикам.

Инкрементная – имеет ограниченное значение и относится к случаям, когда один тест из батареи может иметь низкую корреляцию. Отражает практическую ценность методики при проведении отбора. Инкрементная валидность возрастает, если отобранное количество лиц при этом будет небольшим по сравнению с большим количеством контингентов. Может быть выражена количественно с помощью коэффициента валидности. Есть специальные таблицы.

Репрезентативность

То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется репрезентативностью тестовых норм. (Популяция – категория испытуемых определенной социальной, профессиональной или половозрастной принадлежности). Понимание смысла репрезентативности помогает правильно учитывать ограничения в сфере применения теста.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа распределения частот тестовых баллов. Простейший метод – проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.