Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
0900648_827A1_venger_l_a_diagnostika_umstvennog...docx
Скачиваний:
40
Добавлен:
22.11.2019
Размер:
3.93 Mб
Скачать

Глава II

Разработка и опытная проверка методов диагностики уровня умственного развития дошкольников

Выделение показателей уровня умственного развития явилось лишь первым шагом в нашей разработке диагностических методик. Дальнейшая задача состояла в конструировании и проверке заданий, отвечающих этим показателям, а также придании им формы, пригодной для массового обследования детей. Но предварительно необходимо было определить систему формальных требований к методикам и способы установления соответствия сконструированных заданий таким требованиям. В поисках такого рода данных мы обратились к анализу опыта, накопленного в этом направлении зарубежной психологией.

Как уже говорилось в главе I, в зарубежной науке сложился такой подход к диагностике умственного развития ребенка, который можно назвать количественным, поскольку он состоит в численном измерении сравнительного уровня развития у разных детей без выяснения содержания этого развития. В русле такого подхода разрабатываются как конкретные диагностические методики, так и методы их построения, статистического обоснования и оценки уровня умственного развития.

Обычная процедура разработки и обоснования методики сводится в основных чертах к следующему1. Эмпирически подобранный набор заданий предъявляется известному количеству детей одного возраста. Затем производится отбор заданий, выполняемых в данном возрасте на некотором среднем уровне успешности. Такие

33

задания размножаются, по каждому из них создается серия однородных задач (одинаковой иди постепенно возрастающей сложности). Устанавливается по возможности простая, объективная и однозначная оценка успешности их решения1.

Далее на основе репрезентативной (а в случае, если она затруднена, — случайной) выборки создается стандартизационная группа из детей соответствующего возраста, на которой производится опытная проверка и стандартизация теста.

Оценки, полученные каждым ребенком за решение всех задач данной методики, суммируются, и дается общая оценка по методике в «сырых» очках. Набор таких оценок, выведенных для всех детей, входящих в стандартизационную группу, является исходным материалом для дальнейшей статистической обработки и проверки качества методики.

Прежде всего вычисляется взвешенная средняя арифметическая (M) оценок, полученных всеми детьми. Это наиболее грубый показатель пригодности методики с точки зрения ее соответствия возможностям детей данного возраста. Слишком высокая средняя оценка свидетельствует о чрезмерной легкости методики, слишком низкая — о чрезмерной трудности. Вместе с тем, хотя средняя оценка и не должна значительно удаляться от теоретически «идеальной» (т. е. равной половине максимального количества баллов), она не обязательно должна и совпадать с ней. Если одна и та же методика применяется для детей нескольких, возрастных групп, величина различия между средними оценками может служить основанием для вывода о том, насколько хорошо она отражает возрастные различия.

В качестве следующего момента, существенного для обоснования методики, выступает степень разнообразия полученных детьми оценок, выражающаяся величиной среднего квадратичного отклонения (σ). При одной и

34

той же средней эта степень может быть весьма различной. Достаточная широта разброса оценок необходима для обеспечения дискриминабельности методики, т. е. возможности при ее помощи выявить широкий диапазон различий между детьми. Однако дискриминабельность методики обнаруживается не только в разнообразии оценок, но и в характере их распределения.

Специалисты по тестологии исходят из гипотезы о нормальном распределении признаков, которые должна измерять любая методика (и тест в целом), т. е. о том, что соотношение уровня умственного развития отдельных детей внутри каждой возрастной группы соответствует так называемой нормальной кривой (кривая Гаусса). Из этой гипотезы вытекает, что, если методика соответствует своему назначению, максимальное количество детей должно получить балл, близкий к среднему, при удалении же от среднего балла «вверх» и «вниз» количество случаев должно закономерно уменьшаться. Если результаты опробования методики дают принципиально иное распределение оценок (даже при высоком уровне их разнообразия), это может свидетельствовать о пониженной дискриминабельности, поскольку методика плохо дифференцирует определенную часть детей.

Так, смещение распределения в сторону высоких оценок говорит о чрезмерной легкости включенных в методику задач. Такая методика не дифференцирует сильных детей: многие дети решают все задачи полностью и получают самый высокий возможный балл. Смещение же в сторону низких оценок, напротив, демонстрирует трудность методики для детей данного возраста и невозможность дифференцировать при ее помощи слабых детей, так как большой их процент решает задачи на самом низком уровне, получая одинаковую оценку. Возможен такой случай, когда возникает «двугорбая» кривая — слишком значительная часть детей получает высокие и низкие оценки. Дискриминабельность методики при этом снижена на обоих «концах» распределения. Вероятной причиной этого может являться влияние каких-либо дополнительных факторов, не учтенных при разработке методики, например, зависимости решения задач от некоторых специальных знаний, которыми одни дети обладают, а другие — нет.

35

Получению нормальной кривой распределения придается чрезвычайно большое значение не только в силу связи такого распределения с дискриминабельностью методики, но и благодаря особым свойствам этой кривой, на которых основаны методы многих расчетов, применяющихся при дальнейшем статистическом обосновании теста, возможности его практического применения.

Так, в нормальном распределении процент оценок, отличающихся от средней более чем на 2 σ в каждую сторону, равен 2,275. Поскольку этот процент примерно соответствует имеющимся статистическим данным о количестве умственно отсталых детей, оценка, отстоящая более чем на 2 σ от среднего в сторону уменьшения, обычно истолковывается как основание для подозрений относительно умственной отсталости ребенка.

Однако реально нормального распределения оценок при обследовании стандартизационной группы получить никогда не удается. Может быть получено распределение, лишь в большей или меньшей степени приближающееся к нему. Предполагается, что отклонения от нормальной кривой (если они не слишком велики и не выражают принципиального отличия распределения от нормального) возникают за счет недостаточной численности выборки. Такое предположение дает основание для применения специальных способов искусственной нормализации полученного распределения, приведения его к виду, соответствующему нормальной кривой.

Наиболее распространенным методом нормализации является перевод полученной шкалы «сырых» оценок в нормализованную стандартную шкалу. Такой перевод преследует двойную цель. При разработке теста одновременно проверяется несколько методик, имеющих разное количество «сырых» очков, разные средние и средние квадратичные отклонения, разное распределение. В таком виде оценки, полученные одним и тем же ребенком по разным методикам, оказываются несопоставимыми. В то же время достижение их сопоставимости необходимо для многих целей, в частности для выведения суммарной оценки, характеризующей общий уровень умственного развития ребенка. Перевод шкалы «сырых» оценок по всем методикам производится в одну и ту же нормализованную стандартную шкалу, имеющую фиксированные M и σ. В итоге все данные оказываются и

36

соответствующими нормальному распределению, и приведенными к единой единице измерения, допускающей их сопоставление.

Процесс перевода данных в нормализованную стандартную шкалу основан на подсчете количества детей, получивших каждую оценку (в «сырых» очках), переводе этого количества в кумулятивный (накопленный) процент и установлении соответствия кумулятивного процента определенным пунктам избранной стандартной шкалы1.

Разными авторами используются разные стандартные шкалы. Наиболее распространена так называемая Т-шкала с M=50 и σ=10. В тестах Д. Векслера применена, однако, более «грубая» шкала, имеющая M=10 и σ=3.

После перевода в нормализованную шкалу отдельных методик становится возможным вычисление общей оценки уровня умственного развития каждого из детей, входящих в стандартизационную группу. Эту общую оценку принято называть коэффициентом интеллектуальности (IQ). Впоследствии, при массовом применении теста, он выступает в качестве числового индекса, выражающего итог тестового обследования ребенка.

В старых тестовых системах непосредственным результатом обследования являлось установление «умственного возраста», т. е. соответствия уровня решаемости данным ребенком тестовых задач средней норме, установленной для той или иной возрастной группы, что же касается IQ, то он вычислялся дополнительно при помощи деления «умственного возраста» (умноженного на 100) на календарный возраст ребенка. Полученное таким образом IQ-отношение (основанное на представлении об умственном развитии как процессе, который обусловлен чисто внутренними факторами и неразрывно связан с возрастом) рассматривалось в качестве меры нормального интеллекта.

В современных тестах IQ вычисляется другим путем

37

и имеет другое значение. Оценки, полученные каждым ребенком, входящим в стандартизационную группу, по всем методикам и выраженные в стандартных очках, суммируются. Полученная шкала суммарных оценок всех детей подвергается повторной нормализации и переводится в стандартную шкалу, имеющую M=100 и σ=15. Полученная таким образом таблица перевода в такую шкалу суммарных оценок по всем методикам теста и служит в дальнейшем для подсчета IQ обследуемых детей данного возраста. Это — IQ-отклонение, в котором суммарная оценка по тесту, полученная данным ребенком, свидетельствует лишь о совпадении или степени отклонения от «нормы» средней оценки для детей того же возраста, принятой за 100. Теоретическое истолкование может быть самым различным: оно не связано, как в IQ-отношении, с представлением о возрасте как мере интеллекта.

Основным критерием качества разрабатываемых диагностических методик и тестов является степень их надежности и валидности. Под надежностью имеется в виду степень устойчивости, повторяемости результатов, получаемых с помощью данной методики или теста. Надежность методики зависит от однородности задач, их нацеленности на выявление одного и того же психического качества ребенка. Пониженная надежность свидетельствует о значительном влиянии неучтенных случайных факторов на процесс решения задач.

Надежность методики проверяется путем расчета коэффициента надежности (R). Величина R может быть получена тремя разными способами. Первый способ заключается в вычислении линейной корреляции (по Пирсону) между оценками, полученными при двух предъявлениях одной и той же методики одной и той же группе детей. Этот способ требует повторного обследования, которое рекомендуется проводить через такой промежуток времени после первоначального, чтобы дети не воспроизводили старых решений по памяти (чем младше дети, тем меньше может быть промежуток). Его недостатком является возможность влияния на результат повторного обследования знакомства детей с материалом, упражняемости и изменений, которые произошли в развитии детей за прошедший отрезок времени.

При втором способе вычисляется линейная корреляция

38

между оценками, полученными одними и теми же детьми при их обследовании путем предъявления двух равнотрудных вариантов одной и той же методики. Этот способ лишен недостатков, присущих предыдущему, но связан с необходимостью разработки двух равнозначных вариантов методики.

Наконец, третий способ состоит в делении задач, входящих в методику, на две половины (обычно берутся четные и нечетные задачи) и вычислении линейной корреляции между оценками, полученными одними и теми же детьми за каждую половину. При этом, однако, коэффициент корреляции не показывает надежности полной методики, так как его величина закономерно связана с количеством решаемых задач. Поэтому для получения коэффициента надежности в коэффициент корреляции вводится поправка по формуле Спирмена – Брауна, дающая его увеличение, соответствующее увеличению вдвое количества задач в каждой половине методики.

При недостаточной надежности методики существует возможность заранее рассчитать, какое увеличение количества задач приведет к получению желаемой надежности. Жестких норм надежности, при которой методика считается удовлетворительной по этому параметру, не существует. В практике разработки тестов принято считать достаточным R=0,8—0,9. Однако даже в тщательно отработанных тестах для дошкольников (D. Wechsler, 1967; N. Snijders-Oomen, 1966 и др.) отдельные методики имеют более низкую надежность (R=0,5—0,7), хотя надежность теста в целом достаточно высока. Вообще надежность теста в целом, как правило, оказывается выше надежности отдельных методик. Устанавливается она путем повторного тестирования или (в случае, если тест включает два равноценных субтеста) путем сопоставления оценок по ним.

Для того чтобы данные теста были достаточно надежны, необходима максимальная стандартизация условий его проведения. Поэтому в руководствах по применению тестов подробнейшим образом регламентированы все моменты, связанные с процессом тестирования и оценки (инструкция, предлагаемая детям, возможные формы разъяснения, материал, правила проставления баллов и т. п.).

Недостаточная надежность методики может быть повышена

39

как путем добавления к ней новых заданий, так и путем изменения части имеющихся. Проверка пригодности отдельных задач, входящих в методику, производится путем подсчета коэффициентов их трудности и дискриминабельности. Эти коэффициенты основаны на сравнении успешности решения данной задачи детьми, получившими в целом по методике самые высокие и самые низкие оценки (берется 27% лучших и 27% наиболее слабых детей). Максимальную надежность дают задачи средней трудности, обладающие хорошей дискриминабельностью (R. Ebel, 1965).

Валидность — это соответствие методик и теста в целом тем задачам, на разрешение которых они направлены, т. е. возможность выявить при помощи данной методики именно ту сторону умственного развития, которую имел в виду автор теста. Поскольку, однако, в зарубежной диагностике умственного развития каждая методика не имеет, как правило, своих особых задач, а определенное значение придается лишь суммарному результату применения всех методик, вопрос о валидности ставится по отношению ко всему тесту.

Различаются диагностическая и прогностическая валидности теста. Первая отвечает на вопрос об адекватности применяемых методик характеристике уровня умственного развития ребенка в данный момент, вторая — на вопрос о том, могут ли полученные данные использоваться в целях прогноза дальнейшего хода развития.

Предварительно валидность теста обусловливается теоретической обоснованностью избранных показателей и методик. Однако в дальнейшем она проверяется при помощи соответствующих статистических процедур.

Одним из проявлений диагностической валидности тестов умственного развития считается отчетливо выраженное улучшение показателей с возрастом (в случае применения одних и тех же методик).

Другие доказательства диагностической валидности состоят в демонстрации соответствия между оценками, полученными в результате тестирования (IQ), и другими данными об уровне умственного развития тех же детей. Эти данные могут быть самыми различными. Обычно используются оценки, получаемые детьми при применении какого-либо другого старого теста, считающегося достаточно валидным, мнения, высказываемые о детях

40

воспитателями или учителями, успехи, обнаруживаемые детьми в учении и деятельности.

Проверка прогностической валидности производится путем сопоставления IQ, полученных при тестировании детей в определенном возрасте, с их же IQ, установленными при повторных тестированиях (при помощи того же или другого теста через более или менее значительные промежутки времени. Распространено также сопоставление IQ дошкольников с последующей успешностью их школьного обучения1.

Методом расчета при установлении валидности служит вычисление линейной (или ранговой) корреляции между сопоставляемыми данными. Однако для получения высокого коэффициента корреляции сам внешний критерий, используемый для сопоставления с тестовыми оценками, должен обладать достаточной надежностью, расчлененностью и объективностью. Как правило, во всех случаях, за исключением применения другого теста, эти требования соблюсти невозможно. Так, мнения педагогов о детях, результаты наблюдения их деятельности, школьные оценки в значительной мере зависят от субъективных моментов и не обладают достаточной четкостью и однозначностью. Поэтому считается, что в этих случаях коэффициент порядка 0,5 может считаться вполне удовлетворительным2.

Выяснив основные требования, предъявляемые к диагностике умственного развития детей в зарубежной науке и предлагаемые ею способы реализации этих требований, мы поставили перед собой вопрос, можно ли и нужно ли использовать описанные способы при новом понимании существа диагностики или их следует заменить какими-либо другими. Этот вопрос касался прежде всего необходимости сохранения количественной оценки

41

уровня умственного развития в условиях «качественного подхода» к диагностике, учета ее направленности на выявление вполне определенных достижений в умственном развитии. При решении указанного вопроса мы исходили из следующих соображений.

Во-первых, сам процесс развития включает как качественные, так и количественные изменения. Овладение умственными действиями включает качественные преобразования этих действий, но одновременно и степень их «отработанности» на каждом уровне. И этим нельзя пренебрегать. Оценка, предусматривающая только качественные сдвиги в развитии, потеряла бы дифференцирующее значение. Следовательно, она должна одновременно отражать и уровень овладения умственными действиями, и степень продвижения ребенка внутри этого уровня, т. е. количественные изменения.

Во-вторых, внутренние умственные действия, подлежащие оценке, могут быть выявлены только опосредствованно — через решение ребенком тех или иных конкретных задач. Решение же каждой из них зависит не только от тех умственных действий, которые предлагается выявить, но и от множества причин и условий их протекания, которые полностью не поддаются контролю и не связаны с содержанием диагностики. Так, например, на решение может оказывать влияние конкретная форма, в которой представлен материал задачи, состояние испытуемого в данный момент, его отношение к заданию и многое другое. В силу этого обстоятельства связь между выявляемым содержанием и решением диагностических задач является вероятностной, но не абсолютной. Возможность определить размеры случайных колебаний с целью их максимального устранения в настоящее время дают только методы вариационной статистики, основанные на количественной оценке решений.

Применение количественной оценки ни в какой мере не противоречит качественному подходу. Оно является выражением общего требования к диагностике, которая должна, дифференцируя детей по уровням развития, не просто определять, что дети являются в каких-то отношениях разными, но и квалифицировать эту разницу как различное положение на шкале развития (при условии, что пункты этой шкалы различаются между собой качественно). Количественную оценку следует отличать от

42

количественного подхода к диагностике, за которым скрывается понимание умственного развития как более или менее равномерного изменения с возрастом общего «умственного потенциала», измеряемого при помощи любых диагностических методов, удовлетворяющих статистическим критериям.

Придя к выводу о необходимости сохранения количественной оценки в диагностике, мы поставили новый вопрос о том, что и как должно оцениваться.

В традиционных тестах оценка складывается из баллов, начисляемых за решение каждой диагностической задачи и отражающих конечный результат решения, т. е. его успешность. Однако успешность не является ни единственным, ни основным проявлением умственных действий, принимающих участие в решении. Гораздо более важным для их характеристики может являться анализ процесса решения, применяемых ребенком способов. С. Л. Рубинштейн (1960) справедливо указывал, что коренной дефект обычных тестовых определений интеллекта как раз и состоит в попытке определить умственные способности по одному результату деятельности, не вскрывая процесса мышления, который к нему приводит.

Конечно, способ решения конкретного набора задач еще не есть сам способ умственного действия, но он лежит ближе к нему, чем результат. Это привело многих советских психологов к мысли, что качественный характер диагностики требует подхода к оценке решения задач по способу, рассматриваемому как качественная сторона решения (или и по способу, и по результату) (З. Н. Калмыкова, 1970; В. И. Лубовский, 1970; Н. И. Непомнящая, 1975).

Эти соображения побудили нас начать практическую работу по проверке возможности введения количественной оценки способа решения детьми предложенных задач. Прежде всего потребовалось конструирование задач особого типа, позволяющих установить способ решения на основе анализа качественной стороны самого результата решения, в частности характера допущенных ребенком ошибок и распределения полных и частичных правильных ответов по разным вариантам задач. Как выяснилось, задачи другого типа, где способ выступает лишь в процессе решения, который протекает во внутреннем плане, не находя никакого внешнего выражения,

43

вообще не могут использоваться для объективного выявления способа.

Но далее оказалось, что и построение задач, удовлетворяющих указанному требованию, не дает возможности оценки их решения детьми по способу: такая оценка является весьма громоздкой, основанной на специальном анализе особенностей решения ребенком каждой задачи и сопоставлении между собой особенностей решения разных задач, входящих в серию. Далее, установление четкой шкалы числовой оценки решения диагностических задач по способу, учитывающей степень его отработанности, затруднялось тем обстоятельством, что нарушения в применении детьми способа носили самый различный характер, и для их классификации по степени грубости можно было применить лишь весьма условные критерии. При попытке же, пренебрегая нарушениями, оценивать только сам способ (когда имеющиеся способы отнесены к определенной «высоте» уровня овладения умственным действием) обнаружилось, что количество баллов, входящее в оценку, является определенно недостаточным для выявления имеющегося диапазона различий между детьми.

Все это заставило нас убедиться в том, что оценка по способу непригодна для практической диагностики умственного развития, требующей абсолютной объективности, простоты и однозначности критериев начисления баллов, и перейти к общепринятой оценке по результату, в полной мере обладающей этими достоинствами.

Вместе с тем проделанная нами работа по выявлению способов решения детьми диагностических задач показала, что основная характеристика способа решения задач заключается в особенностях ориентировки ребенка на существенные условия задачи. Именно особенности ориентировки могут быть приняты как наиболее прямое выражение степени овладения тем типом умственного действия, к которому адресована серия задач. Что же касается успешности решения задач, то она бесспорно связана с видом ориентировки, но эта связь неоднозначна. Во-первых, при одном и том же виде ориентировки в условиях задания может наблюдаться разная степень точности этой ориентировки, т. е. отработанности способа, который в ней проявляется. Во-вторых, на степень успешности окончательного решения влияет ряд неучитываемых

44

дополнительных причин, в частности наличие случайных ответов.

Отсюда был сделан вывод, что хотя выявление и характеристика способа решения диагностических задач и не могут при практическом применении диагностики явиться основой начисления баллов, в процессе разработки и обоснования диагностических методик они могут и должны быть использованы в качестве важного средства установления валидности, т. е. соответствия количественной оценки по результату оценке, проявляющейся в степени овладения тем типом умственного действия, к которому адресована данная методика.

Процесс разработки и проверки диагностических методик строился в нашей лаборатории следующим образом. Исходя из выделенных нами показателей уровня умственного развития, при разработке каждой методики мы стремились подобрать серию задач, адресованных одному из типов умственных действий, т. е. задач, построенных таким образом, что существенные для их решения условия могут быть выделены только в результате выполнения этого действия. В поисках таких задач мы либо обращались к ранее выполненным экспериментальным исследованиям, специально направленным на изучение соответствующего перцептивного или интеллектуального действия, либо проводили подобные исследования заново. Таким образом, диагностическая валидность методик, их соответствие отобранным показателям умственного развития во всех случаях были заранее установлены экспериментально. Каждая серия задач предусматривала возможность не только полного решения, которое свидетельствовало бы о высшем уровне овладения умственным действием, но и различного рода частичных решений, соотносимых с более элементарными, предварительными уровнями, выделенными нами на основе предшествующего теоретического и экспериментального анализа.

Подобранным задачам придавалась форма, соответствующая условиям проведения работы с детьми разных дошкольных возрастных групп. В силу ряда причин практического характера, после первоначальных проб, проведенных на детях от 3 до 7 лет, мы сосредоточились на разработке методик для четырех- и пятилетнего возраста, затем перешли к разработке методик для шестилетних

45

детей и только после этого для самых младших, трехлетних дошкольников.

Во всех случаях мы использовали задания, требующие выполнения ребенком того или иного практического действия, основанного на соответствующей перцептивной или интеллектуальной ориентировке. Методики, рассчитанные на словесные ответы испытуемых, нами не применялись. Это диктовалось следующими соображениями. Хотя развитие восприятия и мышления в дошкольном возрасте тесно связано с овладением речью, однозначной связи между уровнем речевого и умственного развития ребенка не существует. Поэтому неудачные словесные ответы детей на те или иные вопросы могут быть связаны как с отставанием в умственном развитии, так и с недостаточным развитием самой речи, с неумением выразить словесно необходимую мысль. Поскольку нас интересовала степень развития перцептивных и интеллектуальных действий, использование «вербальных» методик внесло бы дополнительные трудности, связанные с необходимостью анализа причин ошибочных ответов, отнесения их за счет недостатков умственного или речевого развития. В то же время методики, составленные из заданий «практического» типа, ни в коей мере не исключали использование детьми словесных форм рассуждения в процессе их выполнения, хотя и не фиксировали их специально. Это, конечно, не означает, что в дошкольном возрасте вообще не могут быть применены методики, направленные на диагностику овладения речью и собственно речевым мышлением. Однако подобная задача должна рассматриваться как самостоятельная, и ее решение требует проведения дополнительных исследований.

Для детей 4—5 лет разрабатывались одни и те же пять методик, соответствующие пяти выделанным показателям. Задачи включались в привычные и доступные детям виды деятельности — игровую и продуктивную. При разработке методик для детей 6 лет один из показателей — степень овладения наиболее элементарным перцептивным действием идентификации — был опущен и вместо соответствующей методики была введена новая, направленная на выявление степени овладения предпосылками учебной деятельности. Остальным методикам была придана новая форма, приспособленная для группового обследования детей и приближающая условия использования

46

методик к условиям выполнения учебных заданий.

Разработка методик для детей трехлетнего возраста шла в направлении подбора заданий, соответствующих наиболее элементарным уровням овладения умственными действиями каждого из пяти выделенных нами типов, а в отдельных случаях (для действий логического мышления) — предпосылками овладения ими. При этом заданиям придавалась предметно-действенная форма, допускающая использование различного рода внешних проб.

Каждая методика включала набор однородных или постепенно усложняющихся задач, достаточный для такого накопления баллов, которое допускает последующую числовую обработку результатов. При установлении количества задач, входящих в набор, мы пытались учитывать, с одной стороны, необходимость обеспечения надежности методик, увеличивающейся с увеличением этого количества, и, с другой стороны, недопустимость слишком большой длительности обследования и его утомительности для детей, потери ими интереса к выполнению заданий.

При составлении каждой методики устанавливались критерии количественной оценки решения входящих в нее задач по результату и способы выведения общей количественной оценки. Мы старались добиться максимальной объективности и простоты системы оценок, хотя в ряде случаев это было связано с известными трудностями, так как требовалось оценивать не только полную, но и частичную успешность решения.

К каждой методике составлялась инструкция, в которой мы подробно оговаривали порядок и все условия ее применения (способы предъявления задач, инструкцию, которая дается ребенку, меру возможной помощи, форму протокола и т. д.).

После разработки методик и инструкций следовала первоначальная экспериментальная проверка методик на сравнительно небольших группах детей (20—30 человек) соответствующего возраста. В ходе такой проверки устанавливались понимание детьми задания, их отношение к его выполнению, степень успешности решения предложенных задач, характер возникающих у детей затруднений, степень утомляемости и др. Данные, полученные

47

при проверке, подвергались первоначальной статистической обработке (подсчетам M, σ и R), позволявшей дать ориентировочную оценку некоторых параметров методики (ее трудности, дискриминабельности и надежности). В случае надобности в методику вносились те или иные изменения, после чего проверка повторялась. Это могло происходить неоднократно, вплоть до получения удовлетворительных результатов по всем параметрам.

Полученные таким путем варианты диагностических методик подвергались массовой проверке (на значительном количестве детей), преследующей цель накопления материала, достаточного для обоснования статистической оценки качества каждой методики, а в отдельных случаях — также и предварительной стандартизации всей системы методик1.

При составлении стандартизационных групп мы исходили из иных принципов, чем те, которые приняты в зарубежной науке. Эти принципы определялись особым подходам к пониманию возрастной нормы, вытекающим из общего понимания закономерностей психического развития ребенка и задач диагностики, изложенного в главе I.

Основным (если не единственным) фактором умственного развития для зарубежных составителей тестов является возраст. Это далеко не всегда провозглашается теоретически, но чрезвычайно четко проявляется в практике стандартизации и установления норм. Стандартизационные группы подбираются строго по признаку равенства возраста (с колебаниями, не большими чем ± 2 месяца); нормы выводятся для детей каждого полугодия, а часто и для каждой четверти года жизни (4—4,25; 4,5—4,75—5 лет). Если, однако, признать, что умственное развитие определяется не возрастом самим по себе, а условиями жизни в обществе, воспитанием и обучением, подобная фетишизация возрастного фактора теряет всякий смысл. В многочисленных экспериментальных исследованиях советских авторов, посвященных разным сторонам умственного развития ребенка, неоднократно обнаруживалось, что достигнутый уровень лишь в самой

48

общей тенденции связан с возрастом, как таковым (да и то, по-видимому, не прямо, а косвенно — через накопление опыта и изменение условий развития), решающее же значение имеют особенности воспитания и обучения.

Опираясь на эти данные, мы решили в качестве основной единицы для установления норм избрать возрастную группу детского сада, независимо от календарного возраста входящих в нее детей. Поскольку детские сады нашей страны работают по единой государственной программе (с небольшими вариациями для разных союзных республик), именно группа детского сада создает наиболее однородные условия воспитания детей. И это типичные условия, поскольку детскими садами уже сейчас охвачено около половины дошкольников, а в ближайшие годы охват детей дошкольными детскими учреждениями будет неуклонно возрастать. Вместе с тем уровень развития детей, достигаемый в условиях детского сада, может с полным основанием являться, да и реально является, тем уровнем, на который ориентируется семья в отношении детей, не посещающих детские сады. Различного рода руководства и методические материалы для родителей, выпускаемые нашей печатью, исходят именно из программы воспитания в детском саду, приспосабливая ее требования к условиям семьи.

Справедливость выбора возрастной группы детского сада, а не календарного возраста ребенка в качестве исходного пункта для установления норм подтвердилась впоследствии, когда, уже после разработки соответствующих методик, мы провели сравнение уровня умственного развития детей одного и того же календарного возраста, воспитывающихся в разных группах детского сада (средней и старшей), и детей с полугодовой разницей в возрасте, воспитывающихся в одной и той же группе.

Нами было отобрано 48 детей в возрасте от 5 до 5,5 лет, 11 из которых являлись воспитанниками старшей группы, а 37 — воспитанниками средней группы. Обследование этих детей при помощи пяти диагностических методик показало, что по результатам четырех методик имеется различие средних в пользу воспитанников старшей группы, статистически значимое при p≤0,001, и по результатам одной методики — различие, не достигающее 95% уровня значимости (т. е. p≤0,05). Затем результаты тех же 37 детей из средней группы были сопоставлены

49

с результатами 64 детей в возрасте от 4,5 до 5 лет, также воспитывавшимися в средней группе. На этот раз только по данным одной из пяти методик обнаружилось статистически значимое различие в пользу пятилетних детей, по данным двух методик различие было незначительным, по данным еще одной методики его не обнаружилось вовсе, и, наконец, одна методика выявила фактически значимое различие в пользу младших четырехлетних детей. Итак, сравнение показало, что влияние воспитательных условий явно перекрывает влияние возраста в пределах полугода, причем последнее является вообще незначительным.

Эти соображения привели нас к решению формировать стандартизационные группы из детей, воспитывающихся в определенной возрастной группе детского сада. При этом мы сочли допустимым брать только городские детские сады, где воспитательная работы по программе ведется на более высоком уровне, считая, что именно этот уровень воспитательной работы может рассматриваться в качестве достаточного для полноценной реализации программы, и в ближайшие годы к нему подтянутся и сельские детские учреждения1.

При этом мы учитывали, что дети из сельских дошкольных учреждений и дети из семьи при последующем практическом применении диагностики окажутся в невыгодном положении, так как их оценки будут сопоставляться с несколько завышенной для них нормой. Однако для нас это не выступало в качестве недостатка, поскольку задачей нашей диагностики отнюдь не являлось определение индивидуальных способностей детей «вообще», в отрыве от условий их воспитания.

По материалам, полученным при стандартизации, вычислялись M, σ и R и производился перевод «сырых» очков по каждой методике в нормализованную стандартную шкалу.

Для вычисления коэффициента надежности методики

50

(R) при обработке результатов как экспериментальных, так и массовых проверок применялся, как правило, метод расчета линейной корреляции между оценками, полученными детьми за решение задач, входящих в две половины методики, с последующим внесением соответствующей поправки. В ряде случаев применялось также повторное обследование тех же детей и расчет линейной корреляции между результатами двух проверок.

В качестве нормализованной стандартной шкалы нами применялась шкала с M=10 и σ=3 (D. Wechsler, 1967). Перевод «сырых» очков в эту шкалу производился на основе расчета кумулятивного процента детей, соответствующего каждому пункту исходной шкалы «сырых» баллов, и последующего использования следующей таблицы, выражающей соответствие кумулятивного процента стандартным оценкам на основе свойств нормальной кривой распределения.

 

Кумулятивный процент

Стандартные баллы

Кумулятивный процент

Стандартные баллы

0,1—0,2

1

44,1—55,9

10

0,3—0,5

2

56,0—67,3

11

0,6—1,5

3

67,4—80,2

12

1,6—3,2

4

80,3—87,4

13

3,3—6,0

5

87,5—92,6

14

 6,1—12,5

6

92,7—96,7

15

12,6—19,7

7

96,8—98,4

16

19,8—29,1

8

98,5—99,2

17

29,2—44,0

9

99,3—99,7

18

99,8—99,9

19

Перевод данных, полученных при массовой проверке методик, в эту шкалу не только приводит к возможности сопоставления оценок, полученных детьми по разным методикам, и возможности их суммирования, но также является дополнительным средством проверки дискриминабельности методик: если методика является слишком легкой и не дифференцирует сильных детей, конечный участок стандартной шкалы остается незаполненным (высшая оценка в «сырых» баллах соответствует не 19, а 15—16 стандартным баллам). Слишком трудная методика, не дифференцирующая слабых детей, наоборот, оставляет незаполненным начальный участок стандартной шкалы (наиболее низкая, нулевая оценка в «сырых» очках соответствует не 1, а более высокому

51

стандартному баллу). Возможно и сочетание обоих случаев, свидетельствующее о недостаточном разбросе «сырых» баллов. Наконец, слишком значительное количество детей, получивших одинаковые оценки в «сырых» баллах, и недостаточное количество получивших другие оценки выражается в незаполненности тех или иных промежуточных участков стандартной шкалы.

После перевода данных по отдельным методикам в стандартную шкалу выводилась шкала общих суммарных показателей по всей системе методик, направленных на выявление уровня умственного развития детей, использовавшаяся затем для установления валидности системы и для других целей. Мы, однако, решили не выражать общие показатели в общепринятой шкале IQ, а употребить ту же стандартную шкалу, которая применялась для отдельных методик с M=10 и σ=3. Использовалась обычная процедура суммирования стандартных очков и последующей повторной их нормализации.

При подсчете общих показателей в систему не включалась методика, предназначенная для выявления степени овладения предпосылками учебной деятельности в подготовительной к школе группе детского сада. Данные по этой методике всегда учитывались отдельно, и к ней прилагались несколько иные критерии, чем к остальным методикам. Задание, которое давалось детям в этом случае, было прямо адресовано к определенной группе умений, причем предполагалось, что эти умения необходимы ребенку для перехода к систематическому учению, хотя в настоящее время они формируются не в полной мере и далеко не у всех детей. Такое определение содержания задания не позволяло, в частности, в полной мере применять к методике обычный критерий дискриминабельности, так как получение какой-либо частью детей высшего балла было заведомо возможно и желательно, а это снижало дифференцирующую силу методики, не допуская разграничения наиболее продвинутых дошкольников.

В случаях, если результаты массовой проверки обнаруживали недостатки той или иной методики, остававшиеся скрытыми при экспериментальных проверках в силу незначительности использовавшихся в них выборок (пониженная надежность, дискриминабельность и др.), методика подвергалась дальнейшей переработке, затем

52

снова экспериментальным проверкам и далее поступала в новую массовую проверку, проводившуюся с применением нескольких или всех методик. В результате массовые проверки системы методик производились нами неоднократно в разных вариантах. Соответственно, каждый раз осуществлялась стандартизация, имевшая, однако, предварительный характер. Окончательная стандартизация системы методик для детей всех возрастных групп производилась в октябре 1974 г. и в мае — июне 1975 г. На основе этих стандартизаций были получены нормативные стандартные шкалы для обследования детей в начале и конце учебного года.

В процессе переработки отдельных методик, которая производилась многократно, применялись как содержательный анализ задач, входящих в методику, так и (в случае необходимости) статистическая оценка их трудности и дискриминабельности с использованием расчета соответствующих коэффициентов.

Наиболее пристальное внимание уделялось нами установлению валидности разрабатываемых методик. При содержательном качественном подходе к диагностике проблема валидности приобретает новый смысл. Речь уже идет не только о том, отражает ли система методик в целом общий уровень умственного развития ребенка, но и о том, соответствует ли каждая методика вложенному в нее содержанию, т. е. действительно ли она «схватывает» степень овладения тем видом умственного действия, на выявление которого направлена.

Как уже говорилось выше, при конструировании методик мы пользовались заданиями, которые служили ранее материалом экспериментальных исследований, направленных на изучение соответствующих умственных действий ребенка. Таким образом, уже в самом истоке создания диагностики умственного развития была как бы заложена основа валидности методик, опирающаяся на прочный научный фундамент. Особенно важным моментом здесь являлось то, что в исследованиях, служивших для нас отправной точкой, адекватность заданий соответствующим умственным действиям доказывалась при помощи формирующих экспериментов, демонстрирующих закономерный рост успешности выполнения задания при целенаправленном формировании умственного действия определенного типа.

53

Однако в процессе разработки и экспериментальной проверки методик задания подвергались существенному изменению. В связи с этим неизбежно возникал вопрос, сохранилось ли исходное соответствие методики и того умственного действия, к которому она адресована, выражает ли числовая оценка степень овладения этим действием. Для ответа на этот вопрос мы решили использовать метод, основанный на обсуждавшемся ранее соотношении способа и результата решения ребенком диагностических задач. Поскольку способ решения, т. е. вид ориентировки в условиях задания, которую осуществляет ребенок, в достаточной мере выражает степень овладения соответствующим умственным действием, в качестве критерия валидности методики в указанном выше смысле была принята степень, в которой количественная оценка решения диагностических задач по результату зависит от способа решения. Для применения этого критерия был разработан метод, условно названный качественным анализом методики.

После экспериментальной и массовой проверки методики проводился дополнительный анализ материала с точки зрения применявшихся детьми способов выполнения задания. Количество способов, психологическая характеристика каждого из них и оценка его места по отношению к другим способам определялись на основе анализа и сопоставления всех решений и выделения их основных типов в соответствии с имеющимися теоретическими и экспериментальными данными об уровнях овладения соответствующим видом умственного действия, т. е. в известном смысле повторялась та «проекция» предварительной теоретически-экспериментальной конструкции в диагностическую практику, которая осуществлялась при построении серии задач, но теперь она повторялась как бы «снизу вверх» на реальном материале, полученном при решении этих задач детьми.

Следующий этап работы представлял собой распределение всех испытуемых по группам, соответствующим каждому из выделенных способов (и предположительно — каждому из уровней овладения данным видом умственного действия). Этот этап содержал свои трудности, так как далеко не все дети обнаруживают один и тот же способ при решении всех задач, входящих в серию, а применение более «высокого» способа с рядом

54

ошибок иногда трудно отличить от безошибочного применения более «низкого» способа. Поэтому не только выделение способов, но и разбивка испытуемых на группы в соответствии с уже выделенными способами являлась весьма сложной исследовательской задачей, которая решалась по-разному в зависимости от специфики каждой методики.

После формирования групп испытуемых по способу производилось определение статистически значимой разности средних оценок по результату между этими группами, различающимися по способу. Разность оценивалась по критерию t Стьюдента. В качестве критерия достаточной валидности методики с точки зрения «соответствия количественных результатов качественным» применялось наличие достоверной разницы средних при p≤0,051.

Указанный прием установления валидности отдельных методик применялся нами ко всем методикам, направленным на установление уровня умственного развития, но не применялся к методике, направленной на установление степени овладения предпосылками учебной деятельности, поскольку в ней способ и результат выполнения задания практически совпадали.

Наряду с описанным способом проверки валидности путем внутреннего анализа отдельных методик, нами применялись и другие общепринятые методы установления диагностической и прогностической валидности, основанные либо на сравнении результатов применения одних и тех же методик при обследовании детей, воспитывающихся в разных условиях, либо на привлечении тех или иных «внешних» критериев.

Изложение хода и результатов описанных видов работы содержится в последующих главах. Главы III—VIII посвящены разработке и проверке отдельных методик, глава IX — проверке обоснованности всего их комплекса.

55