Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ivanter2000_vved_v_kolich_biol

.pdf
Скачиваний:
16
Добавлен:
14.04.2015
Размер:
3.42 Mб
Скачать

12

выбор вида статистической задачи

выдвижение нулевой гипотезы

решение по алгоритму

статистический вывод

ответ на вопрос.

Конкретизация. Формулирование биологической задачи, требующей статистического решения, определения объекта исследования, характеристика условий (факторов, методов) получения выборки, определение численно выраженных свойств и признаков, явное определение отдельной варианты (объекта измерения) и всей выборки вариант. Подготовка данных для последующей обработки.

Формализация. Этот этап требует отойти несколько от биологического содержания задачи и дать ответы на вопросы общего характера "Что доказать?" и "Что описать?", предшествующие выбору конкретного статистического метода.

Ответ на вопрос "Что доказать?" помогает явно назвать один из четырех типов биометрических задач: доказать чужеродность варианты (принадлежность к классу вариант), доказать отличие двух выборок, доказать влияние фактора (отличие нескольких выборок),

доказать зависимость признаков.

Ответ на вопрос "Что описать?" заставляет сделать выбор того обобщенного показателя, который интересует исследователя: описание может касаться величины признака (оценивается средней), его изменчивости (оценивается дисперсией), распределения частот (выражается вариационным рядом), выборки в целом (выражается совокупностью ранжированных вариант).

Выбор вида статистической задачи. В зависимости от характера имеющихся данных, способа описания и установленной задачи подбирается тот или иной статистический метод. Именно здесь отчетливее всего проявляются уровень биометрической подготовки исследователя, его профессионализм и мастерство, наконец, чутье на адекватный статистический метод. В этом смысле биометрия выступает как своеобразное искусство постановки статистической задачи. Вместе с тем многие биологические задачи решаются по принципу аналогии. Это позволяет предложить "Определитель статистического метода", несколько формальных критериев подбора адекватного статистического приема (табл. 1.1), включая как раз те

13

распространенные статистические приемы, что рассмотрены в настоящем пособии. С помощью этой таблицы можно предварительно подобрать метод, способный решить поставленную задачу, а затем уже непосредственно перейти к вычислительным процедурам по приведенным в книге алгоритмам.

Таблица 1.1

Что доказать?

Что изучено?

Метод

Чужеродность

 

Сравнение средней и

варианты в

Величина

варианты

выборке

 

 

 

 

Величина

Сравнение средних

 

арифметических

 

 

 

Изменчивость

Сравнение дисперсий

Достоверность

 

 

Распределени

Сравнение эмпирического и

отличия двух

е частот

теоретического распределений

выборок

 

Сравнение двух эмпирических

 

 

 

 

распределений

 

В целом

Сравнение двух наборов

 

значений

 

 

 

Величина

Дисперсионный анализ

Достоверность

 

 

Изменчивость

Сравнение серии дисперсий

 

отличия

 

 

Распределени

Сравнение нескольких

нескольких

е частот

эмпирических распределений

выборок

В целом

Непараметрический

 

 

дисперсионный анализ

 

 

Достоверность

 

 

влияния фактора

Величина

Дисперсионный анализ

на признак

 

 

Достоверность

 

 

влияния

Величина

Регрессионный анализ

признака на

 

 

 

признак

 

 

Достоверность

 

 

сопряженности

Величина

Корреляционный анализ

варьирования

 

 

14

двух признаков

Выдвижение нулевой гипотезы. Этот этап призван дать четкую статистическую формулировку поставленного вопроса. Нулевая гипотеза – это предположение об отношениях объектов, выраженное в терминах статистики и предназначенное для дальнейшей статистической проверки. Во введении уже упоминалось, что математическая статистика изучает случайные события, процессы и явления, поведение случайных величин. При этом она пытается отделить случайность от закономерности, случайные причины от систематических, доминирующих.

С позиций случайного, вероятностного характера явлений исходит и нулевая гипотеза. В самой общей форме эта гипотеза звучит так: "Отличия недостоверны". Согласно ей, например, наблюдаемые отличия двух выборок являются случайными, различия между выборочными параметрами есть ошибки репрезентативности; в действительности обе выборки вместе составляют один и тот же однородный материал и принадлежат к одной генеральной совокупности. В процессе статистического анализа нулевая гипотеза либо отвергается (опровергается, отклоняется), и тогда различия считаются достоверными, либо принимается (сохраняется). Последнее, однако, не означает доказательства случайности различий (их отсутствия), а лишь говорит о том, что при данном объеме и качестве материала различия остаются недоказанными. Опираясь на полученный в процессе научной работы материал, статистика способна лишь доказать выдвинутые гипотезы или же отсеять и отвергнуть те предположения, для которых недостаточно информации, отделить, как зерна от плевел, истинные отличия от случайных, привнесенных неучтенными факторами, вычленить реальную закономерность из обилия сырого экспериментального материала.

Решение по алгоритму. Реализация одного из алгоритмов статистических расчетов. Приведенные в книге алгоритмы вычислений, как правило, снабжены числовыми примерами, и их использование не должно вызывать особых затруднений. Однако при "ручном счете" возможны небольшие технические ошибки, способные, тем не менее, привести к неправильным результатам. Чтобы избежать этих ошибок или, по крайней мере, не пропустить их при вычислениях,

15

необходимо придерживаться нескольких правил. Так, арифметические ошибки нетрудно выявить, если еще до начала расчетов ориентировочно прикинуть ожидаемый результат. Для этого полезно дважды пересчитывать рабочие формулы, меняя местами слагаемые и сомножители. При использовании стандартных формул целесообразно вначале выписать их в символьной форме и лишь затем подставлять числовые значения. Очень важно также не путать сумму квадратов (Σx²) с квадратом суммы ((Σx)²) вариант, объем выборки (n) с числом градаций или групп (k). Вероятность правильного ответа увеличится, если формировать таблицы вычислений по приведенному в книге алгоритму полностью. При этом полезно проверять схождение сумм по строкам и столбцам, а вычисленных величин – по модели анализа. Например, при вычислении критерия хи-квадрат сумма частот эмпирического распределения должна точно совпадать с суммой теоретических частот. На ошибку в расчетах, как правило, указывает большое различие эмпирических и теоретических частот распределения, а также несовпадение величины исходного признака с рассчитанным по регрессионной модели. Кроме того, подозрение на допущенную ошибку должны вызывать отрицательные суммы квадратов (за исключением регрессионного и корреляционного анализов) и минусовые значения критерия Стьюдента (его всегда берут по модулю), а также величины, в десятки и сотни раз превышающие табличные. Наконец, следует помнить, что если "на глаз" распределение количественных признаков приближается к нормальному, то стандартное отклонение примерно равно четверти от всего размаха выборки: S≈(max–min)/4. Только распределение Пуассона имеет равные среднюю и дисперсию (MS²). Эффективен контроль за результатами и с помощью графических возможностей Excel. В частности, для контроля правильности применения критерия хиквадрат необходимо сравнивать гистограммы эмпирических и теоретических частот.

Статистический вывод. Статистический вывод служит главным результатом статистического анализа – это заключение о справедливости или опровержении нулевой гипотезы. Строится он на основе сравнения полученной (эмпирической) величины статистического критерия с табличной (теоретической). Если вычисленные значения критерия больше табличного, говорят о

16

достоверном отличии (влиянии, исключении), если же меньше, то нулевая гипотеза остается в силе. Это позволяет использовать статистический критерий для опровержения нулевой гипотезы. Когда статистический вывод отвергает нулевую гипотезу, отличия выборок считаются доказанными, если же не отвергает, то отсутствие отличий доказанным не считается. На практике для правильного статистического вывода можно воспользоваться упрощенной схемой сравнения эмпирических значений критерия с табличными (рис. 1.1). Числа 0.95 и 0.05 – это доверительная вероятность и уровень значимости (вероятность правильности или неправильности вывода). Разместив в этой схеме табличные и эмпирические значения критериев, нетрудно заметить, что вычисленная величина лежит правее табличной, в критической области, а это говорит о достоверности отличий сравниваемых параметров, в данном случае двух средних арифметических.

95%

5%

отличия недостоверны

отличия достоверны

табличное значение

Рис. 1.1. Схема использования критериев. Отмечены критические зоны для уровней значимости α = 0.05 и α = 0.01 (доверительные вероятности Р = 0.95 и Р = 0.99). Границами зон служат значения критериев из таблиц Приложения при данном уровне значимости. Если вычисленные величины критерия попадают в критическую зону (правее табличных), значит, отличие сравниваемых параметров достоверно

Сказанное можно проиллюстрировать следующим примером. Пусть при сравнении двух средних арифметических нулевая гипотеза состояла в том, что отличие средних арифметических случайно. В расчетах было получено значение критерия T = 3.5. Табличная величина для этого случая равна T = 2.1. Поскольку полученное

17

значение критерия (3.5) больше табличного (2.1), можно утверждать, что эти средние арифметические достоверно отличаются. Слово "достоверно" значит буквально "статистически доказано": отличие двух сравниваемых средних и без того бросалось в глаза, но лишь статистическое доказательство показало реальность этих различий, позволило распространять конкретный вывод на все явление. Критерий доказал, что отличие средних не случайно, а закономерно.

Какую роль играют отмеченные на схеме значения вероятностей? Это станет ясным из следующих рассуждений. Статистический вывод можно сделать с разной степенью достоверности, иначе говоря, – с разной степенью уверенности, или вероятности. Можно быть уверенным в правильности вывода на 95% (тогда доверительная вероятность Р = 0.95) или на 99% (Р = 0.99). Аналогично говорят о степени "неуверенности", иначе – об уровне значимости. Его значения обычно берут равными 5%, 1%, 0.1% (или соответственно α = 0.05, α = 0.01, α = 0.001). Если точность проведения наблюдений или экспериментов невысока, если требуемый вывод не нуждается в особой точности (обычные условия проведения биологических исследований), то выбирается уровень значимости α = 0.05. В таблицах Приложения приведены значения критериев при разных уровнях точности и числе степеней свободы. Чем выше требуется точность вывода, тем выше берут табличное значение критерия. Это понятно: чем точнее и ответственнее должен быть вывод, тем жестче требования к критерию. Подробнее статистический смысл уровня значимости объясняется в специальных математических руководствах. Для практического же понимания достаточно знать, что уровень значимости – это приблизительная ожидаемая ошибка (ее вероятность) наших выводов. И с этой позиции 5% – достаточно мало.

Понятие числа степеней свободы – это число вариант (градаций, групп, случаев, т. е. объем выборки) без числа ограничивающих условий – конкретнее будет рассмотрено ниже.

Ответ на вопрос. Формулируется биологическое утверждение, доказанное статистически. Если удалось доказать достоверность неких отличий, то для биолога принципиально важна их направленность, не только факт отличий, например, средних арифметических, но и как именно они отличаются, какая величина превышает другую. Биологический ответ есть, по существу, перифраза статистического

18

вывода, "одетого" в биологические термины и поэтому приобретающего биологический смысл и содержание.

7. Интерпретация результатов обработки. Биологическая интерпретация основывается на полученном статистическом выводе. Если он не отвергает нулевую гипотезу, то важных с биологической точки зрения заключений сделать нельзя. Дело в том, что, несмотря на сохранение гипотезы о случайности отличия (влияния) показателей, мы не можем быть в этом полностью уверены. Возможно, в нашем распоряжении просто оказалось недостаточно данных, чтобы получить точный показатель и сделать достоверный вывод. В этой ситуации остается продолжить исследование, которое, впрочем, может быть спланировано более оптимальным образом.

Если же статистический анализ выявил достоверность отличия, влияния или необходимость выбраковки варианты из совокупности, то это дает основание сформулировать более содержательное и убедительное биологическое заключение, в частности, рассматривать выявленные отличия как результат действия какого-то систематического фактора, интерпретировать зависимость как биологическую закономерность, говорить об особых свойствах "выпадающей" из совокупности объекта, варианты.

Решить статистическую задачу, т. е. доказать достоверность отличий статистических параметров, не так уж и сложно, достаточно грамотно сформулировать ее условия и провести соответствующие вычислительные процедуры. Труднее установить, за счет чего эти различия возникли. Действительно ли это следствие объективной биологической закономерности или же результат неточно проведенного опыта, неконтролируемых (и неучтенных) условий, разных навыков у исполнителей и т. д. Для выяснения данного вопроса приходится контролировать всю информационную "атмосферу" в момент получения данных, как теоретические посылки, так и условия, при которых данные были получены. В этом случае удается правильно понять причины варьирования признаков, направления их изменчивости и в конечном итоге объяснить биологическое содержание формальных статистических выводов.

19

2

ВЫБОРКА И ЕЕ СТАТИСТИЧЕСКОЕ ОПИСАНИЕ

Биометрическое исследование в центр внимания всегда ставит выборку. В статистическом смысле выборка – набор чисел, множество значений случайной величины, совокупность вариант; отдельная варианта – это число. С предметной стороны, варианта предстает как объект, носитель числа, а выборка – как группа объектов. В процессе формирования выборки участвует несколько агентов, которые необходимо иметь в виду для правильной интерпретации различий между выборками. Основная особенность выборки как множества значений случайной величины – это отличие отдельных вариант друг от друга, явление изменчивости.

Процесс формирования выборки

В поисках причин варьирования детально рассмотрим отдельную варианту, единичное значение – число.

Для понимания структурно-логической сущности числа в биометрическом исследовании требуется привлечение как минимум четырех понятий: объект, признак, фактор, метод; вместе они образуют элементарный фрейм, логическую структуру минимального размера, необходимую для понимания существа процесса появления выборки.

 

объект

 

 

 

Рис. 2.1. Элементарный фрейм

метод

число

признак биометрического исследования

фактор

Число есть количественное выражение признака некоего объекта, полученного при данном уровне фактора внешней среды вполне определенным методом. С помощью этого фрейма очень просто показать основные направления тиражирования чисел, т. е.

20

набора множества вариант, формирующих выборки, а также основные трудности с этим связанные.

Метод

Процедура получения чисел (вариант), включающая субъекта, методику, инструмент их измерения и регистрацию. Простейший способ получения выборки – использование разных методов измерения одного и того же объекта. В этом случае отличия повторных примеров будут характеризовать разнокачественность применяемых методик, инструментов или уровни навыка участвующих исполнителей. При этом разные методы обладают разной способностью сообщить вариантам случайные ошибки (неточность оценок) и систематические ошибки (смещение оценок). По этой причине те выборки, варианты которых получены разными методами, обладают заведомо большей изменчивостью, чем выборки методически однородные. Рассмотренная тема приводит к очевидной рекомендации – для формирования сравнимых выборок использовать единую методику, одинаковый инструмент, "одни руки"; это, впрочем, далеко не всегда возможно.

Приступая к составлению выборки, метод ее получения следует соотнести с теми статистическими методами, что планируются для анализа количественных материалов, – не исключено, что выбранная процедура измерений не годится для формирования корректных выборок. Грубые методы (оценки "на глаз") позволяют дать только грубые оценки – качественные, или баллы; точные инструментальные методы позволяют получать гораздо более эффективные характеристики в форме непрерывных признаков, дробных чисел. В частности, балльные оценки можно статистически исследовать только с помощью непараметрических приемов, тогда как для непрерывных количественных признаков можно использовать, кроме того, точные и высокоэффективные параметрические методы.

Важно отметить, что точность инструмента измерения и точность метода измерения – разные понятия. В первом случае говорят о технической характеристике. Под точностью метода подразумевается понятие точности (погрешности) измерительной процедуры, т. е. возможность воспроизведения тех же результатов при повторном измерении одного и того же объекта. Помимо точности

21

(состояния) прибора здесь фигурируют еще и навыки исследователя, и точность инструкции, и особенности условий проведения измерений (влажность, радиация и др.). Можно поэтому утверждать, что точность метода всегда ниже, чем точность инструмента. Это значит, что биологам нет смысла проводить измерения очень точными приборами, если сама процедура измерения предполагает широкое варьирование. В частности, длина тела мелких млекопитающих многими зоологами измеряется штангенциркулем. Во время измерения зверек лежит на столе. При этом у зверьков, попавших в давилки недавно, еще не проходит трупное окоченение, и их позвоночник физически невозможно "распрямить", тогда как мышцы немного "лежалых" зверьков расслабляются и позвоночник выпрямить просто. Промеры зверьков "разной свежести" обязательно дадут отличающиеся результаты с погрешностью 1–2 мм. Зачем в таком случае использовать штангенциркуль с ценой деления 0.1 мм, если удобнее (проще и быстрее) проводить измерения этих мелких животных на миллиметровой бумаге? На наш взгляд, точность измерительного инструмента (и трудоемкость измерения) должна быть соотнесена с погрешностью самой процедуры измерения. В любом случае выбор в пользу того или иного метода регистрации вариант (чисел) требует предварительной оценки их погрешности (причем разными исполнителями, дабы не превращать науку в искусство).

Признак

Признак (свойство, показатель, величина, характеристика, переменная) – любая информация о наблюдаемом объекте, выраженная качественно или количественно определенная. В рамках вариационной статистики любые признаки выступают в роли случайной величины. Случайная величина – численная характеристика, принимающая те или иные заранее точно не известные значения. Несмотря на то, что точное описание поведения случайной величины получить нельзя, статистика способна выполнить вероятностное описание, позволяющее за множеством частных случаев увидеть их единство и дать довольно точные интервальные предсказания, решить поставленные биологией вопросы. Максимально

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]