Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информатика

.pdf
Скачиваний:
144
Добавлен:
20.05.2015
Размер:
4.62 Mб
Скачать

61

производятся в килограммах, то единица измерения дисперсии будет «килограмм в квадрате».

Стандартное отклонение. Стандартное (среднеквадратичное) отклонение ( ) – это положительный квадратный корень из дисперсии. Оно вычисляется в тех же единицах (размерностях), что и исходные данные и характеризует степень рассеивания вариационного ряда вокруг средней. Чем меньше , тем более типична, точна средняя.

На практике часто приходится сравнивать изменчивость признаков, выраженных разными единицами, например, рост в см и масса в кг. Если разделить стандартное отклонение на среднее арифметическое и выразить результат в процентах, получится коэффициент вариации. Он является мерой рассеяния, не зависящей от единиц измерения (безразмерной) (5.3).

 

Cv

 

100%

(5.3).

 

 

 

 

 

 

При CV 10%

наблюдается

слабое разнообразие признака, при

10%<Cv<20% – среднее

разнообразие

признака, при CV 20% – сильное

разнообразие признака.

Стандартная ошибка среднего. Случайные ошибки выборок возникают за счет того, что для анализа всей совокупности используется только ее часть. Хотя выборочный метод и позволяет обоснованно судить о средней арифметической некоторого количественного признака генеральной совокупности по средней арифметической, исчисленной по выборке, это, однако, не означает, что выборочная средняя совпадает с генеральной средней. Она, как правило, в той или иной степени от нее отличается. Величина ошибки выборки представляет собой разность между генеральной и выборочной средними. Ошибки выборки различны для каждой конкретной выборки и в принципе могут быть обобщенно охарактеризованы с помощью средней из всех таких отдельных ошибок. В математической статистике получены формулы, которые позволяют приближенно вычислить среднюю ошибку выборки, основываясь на данных только той выборки, которая имеется в распоряжении исследователя.

Стандартная ошибка среднего отражает точность оценки среднего значения признака в популяции по его выборке. Небольшая стандартная ошибка (существенно меньше соответствующего среднего значения) означает достаточно точную оценку. Стандартная ошибка уменьшится, т. е. оценка станет более точной, если объем выборки увеличится или данные имеют небольшое рассеяние (дисперсию). При неограниченном увеличении объема выборки стандартная ошибка среднего обращается в 0. Следовательно, эта величина не имеет никакого биологического смысла.

Cтандартная ошибка среднего арифметического может быть найдена по

 

(x)

 

 

 

 

 

 

 

 

 

 

формуле (5.4):

 

 

,

(5.4)

 

n

 

 

где – среднее квадратическое отклонение, n – количество параметров в выборочной совокупности.

62

Доверительный интервал. Выборка из популяции позволяет получить точечную оценку интересующего нас параметра и вычислить стандартную ошибку для того, чтобы указать точность оценки. Следует отметить, что для большинства исследований стандартная ошибка как таковая неприемлема, поскольку она, в отличие от стандартного отклонения, не отражает вариабельности в значениях данных. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции. Для этого нужно вычислить доверительный интервал (ДИ), который дает вероятное значение верхней и нижней границ оцениваемой неизвестной величины, что позволяет заявить: «Я утверждаю, что точное значение неизвестной величины с определённой вероятностью (чаще всего эта вероятность составляет 0,95) находится между этими двумя числами».

Обычно доверительные интервалы показывают, насколько надежной в действительности является статистическая оценка. Например, утверждение, что в результате проведения лечебных мероприятий у группы больных (табл. 5.1) среднее значение АД = 119,5 мм рт.ст. содержит некоторую определенную информацию. Однако утверждение, что врач на 95% уверен в том, что истинное (среднее популяционное) АД будет находиться в пределах от 115 до 125 мм рт.ст., позволяет сделать гораздо более глубокие выводы об эффективности лечения (рис.5.3).

Доверительный интервал визуально удобно представлять в виде ящика с усами. Ящик с усами (англ. box-and-whiskers plot, box plot) – график, компактно изображающий одномерное распределение вероятностей. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим.

В случае нормального распределения «ящик» рисуется на промежутке ( tm; tm) , где t – коэффициент Стьюдента – величина, зависящая от объема выборки (или соответствующего числа степеней свободы) и выбранного уровня доверительной вероятности, определяется по таблицам распределения Стьюдента; а m – стандартная ошибка среднего. Внутри «ящика» проводится риска – среднее арифметическое (рис. 5.3).

Рис. 5.3. Доверительный интервал для среднего в случае нормального распределения.

63

В случае распределения, отличного от нормального, вычисляют медиану x50, квартили (x25, x75) и статистически значимый диапазон — например:

;

.

«Ящик» рисуется от квартиля до квартиля, внутри него проводится риска

– медиана. «Усы» тянутся от квартилей до статистически значимых крайних точек x1 и x2. Не входящие в статистически значимый диапазон точки (выбросы) изображаются отдельно (рис. 5.4).

Рис. 5.4. Доверительный интервал для среднего (медианы) в случае распределения, отличного от нормального.

Доверительные интервалы представляют оценку в некоторой перспективе и позволяют избежать необходимости указывать одно и то же число как точное значение, в то время как фактически в биологии это число точным никогда и не является.

При интерпретации ДИ исследователь формулирует следующие вопросы:

1.Насколько широк ДИ? Широкий ДИ указывает на менее точную оценку, узкий - на более точную оценку.

2.Какой клинический (биологический) смысл можно извлечь из рассмот-

рения ДИ? Верхние и нижние пределы показывают, будут ли результаты клинически (биологически) значимы.

3.Включает ли ДИ какие-либо значения, представляющие особый интерес?

Можно проверить, попадает ли вероятное значение для параметра попу-

ляции в пределы ДИ. Если да, то результаты согласуются с этим вероятным значением. Если нет, то маловероятно (для 95% ДИ шанс меньше 5%), что параметр имеет это значение.

Понятие вероятности. Вероятность того или иного события при числе наблюдений N оценивается по простой формуле. Если число наблюдаемых

конкретных событий при числе наблюдений N равно n , то вероятность

равна отношению числа наблюдений, в которых было обнаружено событие к общему числу наблюдений (5.5):

64

P( A)

n

 

N

(5.5)

 

 

 

Пример: Пусть мы изучили 2000 историй болезни больных туберкулезом. В этом случае число наблюдений N 2000 . Среди просмотренных историй болезни у 100 пациентов было обнаружено снижение количества тромбоцитов (тромбоцитопения) ( n 100 ). В этом случае вероятность тромбоцитопении равна: p n / N 100 / 2000 1/ 20 0,05 .

Вероятность можно оценить в непрерывной шкале от 0 до 1 включительно. Событие, которое невозможно, имеет вероятность 0, а событие, которое произойдет обязательно, имеет вероятность 1. Вероятность дополнительного события (события не происходящего) равна единице минус вероятность события.

Математическое ожидание. Пусть определена совокупность измерений систолического давления у некоторой группы обследуемых (табл. 5.2).

Что можно сказать о величине АД в следующем, двенадцатом наблюдении, которое мы не проводили? В полной мере оценить эту величину мы не можем, а лишь дать вероятностную оценку, т.е. предсказать значение с той или иной долей вероятности.

Любое измеренное нами значение АД является случайной величиной. Если имеется какая-либо зависимость, описывающая эту случайную величину, то принято говорить, что случайная величина характеризуется функцией вероятности. В этом случае, основываясь на полученных результатах, можно прогнозировать ту величину, которая будет получена в следующих измерениях. Такая прогнозируемая величина называется математическим ожиданием. Попытаемся определить величину математического ожидания для нашего случая.

Для этого вначале сгруппируем одинаковые результаты и оценим вероятность (в долях единицы) их появления в нашем наблюдении (табл. 5.3):

 

 

Таблица 5.3

Систолическое АД (Х)

число пациентов

вероятность (Р)

 

115

3

3/11

 

120

6

6/11

 

125

2

2/11

 

Так как общее число наблюдений составило 11, то каждое появление того или иного результата представляет собой вероятность, равную 1/11.

Очевидно, что любой эмпирический опыт дает возможность с той или иной степенью правильности предсказывать или прогнозировать будущее. В теории статистики бытовое понимание феномена предсказания приобретает более очерченное звучание в форме понятия математического ожидания.

Математическое ожидание ( M f ( x) ) вычисляется по следующей формуле (5.6):

M f ( x) X1 p1

X 2

p2 X n

pn

(5.6) .

Математическое ожидание - это сумма попарных произведений

наблюдаемой величины X i

на

вероятность

ее

появления pi в данном

наблюдении.

65

В рассмотренном нами случае вариационного ряда систолического давления математическое ожидание исследуемой величины составляет:

M f ( x) 115 3/11 120 6 /11 125 2 /11 119,55 .

Таким образом, наиболее вероятной будет величина, составляющая

119,55 мм рт. ст.

Распределение вероятности. Случайная переменная – это величина, ко-

торая может принимать любое из набора взаимоисключающих значений с определенной вероятностью. Распределение вероятности показывает вероятности всех возможных значений случайной переменной. Это теоретическое распределение, которое выражено математически и имеет среднее и дисперсию – аналоги среднего и дисперсии в эмпирическом распределении. Каждое распределение вероятности определяется некоторыми параметрами. Параметры служат обобщающими величинами (например: среднее, дисперсия), характеризующими данное распределение (т.e. их знание позволит подробно описать распределение) С помощью соответствующей статистики можно произвести оценку этих параметров в выборке. В зависимости от того, является ли случайная переменная дискретной или непрерывной, распределение вероятности может быть либо дискретным, либо непрерывным.

Функция F(x), связывающая значения xi переменной случайной величины Х с их вероятностями pi называется законом распределения (или функцией распределения) этой случайной величины. Закон распределения описывает распределение вероятностей случайной переменной Х.

С понятием закона распределения случайной величины неразрывно связано понятие плотности распределения, которую можно представить себе как предельную кривую р(х), аппроксимирующую выборочную гистограмму распределения данной случайной величины (рис. 5.5).

Рис. 5.5. Функция плотности распределения вероятности.

Нормальное (гауссово) распределение. Одним из самых важных распре-

делений в статистике является нормальное распределение.

Непрерывная случайная величина Х называется распределенной по нормальному закону, если ее плотность распределения равна ()

66

()

где m - математическое ожидание случайной величины;

Его функция плотности распределения вероятности представлена на рис.

5.6.

Рис. 5.6. Функция плотности нормального распределения вероятности.

Функция плотности нормального распределения вероятности симметрична относительно среднего . Результат изменения 2 ( 12 22 32 ).

Свойства функции плотности нормального распределения вероятности:

• полностью определяется двумя параметрами – средним ( ) и дисперсией ( 2 );

колоколообразная (унимодальная) форма;

симметричная относительно среднего;

сдвигается вправо, если среднее увеличивается, и влево, если среднее уменьшается (при постоянной дисперсии);

сплющивается, если дисперсия увеличивается, но становится более остроконечной, если дисперсия уменьшается (для постоянного среднего).

среднее и медиана нормального распределения равны.

Нормальное распределение не является единственным известным распределением. Ниже мы приводим краткие сведения о некоторых других законах распределения дискретных и непрерывных случайных величин.

t-распределение (рис. 5.7)

получено Вильямом Госсетом, который публиковал свои работы под псевдонимом «Student» («Студент»), поэтому его часто называют t- распределением Стьюдента;

t-распределение характеризуется степенями свободы (df);

форма кривой подобна форме кривой стандартизованного нормального распределения, но более приплюснута и с более длинными «хвостами». Форма приближается к нормальной кривой по мере увеличения степеней свободы;

t-распределение применяют для вычисления доверительных интервалов

иисследования гипотез с одной или двумя средними.

67

Рис. 5.7. t-распределение со степенями свободы df=1, df=5, df=50.

Хи-квадрат ( 2 ) распределение Пирсона (рис. 5.8)

скошено вправо, принимает только положительные значения;

характеризуется степенями свободы;

форма кривой зависит от числа степеней свободы. Кривая становится более симметричной и приближается к нормальной с увеличением числа степеней свободы;

особенно часто используется для анализа категориальных данных.

Рис. 5.8. Хи-квадрат распределение Пирсона со степенями свободы df=2, df=5, df=10

F-распределение (рис. 5.9)

кривая скошена вправо;

определяется как отношение. Распределение отношения двух оценок дисперсий, вычисленных для нормально распределенных данных, аппроксимируется F-распределением;

характеризуется степенями свободы числителя d1 и знаменателя d2 отношения;

особенно полезно для сравнения двух дисперсий и более чем двух средних при использовании дисперсионного анализа.

68

Рис. 5.9. F- распределение с разными степенями свободы числителя и знаменателя.

Логнормальное распределение (рис. 5.10)

• распределение вероятности случайной переменной, логарифм которого (по основанию 10 или е) имеет нормальное распределение;

сильно скошено вправо;

если набор данных имеет логнормальное распределение, то используют среднее геометрическое как обобщающий показатель.

Рис. 5.10. Логнормальное распределение с разными показателями стандартного отклонения.

Многие переменные в медицине имеют логнормальное распределение. Поэтому можно использовать свойства нормального распределения для того, чтобы сделать выводы относительно этих переменных после логарифмического преобразования данных.

Биномиальное распределение (рис. 5.11)

Предположим, что существуют только два результата – «успех» и «неудача». Например, нас интересует, забеременеет ли женщина в результате экстракорпорального оплодотворения. Если мы примем п = 100 не имеющих отношения друг к другу женщин, перенесших процедуру экстракорпорального оплодотворения (каждая с одинаковой вероятностью забеременеть), то биноми-

69

альная случайная переменная – это наблюдаемое число зачатий. Часто это понятие представляют как п независимых повторных испытаний, при которых результатом будет либо успех, либо неудача.

Биномиальное распределение описывают: п - число индивидуумов в выборке (или число повторений испытания), и - точная вероятность успеха для каждого индивидуума (или при каждом испытании).

Свойства биномиального распределения можно использовать, чтобы сделать выводы относительно пропорций. Особенно часто используется аппроксимация биномиального распределения нормальным при анализе пропорций.

Рис. 5.11. Функция биномиального распределения величины х.

Распределение Пуассона (рис. 5.12)

Пуассоновская случайная переменная – это число событий, которые происходят независимо и случайно во времени или пространстве со средней интенсивностью . Например, число госпитализаций в день типично отвечает распределению Пуассона. Распределение Пуассона может быть использовано в данном случае, чтобы вычислить вероятность конкретного числа госпитализаций в любой отдельный день. Параметр, которым описывают распределение Пуассона, – это среднее, т.е. средняя интенсивность .

В распределении Пуассона среднее арифметическое равняется дис-

персии.

Если среднее мало, распределение скошено вправо. По мере того, как среднее увеличивается, оно становится более симметричным, приближаясь

кнормальному распределению.

Рис. 5.12. Функция пуассоновского распределения ( 1 2 3 ).

70

Большинство критериев и статистических тестов относятся к так называемым параметрическим критериям. Это значит, что они могут применяться только к нормально распределенным рядам данных. Во всех остальных случаях используются так называемые непараметрические критерии. В случае, кода распределение ряда параметров является отличным от нормального или о природе распределения ничего не известно, необходимо обращаться именно к таким методам. Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.

Если данные не являются нормально распределенными, а измерения, в лучшем случае, содержат ранжированную информацию, то вычисление обычных описательных статистик (например, среднего, стандартного отклонения) не слишком информативно. Например, в психометрии хорошо известно, что воспринимаемая интенсивность стимулов (например, воспринимаемая яркость света) представляет собой логарифмическую функцию реальной интенсивности (яркости, измеренной в объективных единицах - люксах). В данном примере, обычная оценка среднего (сумма значений, деленная на число стимулов) не дает верного представления о среднем значении действительной интенсивности стимула.

Непараметрическая статистика вычисляет разнообразный набор мер положения (среднее, медиану, моду и т.д.) и рассеяния (дисперсию, гармоническое среднее, межквартильный размах и т.д.), позволяющий представить более "полную картину" данных.

Альтернативное распределение признака. Если из всей массы наблю-

дений использовать для статистического анализа только наблюдения за исходами, например, получен эффект от проводимой терапии – да или нет; выявлены побочные эффекты – да или нет; отмечено появление определенных симптомов – да или нет и т.д., то необходим способ учета реакций в альтернативной форме (реакция, которая или наступает, или – нет).

Альтернативное распределение – это распределение элементов совокупности на 2 части (2 альтернативы) по какому-либо признаку, чаще по качественному. Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение, или долю от общего числа объектов, которая приходится на то или иное значение.

В отношении доли вариант в альтернативном распределении возникают те же статистические задачи, что и для параметров, представленных в количественной форме:

оценка доли р в генеральной совокупности по выборочным данным, нахождение доверительного интервала для р;

выявления различия между генеральными долями р1 и р2 двух совокупностей по выборочным данным, т.е. сравнение двух выборочных долей вариант.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]