Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Posobie Informatica

.pdf
Скачиваний:
25
Добавлен:
20.05.2015
Размер:
5.32 Mб
Скачать

81

Рис 6.1. Схема проведения парного сравнения средних значений.

Рис. 6.2. Схема проведения множественного сравнения.

Контрольные вопросы

1.Что такое статистическая гипотеза?

2.Что такое нулевая гипотеза?

3.Что такое альтернативная гипотеза?

4.Что такое ложноположительный и ложноотрицательный результат проверки статистического теста?

5.Что такое ошибка первого рода?

6.Что такое ошибка второго рода?

7.Что такое мощность критерия?

8.Какие параметрические критерии используются для проверки статистических гипотез?

9.Какие непараметрические критерии используются для проверки стати-

стических гипотез?

10.Приведите примеры статистических критериев, используемых для множественных сравнений средних значений нескольких выборок.

Список литературы

1.Гланц С. Медико-биологическая статистика. Пер. с англ. – М.: Практика,

1998. – 459 с.

2.Лях Ю.Е., Гурьянов В.Г., Хоменко В.Н., Панченко О.А. Основы компьютерной биостатистики: анализ информации в биологии, медицине и фармации статистическим пакетом Medstat. – Донецк: 2006. – 214 с.

3.Платонов А.Е. Статистический анализ в медицине и биологии: задача, терминология, логика, компьютерные методы. – М.: Издательство РАМН,

2000. – 52 с.

82

4.Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. – М.: МедиаСфера, 2002. – 312 с.

5.Сергиенко В.И., Бондарева И.Б. Математическая статистика в клинических исследованиях. - М.: ГЭОТАР-МЕД, 2001. – 256 с.

83

ТЕМА 7 КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ. ПЛАНИРОВА-

НИЕ КЛИНИЧЕСКИХ ИССЛЕДОВАНИЙ

При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистический анализ связей между факторными и результативными признаками статистической совокупности (причинно-следственная связь) или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от их общей причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. С этой целью используется корреляционный и регрессионный анализ.

Этапы проведения анализа связи переменных.

1.Корреляционный анализ. Его цель – определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ дает информацию о характере и степени выраженности связи (по величине коэффициента корреляции), которая используется для отбора существенных факторов, а также для расчета параметров регрессионных уравнений.

2.Расчет параметров и построение регрессионных моделей. Здесь стре-

мятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин X1, Х2, .... Хп.

3.Выяснение статистической значимость, т.е. пригодности постули-

руемой модели для использования ее в целях предсказания значений.

4.Применение статистически значимой модели для прогнозирования

(предсказания), управления или объяснения. Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать. Например, с самого начала работы (как бы по умолчанию) строилась и проверялась линейная регрессионная модель. Незначимость ее служит основанием для того, чтобы отвергнуть только линейную форму модели. Возможно, что более подходящей будет нелинейная форма модели.

Корреляционный анализ. Отличительной чертой биологических объектов является многообразие признаков, характеризующих каждый из них. Так, человека можно охарактеризовать возрастом, ростом, весом, различными физиологическими показателями и т. д. Имея однородную совокупность объектов, можно изучить распределение их по любому из их признаков. Весьма часто можно усмотреть известную связь между вариациями по различным признакам. Например, вес образцов, сделанных из одного и тoгo же материала, полностью определяется их объемом. Такую зависимость принято называть функциональной. Для биологических объектов связь обычно бывает менее «жесткой»: объекты с одинаковым значением одного признака имеют, как правило, разные значения по другим признакам. Такую связь между вариациями разных призна-

84

ков называют корреляцией (дословный перевод: соотношение) между признаками.

Практическое значение установления корреляционной связи – выявление возможной причинно-следственной связи между факторными и результативными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием здоровья, при определении зависимости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.), а также – выявление зависимости параллельных изменений нескольких признаков от какой-то третьей величины (например, под воздействием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др).

Стандартный способ выявления взаимосвязи нескольких переменных, измеряемых в порядковой или интервальной шкалах, – подсчет коэффициента корреляции. Коэффициент корреляции одним числом измеряет силу связи между изучаемыми явлениями и дает представление о ее направленности. По направлению связь может быть прямой или обратной. По силе связи коэффициенты корреляции колеблются от 1 (полная связь) до 0 (отсутствие связи). Коэффициент корреляции может иметь значение от –1 до +1, т.е. иметь отрицательное либо положительное значение. В этих случаях говорят об обратной или прямой корреляционной взаимосвязи. Величина коэффициента характеризует силу корреляционной взаимосвязи.

Чем ближе модуль коэффициента корреляции к единице, тем сильнее или глубже корреляционная взаимосвязь между двумя вариационными рядами. Модульное значение выше 0,8 характеризуют сильную взаимосвязь, в интервале 0,8-0,5 – выраженную взаимосвязь, 0,5-0,2 – слабую взаимосвязь, менее 0,2 (0,2 – 0) – отсутствие взаимосвязи(рис. 7.1).

Рис. 7.1. Схема оценки силы корреляционной связи по величине коэффициента корреляции.

Коэффициент корреляции для нормально распределенных наблюдений (коэффициент корреляции Пирсона) рассчитывается по формуле (7.1):

rXY

 

 

d x d y

 

 

 

 

 

 

 

 

 

 

d 2

d 2 , (7.1)

 

 

 

 

 

 

x

y

85

 

где X и Y – варианты сопоставляемых вариационных рядов, d X

и dY

отклонение каждой варианты от своей средней арифметической ( M X и

M Y ).

В случае работы с данными, распределение которых отлично от нормального, необходимо пользоваться ранговыми методами – вычислять коэффициент корреляции Кендалла (для порядковых переменных) или, лучше, коэффициент корреляции Спирмена (непараметрический аналог коэффициента Пирсона для интервальных и порядковых переменных). Коэффициент Пирсона равен единице (или минус единице) тогда и только тогда, когда две переменные (х и у) свя-

заны линейной зависимостью ( y ax b ). Коэффициент Спирмена (или Кендалла) равен 1, если две переменные связаны правилом: большему значению переменной х всегда соответствует большее значение переменной у. Чем ниже коэффициент корреляции, тем сильнее отклонение от этих правил.

Коэффициент ранговой корреляции Кендалла

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла

(7.2):

 

2S

(7.2)

 

 

n(n

1)

 

 

где S P Q , P – суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y,

Q – суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y (равные ранги не учитываются).

Коэффициент ранговой корреляции Спирмена

Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности d и вычисляется коэффициент корреляции Спирмена (7.3):

 

1

6 d 2

 

 

n(n2 1)

(7.3)

 

 

 

Положительная корреляционная взаимосвязь между двумя вариационны-

ми рядами

X и Y свидетельствует о том, что величина X прямо зависит от

величины

Y , отрицательная говорит об обратной зависимости.

Важно отметить, что установление корреляции между признаками само по себе еще не дает оснований делать какие-либо заключения о причинноследственных связях между ними. В случае несгруппированной совокупности может быть получено наглядное представление о наличии или отсутствии корреляции путем построения так называемого корреляционного поля (рис. 7.2). Вытянутость корреляционного поля в диагональном направлении свидетельствует о наличии корреляции между обоими признаками. Если число вариант велико, то корреляционное поле часто имеет вид более или менее правильного эллипса со сгущением точек в центре и сравнительно редким их расположени-

86

ем на периферии; отклонение осей эллипса от координатных направлений указывает на наличие корреляции.

Рис. 7.2. Корреляционное поле.

Вычисление ошибки коэффициента корреляции.

1. Ошибка коэффициента корреляции, вычисленного методом квадратов (Пирсона) (7.4):

 

1 r 2

 

 

mrxy

 

xy

, (7.4)

 

n 2

 

 

 

 

где rxy – коэффициент корреляции, n – объем выборки.

2. Ошибка коэффициента корреляции, вычисленного ранговым методом (Спирмена) (7.5) :

 

1 p2

 

 

mpxy

 

xy

, (7.5)

 

n 2

 

 

 

 

где pxy – коэффициент корреляции, n – объем выборки.

Оценка достоверности коэффициента корреляции, полученного методом ранговой корреляции и методом квадратов.

Способ 1. Достоверность определяется по формуле:

t rxy (7.6) mrxy

или

t

pxy

(7.7)

mpxy

 

 

Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n–2), где n – число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего точности оценки данных ≥99%..

Способ 2. Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n–2), он равен или больше табличного, соответствующего степени безошибочного прогноза ≥95%.

87

Регрессионный анализ. При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого.

Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.

Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

Регрессия – функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.

Весьма часто исследуемая зависимость принадлежит к хорошо изученному типу, и ее аналитическое (алгебраическое) выражение точно известно; при этом целью исследования является определение численных параметров этой зависимости. Например, при радиометрическом исследовании образца крови мы заранее знаем, что уменьшение активности происходит по закону радиоактив-

ного распада: A A0e t (А0 – начальное число атомов в момент времени t=0,

- постоянная распада). Вид функции, с помощью которой приближенно выражается форма связи, выбирают заранее, исходя из содержательных соображений или визуального анализа данных.

С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.

Коэффициент регрессии – абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения. Формула коэффициента регрессии (7.8)

Ry / x

 

rxy y

, (7.8)

 

 

 

x

где Rу/х – коэффициент регрессии; rху – коэффициент корреляции между признаками х и у; (σу и σx) – среднеквадратические отклонения признаков x и у.

Назначение уравнения регрессии.

Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину у одного признака, если меняется величина х другого признака. По этим данным строится график – линия регрессии, по которой можно определить, например, среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.

Сигма регрессии является характеристикой регрессионного анализа и дает величину меры разнообразия результативного признака у (7.9).

88

 

 

 

 

 

R

y

1 rxy2 ,

(7.9)

 

y / x

 

 

 

где y - среднее квадратическое отклонение для ряда y, rxy - коэффициент

корреляции.

Например, характеризуется разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осенннезимний период. Так, среднее число простудных заболеваний при температуре воздуха х1 = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 заболеваний.

При х2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.

Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.

На основании известных значений хi и соответствующих им средних значений yi, а также наименьших (у- Ry / x )и наибольших (у+ Ry / x ) значений (у)

строится шкала регрессии.

На ее основе разрабатываются нормативные шкалы и стандарты, в частности по физическому развитию.

По стандартной шкале можно дать индивидуальную оценку развития детей. При этом физическое развитие оценивается как гармоничное, если, например, при определенном росте масса тела ребенка находится в пределах одной сигмы регрессии к средней расчетной единице массы тела – (у) для данного

роста (x) (у±1 Ry / x ). Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у±2 Ry / x ). Физическое развитие будет резко дисгар-

моничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы

регрессии (у±3 Ry / x ).

Чтобы оценить, насколько точно уравнение регрессии описывает реальные соотношения между переменными, нужно ввести меру рассеяния фактических значений относительно вычисленных с помощью уравнения. Такой мерой служит средняя квадратическая ошибка регрессионного уравнения, вычисляемая по приведенной формуле (7.10):

 

 

n

 

 

 

 

yx

 

( yi

y)2 /(n (m 1))

(7.10).

 

 

i 1

 

 

 

 

Чем больше фактические значения отклоняются от выровненных, тем большую ошибку следует ожидать; чем меньше число наблюдений, на основе которых строится уравнение, тем больше будет ошибка.

Определение объемов выборок при планировании исследования

Определение объемов выборок необходимо при планировании контролируемых исследований, т.е. исследований, в которых сопоставляются выборки

89

независимых наблюдений. Основной смысл определения объема выборок заключается в том, чтобы иметь в результате исследования высокую вероятность выявления реальных различий между выборками как статистически значимых, т.е. обеспечить необходимую статистическую мощность (чувствительность) исследования. Прежде чем оценивать требуемый объем групп для данного исследования, необходимо:

1.Понять, переменные какого типа (количественные, качественные и др.) будут измерять эффект в данном исследовании;

2.Выбрать, исходя из специфики данного исследования, подходящий план;

3.Оценить величину различий между эффектами, приемлемую для данного исследования с клинической точки зрения;

4.Выбрать подходящий статистический тест для последующего анализа интересующих различий, это определит выбор конкретных формул для расчета;

5.Определить, односторонний или двусторонний тест будет уместен в данном случае и, в соответствии с этим, установить подходящие уровни ошибок первого и второго рода;

6.Оценить по данным литературы, пилотному исследованию или результатам сходных исследований величины показателей, входящих в выбранные для расчета формулы;

7.Увеличить рассчитанные по формулам значения объема с учетом возможного исключения в процессе исследования.

Существуют графики, номограммы и таблицы, связывающие чувствительность теста с величиной различий для наиболее встречающихся значений альфа и различных объемов выборок. Известны формулы расчета и соответствующие таблицы требуемых объемов выборок для различных планов клинических исследований.

Приведенные ниже формулы предназначены для оценки числа пациентов, необходимого для установления различий в эффекте при сравнении двух групп в контролируемых клинических исследованиях.

Если критериями эффекта в контролируемых клинических исследованиях служат количественные признаки, распределенные нормально и выражаемые статистическими средними величинами, то формула расчета минимального объема групп для сравнения показателя в двух независимых группах с учетом вероятности ошибок первого и второго рода имеет вид (7.11):

, (7.11)

где и — дисперсии показателей сравниваемых опытной и контроль-

ной групп,

— требуемая величина различий между средними значениями сравниваемых групп,

90

и — критические значения нормального распределения, соответствующие установленным уровням ошибок и , определяемые по специальным таблицам.

Из приведенной формулы видно, что для оценки необходимого объема выборки важно, скорее, соотношение дисперсии и требуемой величины различий, чем их численные значения. Это обстоятельство имеет важное практическое значение при планировании исследования, когда конкретные точные значения дисперсий и могут быть еще неизвестны. Обычно для таких приближенных предварительных оценок объема выборки используют отношения, рав-

ные 1, 0,9, 0,8 и т.д.

При альтернативной форме описания эффекта с помощью частот (или долей) po и pk необходимое число наблюдений при равных по численности опытной и контрольной групп определяются по формуле (7.13):

(7.13)

где - величина разности между частотами (po - pk).

Хотя на практике вычисление требуемого объема выборок является скорее оправданием уже выбранной численности групп, результаты исследований не могут считаться достоверными без вычисления оценки чувствительности или мощности критериев, применявшихся для проверки статистически значимых различий.

Более наглядным способом отображения расчета объема выборок является номограмма Альтмана (рис. 7.3). Для ее построения используются следующие параметры:

1.Необходимая пользователю статистическая мощность исследования (обычно устанавливается в пределах 80-90%).

2.Уровень статистической значимости различий между выборками

(например, 0,05 или 0,01).

3.Стандартизированное различие исследуемого статистического параметра в сравниваемых группах. Для количественных данных оно определяет-

ся как d s , где d —абсолютное значение минимального среднего различия меж-

ду группами, имеющего клиническую значимость, s— известное априори, из ранее проводившихся исследований, среднего квадратического отклонения изучаемого признака у данной категории пациентов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]