Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных

.pdf
Скачиваний:
9
Добавлен:
24.03.2024
Размер:
15.15 Mб
Скачать

Статистический анализ медицинских данных ...

Глава 3. Подготовка данных

к статистическому анализу

Подготовка данных может ОСУUJествляться в любой програм­ ме, померживающей электронные таблиqы ( STАТISТICA, MS Excel и др.), а таюке в любых реляqионных базах данных, под­

держивающих стандартные форматы экспорта данных.

Данные следует располагать в строках и столбqах электрон­

ной таблиqы. В строках располагаются наблюдения (объекты

исследования), в столбqах - переменные (признаки). Качест­

венные данные могут быть представлены текстовыми значения­

ми, которые автоматически кодируются числовыми значениями,

однако такое представление не рекомендуется из-за возрастания

вероятности ошибок.

Ввод данных в ППП STAТISТICA может производиться в

любом из его модулей. Файлы данных имеют формат *.sta. Обыч­

ные приемы работы с электронными таблиqами, принятые в среде

MS Windows (в том числе в пакете MS Excel), применимы и в

ППП STAТISTICA. Однако для создания нового файла мы реко­

мендуем вызвать модуль "Управление данными" ("Data Management").

STAТISТICA:

-+ "Управление данными" ("Data Management")

--,,.. Меню аил~ " ("F"l1 е") или нализ"

("Analysis")

-+ "Создание файла данных"

( "Create new data file")

В окне (рис. 3.1) необходимо указать число переменных1 (при­ знаков), т.е. столбqов, и наблюдений (объектов исследования),

т.е. строк2. Не следует думать, что указанные количества столб-

1VariaЬles (англ.).

2Cases (англ.).

40

Глава

3.

Подготовка

данных

к

статистическому

анализу

lf!!~.'.!.!:~O~o~o.~a~IC.\STAТ\noname.STЛ

_!:!исло переменных: j1 О

13

.QK Отмена

j

Число наЦлодений:

...,,-0---rз

llлинаимен наблюдений:

lo

IEJ

.9?,ормат значений:

18.З

13

!!>од пропущенных данных:

\-9999

l3

Префикс имен переменных:

. -----

IПРМ

[3

!:lачальный номер имени переменной:

 

\1

13

Строка <1.агоnовка файла данных:

 

 

.!lэлть из

".

Введитепараметрынрвого

 

Файла или нажмите кнопку

 

'ВэRтьиз."'для исnользова11иА

параметров другого срайле.

 

Информация о файле или

 

nримечениА вводятся с

 

помощью команды

11

Заголоеок,..н

(меню Правка).

 

 

 

Рис.

3.1.

Окно

указания

спеqификаqий

нового

файла.

gов

и

строк

являются окончательными.

В

дальнейшем

их

число

может

быть

либо

уменьшено,

либо

увеличено.

Другой

данные

"

и

способ начать

-

обратиться

к

команде

"Файл

-

Создать

ввод данных в

ф

w

с

ИСХ()ДНЫМ

названием

 

аил

"new.sta",

увеличивая

по мере

необходимости

число

строк

и

столб-

gов путем

использования

w

еременные

"

опgии

 

 

обавить"

( "Add") и

аблюдения"

("Сases")

-

("Vars ") -

обавить"

("Add"). Текстовые

имена

наблюдений

(объектов

исследования)

-

идентификаторы,

например

фамилии,

номера

историй

болезни,

порядковые

номера объектов

исследования

-

можно

как в любой

из столбцов, так

и в :~аголовки

 

1

строк

вводить

Имя

столбgа

можно

задать,

активизировав

окно

его

спеgи­

фикаgии одним

из трех

способов:

-

щелкнув

2 раза

на заголовке

столбgа

(по

умолчанию

он

имеет шаблон "VAR".");

-

вызвав опgию екУI1JИе спеgификаgии"("Сurrent

в меню "Переменные" ("Vars");

Specs

")

-

щелкнув

правой

кнопкой

и

выбрав

ту

же

ОШJИЮ

.

1

Не

забывайте

о

конфиденциальности

медицинских

сведений.

Обычно

для

стати­

стического

анализа

нет

необходимости

вводить

в

таблицу

данных

такие

идентифи­

каторы,

как

имя,

адрес

.

Предпочтительным

является

кодирование

участников

ис­

следования

номерами,

по

которым

исходные

данные

можно

при

необходимости

найти,

например

,

в

архиве.

41

Статистический анализ медицинских данных ...

Имя столбqа может включать до 8 букв и qифр, а также

знак пробела. Рекомендуется задавать имена с использованием латинских букв, если Вы пользуетесь англоязычной версией ППП

STATISТICA.

Подробное описание операqий управления данными можно

найти в справочных файлах ППП STAТISTICA и "Кратком руко­

водстве", поставляемом в комплекте с программным обеспечени­

ем, а таюке литературе справочно-учебного характера по данному

пакету, например в книгах ВЛ. Боровикова и соавт. [13-16] .

На некоторых наиболее часто используемых проqедурах мо-

дуля правление данными" и функqиях, доступных из любого

модуля пакета, мы кратко остановимся в главе 4.

3.1. Подготовка первичных данных

Данные для статистического анализа рекомендуется готовить в виде таблиqы, в строках которой перечисляются отдельные объ­

екты исследования (например, больные, или участники исследо­

вания), а в столбqах - наблюдаемые признаки.

На этом этапе подготовки в одну таблиqу мы рекомендуем

внести все данные, которые предполагается анализировать, т.е.

относящиеся ко всем объектам исследования в разных группах и подгруппах (в том числе в группах контроля), а таюке все иссле­ дуемые признаки для каждого объекта исследования (несмотря

на обычно большое количество пропусков данных). Рекоменду­

ется таюке стремиться вносить в левую часть таблиqы все качест­

венные данные (обычно это клинические характеристики боль­ ных), а в правую часть - количественные данные (обычно ре­ зультаты лабораторных и инструментальных обследований). Это облегчает в проqессе статистического анализа выделение списков

признаков во многих проqедурах.

В случае пропущенного (отсутствующего) значения необхо­ димо оставить клетку электронной таблиqы пустой.

3. 1. 1. Оценка точности данных

Точность количественных данных, которые вносятся в табли­ qу, определяется точностью измерений того метода или прибора, с которого сняты показания. Например, если активность фер­

мента определяется с точностью до десятых долей единиqы изме­

рения, то они так и должны вноситься в таблиqу. Если артери-

42

Глава 3. Подготовка данных к статистическому анализу

альное давление (АД) измеряется с точностью до 5 едиНИI:J из­ мерения (мм рт. ст.), то также необходимо вносить данные без

предварительного округления. Таким образом предотвращаются

потери информачии, которая может оказаться существенной для

результатов статистической обработки данных.

Заметим, что результаты статистического анализа (средние, ме­

дианы, средние квадратические оп<Лонения, граничы прочентиль­

ных интервалов, коэффичиенты регрессионного уравнения и т.д.)

рекомендуется описывать с той же точностью, что и исходные дан­

ные. Допускается лишь один дополнительный десятичный ра3ряд.

Избыточная точность не имеет смысла. О необходимой точности при расчете параметров см. раздел 7.3.1.

3. 1.2. Предварительные расчеты

Часто исследователи проводят предварительные расчеты сле­

дующих типов:

1. Предварительная разбивка области значений количественно­

го признака на отрезки, т.е. создание на основе непрерывных

количественных признаков дискретных количественных при­

знаков. Например, область значений АД делят на интервалы;

2.Вычисление различных расчетных индексов (коэффичиентов, отношений и т.п.).

Проводить такого рода предварительные расчеты мы не ре­

комендуем по следующим причинам.

В первом случае происходит потеря информачии. Возможно­ сти любого статистического пакета позволяют легко осуществлять

любую разбивку областей значений количественных признаков на интервалы автоматически. Кроме того, в дальнейшем может потре­ боваться разбивка на другие интервальr, а в случае если ранее были

введены значения интервалов, а не первичные данные, это сделать

будет невозможно. Кроме того, при разбивке на интервалы необхо­

димо (в соответствии с требованиями доказательной медичины)

привести обоснование выбора именно таких гранич интервалов. В оптимальном случае при этом руководствуются общепринятыми

международными I<Лассификачиями или шкалами. Если же Вы де­

лаете это на основании каких-либо своих представлений или опы­ та, такую разбивку необходимо убедительно обосновать.

Второй тип предварительных расчетов также нечелесообра­ зен по двум причинам. Во-первых, возможности статистического

пакета позволяют сделать такие операчии в программном режиме

43

Статистический анализ медицинских данных ...

(автоматически). Во-вторых, при автоматическом расчете точность его выше, а число ошибок меньше, чем при ручном расчете.

3. 1.3. Идентификация участников (объектов)

исследования

При внесении данных необходимо обозначить, к какой из

исследуемых групп относится каждый участник (объект) иссле­

дования. В этом случае каждой исследуемой группе присваивает­

ся свой код (обычно натуральное, т.е. qелое положительное чис­ ло) - 1, 2, 3 и т.д. Для этого в таблиqе создают спеqиальный столбеq. Для каждого объекта исследования (больного, или уча­

стника исследования) в этот столбеq заносят соответствующий

код группы.

Группирующим называется качественный признак порядко­

вого или номинального типа, значения которого определяются

(детерминируются) исследуемой группой. Значения группирую­

щего признака - это коды групп. Иногда такой признак назы­

вают таюке индикатором группы.

Достаточно часто больные из исследуемых групп различаются

также по другим дополнительным признакам, т.е. существуют

подгруппы, которые в дальнейшем планируется сопоставлять по

каким-либо еще параметрам. Подгруппа (или несколько под­

групп) аналогично должны быть закодированы натуральными числами в дополнительном столбqе (или столбqах).

Таким образом, один файл данных может содержать несколь­ ко группирующих признаков. Вообще говоря, любой из качест­

венных признаков может рассматриваться как группирующий.

Любой из количественных признаков может таюке быть превра­ щен в группирующий после разбивки области значений этого признака на интервальr, каждому из которых может быть припи­ сано условное значение (код). Такая разбивка на интервальr мо­

жет быть проведена в любом модуле ППП STАТISТICA путем

обращения к опqии "Перекодировать" ("Recode") в меню "Пе­ ременные" ("VariaЬles") (см. раздел 4.4).

3. 1.4. Пропущенные (отсутствующие) значения

данных

Если информаqия у какого-либо больного по какому-либо

признаку отсутствует, следует оставить соответствующую клетку

44

Глава 3. Подготовка данных к статистическому анализу

пустой. Если значение какого-либо признака равно нулю, то в

клетке должна стоять gифра "О". Например, в таблиgе данных,

представленной на рис. 3.2, диагноз закодирован gифрами 1 и 2 ( столбеg 3), тип течения заболевания определяется только для

диагноза 1 (столбеg 4) и закодирован gифрами 1, 2, 3, значения

фибриногена измерены только у 1, 2, 4 и 5-го больных, причем у 5-го его значение равно нулю.

 

Фамилия

Группа

Подrруппа

Уровень

(тип

больноrо

(диаrноз)

8-фибриноrена

 

течения)

 

 

 

 

1

Федоров

1

1

1

2

Климентьев

2

 

1

3

Некрасов

1

3

 

4

Суворов

1

2

3

5

Кузнецов

2

 

о

Рис. 3.2. Пример структуры таблиIJЫ данных в пакете приклад­ ных проrрамм STAТISТICA.

3. 1.5. Данные динамических исследований

Если исследование является динамическим, т.е" например,

каждый больной обследовался в период наблюдения дважды, три­

жды и т.д" то следует использовать один из двух способов разме­

щения данных в электронной таблиgе.

Первый способ. Данные о каждом больном занимают в таб­ лиgе число строк, равное числу его обследований. При этом вво­ дится дополнительный столбеg, в котором могут фиксироваться (в зависимости от необходимости) следующие данные:

число дней от начала заболевания;

-дата;

-фаза исследования (до или после лечения).

Второй способ. Данные о каждом больном располагают в

одной строке таблиgы, при этом количество столбgов с изменяю­

щимися в динамике данными увеличивается во столько раз, сколько

раз обследован больной. При таком способе размещения данных

каждый столбеg должен иметь уникальное название, следовательно,

45

Статистический анализ медицинских данных ...

столбgы с изменяющимися данными должны иметь какие-либо

индексы, например "Холестl", "Холест2" и "Холест3".

Таким образом, при использовании любого из перечисленных способов размещения данных вся информаgия, которой распола­ гает исследователь, должна быть внесена в одну таблиgу.

Выбор одного из описанных способов размещения динамиче­

ских данных может определяться следующим соображением. Если

количество измеряемых в динамике признаков составляет более

50% от общего числа признаков, то эффективнее использовать

первый способ, если наоборот, то второй способ. Существенную роль при выборе того или иного способа раз­

мещения данных играют те статистические методы, которыми

исследователь будет в дальнейшем пользоваться. Однако для суж­ дения об этом исследователь должен иметь определенный опыт выполнения статистического анализа данных в том или ином ППП, поэтому на этих аргументах мы здесь не останавливаемся. Отме­

тим лишь, что при всестороннем анализе данных динамических

исследований приходится пользоваться обоими перечисленными способами для применения разных методов анализа, т.е. пере­ форматировать данные в ходе исследования.

3. 1.6. Данные для анализа времени

до наступления исхода

В медиgинских исследованиях обычно оgенивается какой-либо

наблюдаемый исход - возникновение осложнения, реgидива, вы­

здоровление, смерть и др. Таким образом, понятие "анализ вре­ мени до наступления исхода" имеет более широкий смысл, чем понятие "анализ дожития" - термин, ранее более распростра­

ненный.

Следует заметить, что момент включения больного в исследо­

вание должен быть особо оговорен и обоснован, т.е. больные долж­

ны включаться в исследование строго на одном и том же этапе их

заболевания. Например, в момент постановки диагноза или в

момент проведения операgии. В этом случае выборка называется синхронизированной когортой. Только такая когорта может ис­

следоваться с gелью анализа времени до наступления исхода.

Данные для такого рода анализа готовятся особым образом. В двухмерной таблиgе данных в строки (как и в других слу­ чаях) вносятся отдельные объекты исследования (клинические случаи, больные), а в столбgы - их признаки. Однако поскольку

46

Глава 3. Подготовка данных к статистическому анализу

не все объекты исследования бывают прослежены до момента

наступления исхода (поскольку больные выбывают по ходу ис­ следования), то в отдельный столбеg (индикатор gензурирова­

ния; это признак, содержащий сведения о свойстве наблюдения

- gензурированное оно или нет) вносится следующая информа­ gия о каждом из объектов исследования:

-если исход известен - это так называемое завершенное на­

блюдение. В данном случае вносится значение "О";

-если исход неизвестен (больной выбыл из исследования до

наступления исхода или на момент окончания исследования

у больного исход не наступил) - это незавершенное (gензу­

рированное) наблюдение, вносится значение "1 ".

Впринgипе коды могут быть и другими. Мы привели лишь

обычно используемые значения.

Веще один спеgиальный столбеg вносится время от момента включения больного в исследование до момента наступления ис­

хода или выбытия из исследования.

Друтой способ - указание в одном из столбgов даты вклю­ чения, а в другом столбgе - даты наступления исхода или выбы­

тия из исследования. В этом случае период времени рассчитыва­

ется путем вычитания дат. При этом надо строго соблюдать фор­ мат представления даты, чтобы результат вычитания оказался

правильным.

3. 1.7. Проверка данных

После внесения данных в электронную таблиgу следует про­

вести проверку данных с gелью выявления возможных ошибок

двух типов:

-ошибки ввода (набора);

-ошибки измерений.

Наиболее просто установить ошибки набора. Для этого мож­

но поступить следующим образом. Щелкнув на имени столбgа

два раза, Вы увидите окно спеgификаgии признака, внесенного в

этот столбеg (рис. 3.3). Нажав на кнопку "Знач./статист.", можно

увидеть все значения этого признака.

Среди них иногда можно заметить некоторые опечатки (на­ пример, "2"34"). Это явные ошибки набора. Их следует испра­

вить, предварительно сверившись с первоисточником данных

(~апример, лабораторным журналом).

47

Глава 3. Подготовка данных к статистическому анализу

ка набора. Если же такого рода ошибки не произошло, то это,

вероятнее всего, так называемое выпадающее значение (вы­

брос). О работе с такими значениями признака см. раздел

7.3.5.

3. 1.8. Перенос данных, подготовленных

в других программах, в таблицу данных

пакета STAТISТICA

Возможен перенос данных из файлов всех наиболее распро­

страненных форматов, в том числе форматов *.dЬf, *.db, *.xls, ASCII и ряда других. Ниже мы рассмотрим два наиболее распро­ страненных способа внесения данных из других программ.

Использование буфера обмена MS Windows. Для перено­

са данных из оn<рытого окна другой электронной таблиgы какого­

либо из приложений, работающих в среде MS Windows (напри­

мер, таблиgы MS Excel или MS Word), может использоваться бу­ фер обмена Windows, т.е. использование операgий "Копирова-

ние" ("Сору") и ставка" ("Рaste") . Такои~ перенос неудобен

потому, что при этом не переносятся заголовки столбgов таблиgы

MS Excel в заголовки таблиgы данных ППП STАТISТICA, поэтому

в дальнейшем необходимо заново задать названия столбgов в таб­

лиgе данных ППП STАТISTICA.

Перенос данных из программы MS Excel. Если данные уже подготовлены в пакете MS Excel версий 7.0, 8.0 или 2000, то

для последующего переноса данных в ППП STАТISТICA версии

4. * или 5. * потребуется предварительно сохранить их в формате Excel 3.0 или 4.0. Для переноса в STAТISТICA'99 (версия 5.5)

предварительного сохранения в форматах более ранних версий

MS Excel не требуется.

Замечание. Файлы данных, созданные и.ли отредаюпи­

робанные 8 ППП STAТISТICA Версии 5.5, не моzут быть по­ том открыты 8 ППП STАТISТICA более ранних Версий (на­

пример, 4.3 ). Это аналогично ситуации с не8озможностью

открытия 8 более ранних Версиях MS Word документов, соз­

данных 8 более поздних Версиях тою же тексто8ого редак­

тора. Однако 8 отличие от MS Word 8 ППП STAТISТICA 5.5

не предусмотрена Возможность сохранения файлов данных

8 формате более ранних Версий этой проzраммы.

Перенос данных осуществляется в модуле "Управление дан-

ными".

49

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение