Добавил:

Sekretar kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Ростовский Государственный Медицинский Университет

Предмет:

Медицина общая

Файл:

Статистический_анализ_медицинских_данных_Применение_пакета_прикладных

.pdf

Скачиваний:

Добавлен:

24.03.2024

Размер:

15.15 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 315 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Статистический анализ медицинских данных ...

Глава 3. Подготовка данных

к статистическому анализу

Подготовка данных может ОСУUJествляться в любой програм ме, померживающей электронные таблиqы ( STАТISТICA, MS Excel и др.), а таюке в любых реляqионных базах данных, под

держивающих стандартные форматы экспорта данных.

Данные следует располагать в строках и столбqах электрон

ной таблиqы. В строках располагаются наблюдения (объекты

исследования), в столбqах - переменные (признаки). Качест

венные данные могут быть представлены текстовыми значения

ми, которые автоматически кодируются числовыми значениями,

однако такое представление не рекомендуется из-за возрастания

вероятности ошибок.

Ввод данных в ППП STAТISТICA может производиться в

любом из его модулей. Файлы данных имеют формат *.sta. Обыч

ные приемы работы с электронными таблиqами, принятые в среде

MS Windows (в том числе в пакете MS Excel), применимы и в

ППП STAТISTICA. Однако для создания нового файла мы реко

мендуем вызвать модуль "Управление данными" ("Data Management").

STAТISТICA:

-+ "Управление данными" ("Data Management")

--,,.. Меню "Фаил~ " ("F"l1 е") или "Анализ"

("Analysis")

-+ "Создание файла данных"

( "Create new data file")

В окне (рис. 3.1) необходимо указать число переменных1 (при знаков), т.е. столбqов, и наблюдений (объектов исследования),

т.е. строк2. Не следует думать, что указанные количества столб-

1VariaЬles (англ.).

2Cases (англ.).

Глава

Подготовка

данных

статистическому

анализу

lf!!~.'.!.!:~O~o~o.~a~IC.\STAТ\noname.STЛ

_!:!исло переменных: j1 О

.QK Отмена

Число наЦлодений:

...,,-0---rз

llлинаимен наблюдений:	lo	IEJ
.9?,ормат значений:	18.З	13
!!>од пропущенных данных:	\-9999	13
!!>од пропущенных данных:	\-9999	l3
Префикс имен переменных:	. -----
Префикс имен переменных:	IПРМ	[3
!:lачальный номер имени переменной:		[3
!:lачальный номер имени переменной:	\1	13
Строка <1.агоnовка файла данных:

.!lэлть из			".
Введитепараметрынрвого
Файла или нажмите кнопку
'ВэRтьиз."'для исnользова11иА
параметров другого срайле.
Информация о файле или
nримечениА вводятся с
помощью команды	11	Заголоеок,..н
(меню Правка).

Рис.

3.1.

Окно

указания

спеqификаqий

нового

файла.

gов

строк

являются окончательными.

дальнейшем

их

число

может

быть

либо

уменьшено,

либо

увеличено.

Другой
данные	"	и

способ начать


-	обратиться	к	команде			"Файл	-	Создать
ввод данных в		ф	w	с	ИСХ()ДНЫМ		названием
ввод данных в			аил	с	ИСХ()ДНЫМ		названием

"new.sta",

увеличивая

по мере

необходимости

число

строк

столб-


gов путем	использования		w	"П	еременные		"
gов путем	использования		опgии		еременные
"Добавить"	( "Add") и	"Наблюдения"				("Сases")	-

("Vars ") -

"Добавить"

("Add"). Текстовые

имена

наблюдений

(объектов

исследования)

идентификаторы,

например

фамилии,

номера

историй

болезни,

порядковые	номера объектов	исследования	-	можно
как в любой	из столбцов, так	и в :~аголовки		1	•
			строк

вводить

Имя

столбgа

можно

задать,

активизировав

окно

его

спеgи

фикаgии одним		из трех	способов:
-	щелкнув	2 раза	на заголовке

столбgа

(по

умолчанию

он

имеет шаблон "VAR".");
-	вызвав опgию "ТекУI1JИе спеgификаgии"("Сurrent
в меню "Переменные" ("Vars");

Specs

щелкнув

правой

кнопкой

выбрав

ту

же

ОШJИЮ

Не

забывайте

конфиденциальности

медицинских

сведений.

Обычно

для

стати

стического

анализа

нет

необходимости

вводить

таблицу

данных

такие

идентифи

каторы,

как

имя,

адрес

Предпочтительным

является

кодирование

участников

ис

следования

номерами,

по

которым

исходные

данные

можно

при

необходимости

найти,

например

архиве.

Статистический анализ медицинских данных ...

Имя столбqа может включать до 8 букв и qифр, а также

знак пробела. Рекомендуется задавать имена с использованием латинских букв, если Вы пользуетесь англоязычной версией ППП

STATISТICA.

Подробное описание операqий управления данными можно

найти в справочных файлах ППП STAТISTICA и "Кратком руко

водстве", поставляемом в комплекте с программным обеспечени

ем, а таюке литературе справочно-учебного характера по данному

пакету, например в книгах ВЛ. Боровикова и соавт. [13-16] .

На некоторых наиболее часто используемых проqедурах мо-

дуля "Управление данными" и функqиях, доступных из любого

модуля пакета, мы кратко остановимся в главе 4.

3.1. Подготовка первичных данных

Данные для статистического анализа рекомендуется готовить в виде таблиqы, в строках которой перечисляются отдельные объ

екты исследования (например, больные, или участники исследо

вания), а в столбqах - наблюдаемые признаки.

На этом этапе подготовки в одну таблиqу мы рекомендуем

внести все данные, которые предполагается анализировать, т.е.

относящиеся ко всем объектам исследования в разных группах и подгруппах (в том числе в группах контроля), а таюке все иссле дуемые признаки для каждого объекта исследования (несмотря

на обычно большое количество пропусков данных). Рекоменду

ется таюке стремиться вносить в левую часть таблиqы все качест

венные данные (обычно это клинические характеристики боль ных), а в правую часть - количественные данные (обычно ре зультаты лабораторных и инструментальных обследований). Это облегчает в проqессе статистического анализа выделение списков

признаков во многих проqедурах.

В случае пропущенного (отсутствующего) значения необхо димо оставить клетку электронной таблиqы пустой.

3. 1. 1. Оценка точности данных

Точность количественных данных, которые вносятся в табли qу, определяется точностью измерений того метода или прибора, с которого сняты показания. Например, если активность фер

мента определяется с точностью до десятых долей единиqы изме

рения, то они так и должны вноситься в таблиqу. Если артери-

Глава 3. Подготовка данных к статистическому анализу

альное давление (АД) измеряется с точностью до 5 едиНИI:J из мерения (мм рт. ст.), то также необходимо вносить данные без

предварительного округления. Таким образом предотвращаются

потери информачии, которая может оказаться существенной для

результатов статистической обработки данных.

Заметим, что результаты статистического анализа (средние, ме

дианы, средние квадратические оп<Лонения, граничы прочентиль

ных интервалов, коэффичиенты регрессионного уравнения и т.д.)

рекомендуется описывать с той же точностью, что и исходные дан

ные. Допускается лишь один дополнительный десятичный ра3ряд.

Избыточная точность не имеет смысла. О необходимой точности при расчете параметров см. раздел 7.3.1.

3. 1.2. Предварительные расчеты

Часто исследователи проводят предварительные расчеты сле

дующих типов:

1. Предварительная разбивка области значений количественно

го признака на отрезки, т.е. создание на основе непрерывных

количественных признаков дискретных количественных при

знаков. Например, область значений АД делят на интервалы;

2.Вычисление различных расчетных индексов (коэффичиентов, отношений и т.п.).

Проводить такого рода предварительные расчеты мы не ре

комендуем по следующим причинам.

В первом случае происходит потеря информачии. Возможно сти любого статистического пакета позволяют легко осуществлять

любую разбивку областей значений количественных признаков на интервалы автоматически. Кроме того, в дальнейшем может потре боваться разбивка на другие интервальr, а в случае если ранее были

введены значения интервалов, а не первичные данные, это сделать

будет невозможно. Кроме того, при разбивке на интервалы необхо

димо (в соответствии с требованиями доказательной медичины)

привести обоснование выбора именно таких гранич интервалов. В оптимальном случае при этом руководствуются общепринятыми

международными I<Лассификачиями или шкалами. Если же Вы де

лаете это на основании каких-либо своих представлений или опы та, такую разбивку необходимо убедительно обосновать.

Второй тип предварительных расчетов также нечелесообра зен по двум причинам. Во-первых, возможности статистического

пакета позволяют сделать такие операчии в программном режиме

Статистический анализ медицинских данных ...

(автоматически). Во-вторых, при автоматическом расчете точность его выше, а число ошибок меньше, чем при ручном расчете.

3. 1.3. Идентификация участников (объектов)

исследования

При внесении данных необходимо обозначить, к какой из

исследуемых групп относится каждый участник (объект) иссле

дования. В этом случае каждой исследуемой группе присваивает

ся свой код (обычно натуральное, т.е. qелое положительное чис ло) - 1, 2, 3 и т.д. Для этого в таблиqе создают спеqиальный столбеq. Для каждого объекта исследования (больного, или уча

стника исследования) в этот столбеq заносят соответствующий

код группы.

Группирующим называется качественный признак порядко

вого или номинального типа, значения которого определяются

(детерминируются) исследуемой группой. Значения группирую

щего признака - это коды групп. Иногда такой признак назы

вают таюке индикатором группы.

Достаточно часто больные из исследуемых групп различаются

также по другим дополнительным признакам, т.е. существуют

подгруппы, которые в дальнейшем планируется сопоставлять по

каким-либо еще параметрам. Подгруппа (или несколько под

групп) аналогично должны быть закодированы натуральными числами в дополнительном столбqе (или столбqах).

Таким образом, один файл данных может содержать несколь ко группирующих признаков. Вообще говоря, любой из качест

венных признаков может рассматриваться как группирующий.

Любой из количественных признаков может таюке быть превра щен в группирующий после разбивки области значений этого признака на интервальr, каждому из которых может быть припи сано условное значение (код). Такая разбивка на интервальr мо

жет быть проведена в любом модуле ППП STАТISТICA путем

обращения к опqии "Перекодировать" ("Recode") в меню "Пе ременные" ("VariaЬles") (см. раздел 4.4).

3. 1.4. Пропущенные (отсутствующие) значения

данных

Если информаqия у какого-либо больного по какому-либо

признаку отсутствует, следует оставить соответствующую клетку

Глава 3. Подготовка данных к статистическому анализу

пустой. Если значение какого-либо признака равно нулю, то в

клетке должна стоять gифра "О". Например, в таблиgе данных,

представленной на рис. 3.2, диагноз закодирован gифрами 1 и 2 ( столбеg 3), тип течения заболевания определяется только для

диагноза 1 (столбеg 4) и закодирован gифрами 1, 2, 3, значения

фибриногена измерены только у 1, 2, 4 и 5-го больных, причем у 5-го его значение равно нулю.

	Фамилия	Группа	Подrруппа	Уровень
№	Фамилия	Группа	(тип	Уровень
№	больноrо	(диаrноз)	(тип	8-фибриноrена
	больноrо	(диаrноз)	течения)	8-фибриноrена
			течения)
1	Федоров	1	1	1
2	Климентьев	2		1
3	Некрасов	1	3
4	Суворов	1	2	3
5	Кузнецов	2		о

Рис. 3.2. Пример структуры таблиIJЫ данных в пакете приклад ных проrрамм STAТISТICA.

3. 1.5. Данные динамических исследований

Если исследование является динамическим, т.е" например,

каждый больной обследовался в период наблюдения дважды, три

жды и т.д" то следует использовать один из двух способов разме

щения данных в электронной таблиgе.

Первый способ. Данные о каждом больном занимают в таб лиgе число строк, равное числу его обследований. При этом вво дится дополнительный столбеg, в котором могут фиксироваться (в зависимости от необходимости) следующие данные:

число дней от начала заболевания;

-дата;

-фаза исследования (до или после лечения).

Второй способ. Данные о каждом больном располагают в

одной строке таблиgы, при этом количество столбgов с изменяю

щимися в динамике данными увеличивается во столько раз, сколько

раз обследован больной. При таком способе размещения данных

каждый столбеg должен иметь уникальное название, следовательно,

Статистический анализ медицинских данных ...

столбgы с изменяющимися данными должны иметь какие-либо

индексы, например "Холестl", "Холест2" и "Холест3".

Таким образом, при использовании любого из перечисленных способов размещения данных вся информаgия, которой распола гает исследователь, должна быть внесена в одну таблиgу.

Выбор одного из описанных способов размещения динамиче

ских данных может определяться следующим соображением. Если

количество измеряемых в динамике признаков составляет более

50% от общего числа признаков, то эффективнее использовать

первый способ, если наоборот, то второй способ. Существенную роль при выборе того или иного способа раз

мещения данных играют те статистические методы, которыми

исследователь будет в дальнейшем пользоваться. Однако для суж дения об этом исследователь должен иметь определенный опыт выполнения статистического анализа данных в том или ином ППП, поэтому на этих аргументах мы здесь не останавливаемся. Отме

тим лишь, что при всестороннем анализе данных динамических

исследований приходится пользоваться обоими перечисленными способами для применения разных методов анализа, т.е. пере форматировать данные в ходе исследования.

3. 1.6. Данные для анализа времени

до наступления исхода

В медиgинских исследованиях обычно оgенивается какой-либо

наблюдаемый исход - возникновение осложнения, реgидива, вы

здоровление, смерть и др. Таким образом, понятие "анализ вре мени до наступления исхода" имеет более широкий смысл, чем понятие "анализ дожития" - термин, ранее более распростра

ненный.

Следует заметить, что момент включения больного в исследо

вание должен быть особо оговорен и обоснован, т.е. больные долж

ны включаться в исследование строго на одном и том же этапе их

заболевания. Например, в момент постановки диагноза или в

момент проведения операgии. В этом случае выборка называется синхронизированной когортой. Только такая когорта может ис

следоваться с gелью анализа времени до наступления исхода.

Данные для такого рода анализа готовятся особым образом. В двухмерной таблиgе данных в строки (как и в других слу чаях) вносятся отдельные объекты исследования (клинические случаи, больные), а в столбgы - их признаки. Однако поскольку

Глава 3. Подготовка данных к статистическому анализу

не все объекты исследования бывают прослежены до момента

наступления исхода (поскольку больные выбывают по ходу ис следования), то в отдельный столбеg (индикатор gензурирова

ния; это признак, содержащий сведения о свойстве наблюдения

- gензурированное оно или нет) вносится следующая информа gия о каждом из объектов исследования:

-если исход известен - это так называемое завершенное на

блюдение. В данном случае вносится значение "О";

-если исход неизвестен (больной выбыл из исследования до

наступления исхода или на момент окончания исследования

у больного исход не наступил) - это незавершенное (gензу

рированное) наблюдение, вносится значение "1 ".

Впринgипе коды могут быть и другими. Мы привели лишь

обычно используемые значения.

Веще один спеgиальный столбеg вносится время от момента включения больного в исследование до момента наступления ис

хода или выбытия из исследования.

Друтой способ - указание в одном из столбgов даты вклю чения, а в другом столбgе - даты наступления исхода или выбы

тия из исследования. В этом случае период времени рассчитыва

ется путем вычитания дат. При этом надо строго соблюдать фор мат представления даты, чтобы результат вычитания оказался

правильным.

3. 1.7. Проверка данных

После внесения данных в электронную таблиgу следует про

вести проверку данных с gелью выявления возможных ошибок

двух типов:

-ошибки ввода (набора);

-ошибки измерений.

Наиболее просто установить ошибки набора. Для этого мож

но поступить следующим образом. Щелкнув на имени столбgа

два раза, Вы увидите окно спеgификаgии признака, внесенного в

этот столбеg (рис. 3.3). Нажав на кнопку "Знач./статист.", можно

увидеть все значения этого признака.

Среди них иногда можно заметить некоторые опечатки (на пример, "2"34"). Это явные ошибки набора. Их следует испра

вить, предварительно сверившись с первоисточником данных

(~апример, лабораторным журналом).

Глава 3. Подготовка данных к статистическому анализу

ка набора. Если же такого рода ошибки не произошло, то это,

вероятнее всего, так называемое выпадающее значение (вы

брос). О работе с такими значениями признака см. раздел

7.3.5.

3. 1.8. Перенос данных, подготовленных

в других программах, в таблицу данных

пакета STAТISТICA

Возможен перенос данных из файлов всех наиболее распро

страненных форматов, в том числе форматов *.dЬf, *.db, *.xls, ASCII и ряда других. Ниже мы рассмотрим два наиболее распро страненных способа внесения данных из других программ.

Использование буфера обмена MS Windows. Для перено

са данных из оn<рытого окна другой электронной таблиgы какого

либо из приложений, работающих в среде MS Windows (напри

мер, таблиgы MS Excel или MS Word), может использоваться бу фер обмена Windows, т.е. использование операgий "Копирова-

ние" ("Сору") и "Вставка" ("Рaste") . Такои~ перенос неудобен

потому, что при этом не переносятся заголовки столбgов таблиgы

MS Excel в заголовки таблиgы данных ППП STАТISТICA, поэтому

в дальнейшем необходимо заново задать названия столбgов в таб

лиgе данных ППП STАТISTICA.

Перенос данных из программы MS Excel. Если данные уже подготовлены в пакете MS Excel версий 7.0, 8.0 или 2000, то

для последующего переноса данных в ППП STАТISТICA версии

4. * или 5. * потребуется предварительно сохранить их в формате Excel 3.0 или 4.0. Для переноса в STAТISТICA'99 (версия 5.5)

предварительного сохранения в форматах более ранних версий

MS Excel не требуется.

Замечание. Файлы данных, созданные и.ли отредаюпи

робанные 8 ППП STAТISТICA Версии 5.5, не моzут быть по том открыты 8 ППП STАТISТICA более ранних Версий (на

пример, 4.3 ). Это аналогично ситуации с не8озможностью

открытия 8 более ранних Версиях MS Word документов, соз

данных 8 более поздних Версиях тою же тексто8ого редак

тора. Однако 8 отличие от MS Word 8 ППП STAТISТICA 5.5

не предусмотрена Возможность сохранения файлов данных

8 формате более ранних Версий этой проzраммы.

Перенос данных осуществляется в модуле "Управление дан-

ными".

<<< < Предыдущая 1 2 3 45 / 315 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение

#
24.03.20243.26 Mб1Статистика_в_кардиологии_15_лет_спустя_Леонов_В_П_.pdf
#
24.03.20248.42 Mб1Статистические_методы_в_научных_медицинских_исследованиях_Сепетлиев.pdf
#
24.03.202420.23 Mб1Статистические_показатели_заболеваемости_сотрудников_федеральной.pdf
#
24.03.20245.96 Mб3Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько.pdf
#
24.03.202422.12 Mб1Статистический_анализ_медицинских_данных,_О_Ю_Реброва.pdf
#
24.03.202415.15 Mб9Статистический_анализ_медицинских_данных_Применение_пакета_прикладных.pdf
#
24.03.20242.02 Mб1Стратегия_в_области_репродуктивного_здоровья_ВОЗ.pdf
#
24.03.2024971.51 Кб1Стратегия_ВОЗ_в_области_народной_медицины_2002_2005_гг_ВОЗ.pdf
#
24.03.202451.55 Mб16Схема_терапия_Практическое_руководство_Джеффри_Янг_2020_meduniver.pdf
#
24.03.20241.85 Mб1ТЕЛЕМЕДИЦИНА_В_МЕДИЦИНСКИХ_ОРГАНИЗАЦИЯХ_МОНОГРАФИЯ.pdf
#
24.03.20241.18 Mб1Теория_эксперимента_Курс_лекций_в_2_ч_часть_1_Блохин.pdf