- •1 СТАТИСТИЧЕСКАЯ ОБРАБОТКА БИОМЕДИЦИНСКОЙ ИНФОРМАЦИИ
- •1.1 Биомедицинская информация и способы ее получения
- •1.2 Организация медико-статистических исследований
- •1.3 Относительные величины
- •1.4 Статистическая обработка вариационного ряда
- •1.4.1 Основные понятия и определения
- •1.4.2 Методика составления вариационного ряда
- •1.4.3 Методика статистической обработки вариационного ряда при нормальном законе распределения вариант
- •1.4.4 Расчет статистических характеристик при малом числе наблюдений
- •1.5 Выборочный метод исследований
- •1.5.1 Формирование выборочной совокупности
- •1.5.2 Определение объема выборочной совокупности
- •1.5.3 Сравнение средних арифметических величин двух выборок из совокупности с нормальным распределением вариант
- •1.6 Основы дисперсионного анализа
- •1.6.1 Общие положения
- •1.6.2 Методика однофакторного дисперсионного анализа
- •1.6.3 Методика двухфакторного дисперсионного анализа
- •1.6.4 Методика однофакторного дисперсионного анализа альтернативных признаков
- •1.7 Определение соответствия эмпирических и теоретических данных
- •1.7.1 Общие положения
- •1.7..2 Определение соответствия признаков альтернативных явлений
- •1.7.3 Определение критерия χ2 по данным, представленным в сложных таблицах
- •1.7.4 Проверка соответствия фактических частот вариационного ряда теоретическому распределению
- •1.8 Корреляционный анализ
- •1.8.1 Способы выявления корреляционной связи
- •1.8.2 Виды и теснота корреляционной связи
- •1.8.2 Определение коэффициент корреляции при малом числе наблюдений
- •1.8.3 Определение коэффициент корреляции при большом числе наблюдений
- •1.8.4 Средняя ошибка коэффициента корреляции
- •1.8.5 Определение тесноты связи между качественными признаками
- •1.8.6 Множественная корреляция
- •1.8.7 Понятие о корреляционном отношении
- •1.9 Основы регрессионного анализа
- •1.10 Непараметрические критерии в медицинских исследованиях
- •1.10.1 Критерии для характеристики одной совокупности
- •1.10.2 Критерии различия для двух сопряженных совокупностей
- •1.10.3 Критерии различия для двух несопряженных совокупностей
- •1.10.3 Непараметрические методы изучения связи
- •1.11 Современное программное обеспечение для статистической обработки биомедицинских исследований
- •2 ПРИНЦИПЫ ПОСТРОЕНИЯ БАНКОВ ДАННЫХ
- •2.1 Общие сведения о банках данных
- •2.2 Типы баз данных
- •2.2.1 Автономные базы данных
- •2.2.2 Файл-серверные базы данных
- •2.2.3 Многоярусные базы данных
- •2.2.4 Базы данных клиент/сервер
- •2.3 Реляционный подход к построению БД
- •2.3.1 Реляционная модель данных
- •2.3.1.1 Целостность данных
- •2.3.2 Реляционная алгебра
- •2.3.3 Реляционное исчисление
- •2.4 Иерархический и сетевой подходы
- •2.4.1 Иерархический подход.
- •2.4.2 Сетевой подход.
- •2.5 Инвертированные базы данных
- •2.6 Принципы построения реляционных баз данных
- •2.6.1 Процедура индексирования
- •2.6.2 Организация связи с базами данных прикладных программ
между этими записями. Примерный перечень операций для сетевых БД может быть следующим:
■найти запись по заданному признаку;
■перейти от предка к потомку по указанной связи;
■перейти от потомка к предку по некоторой связи;
■создать новую запись или удалить существующую;
■модифицировать заданную запись;
■включить в связь или исключить из связи;
■переставить в другую связь.
2.5Инвертированные базы данных
Ознакомление с различными моделями данных показало, что поиск необходимой информации требует значительных затрат времени даже для иерархических СУБД, особенно при больших объемах баз данных. Однако если удается выделить совокупность признаков, по которым формируется запрос, то можно предложить способ организации баз данных, значительно сокращающий время поиска затребованной информации. В основе такого способа лежит понятие ин-
вертированного списка.
Инвертированный список представляет собой таблицу, в первом столбце которой помещены значения данного признака, а во втором – указатели на соответствующие записи в БД. Допустим, в примере базы данных, приведенной в таблице «Заболевания», в записях о видах заболеваний необходимо выявить заболевания, имеющие одинаковое количество обращений.
ТаблицаЗаболевания
№ |
№ участка |
Вид заболевания |
Количество об- |
|
|
|
ращений |
1 |
1 |
ОРВИ |
16 |
2 |
1 |
Ангина |
4 |
3 |
2 |
ОРВИ |
2 |
4 |
2 |
Грипп |
3 |
5 |
3 |
Бронжит |
16 |
6 |
3 |
Грипп |
16 |
7 |
4 |
Ангина |
11 |
8 |
4 |
ОРВИ |
4 |
Тогда все записи о видах заболеваний могут быть скомпонованы плотно в памяти друг за другом и иметь порядковые номера, соответствующие их последовательности в таблице «Заболевания». Наряду с этим создается инвертированный список в таком виде:
124
Количество |
2 |
3 |
4 |
11 |
16 |
обращений |
|
|
|
У7 |
|
Список |
У3 |
У4 |
У2,У8 |
У1,У5,У6 |
|
указателей |
|
|
|
|
|
Обозначение УN представляет собой изображение указателя на N–ю запись. Таким образом, инвертированный список как бы заранее хранит ответ на вопрос «Назвать виды заболевания, имеющих определенное количество обращений пациентов». В примере количество обращений выступает в качестве признака в запросе. Конечно, можно выделить и другие признаки: например, на каком участке имеют место обращения по поводу того или иного заболевания. Для каждого признака поиска должен быть построен свой инвертированный список.
Наличие нескольких инвертированных списков позволяет строить запрос в виде некоторой логической функции от совокупности признаков (дизъюнкции, конъюнкции, отрицание).
Для поиска необходимой записи в этом случае должны быть выполнены следующие действия:
1)выделить в запросе признаки поиска;
2)определить вид логической функции между запрашиваемыми признаками;
3)для каждого признака в нужном инвертированном списке найти множество указателей на записи;
4)в соответствии с видом логической функции произвести операции над множествами указателей.
Соответствие операций над множествами указателей виду логической функции должно быть принято из разделов по реляционной алгебре. Так, логической функции дизъюнкции ставится в соответствие операция объединения множеств, конъюнкции – операция пересечения множеств, отрицанию – операция дополнения и т.д. Для запроса «Какие заболевания имеют количество посещений 16 и имели место на участке№1» в ходе поиска будут выполнены следующие действия:
1)в запросе два признака, количество посещений и № участка;
2)вид логической функции в запросе – конъюнкция;
3)для признака «количество посещений» в инвертированном списке значению 16 будет соответствовать множество указателей {У1, У5, У6}; признаку «№ участка» в соответствующем инвертированном списке для значения «№ участка 1» - множество указателей {У1, У2}.
4)над найденными двумя множествами указателей производится операция перечисления. В итоге получается искомый результат: {У1}. По этому
номеру в файле записей будет найдена запись о заболевании ОРВИ. Если для всех записей, хранящихся в базе данных, созданы инвертирован-
ные списки для возможных вариантов запросов, то такая база данных называется инвертированной. Инвертированные БД широко используются в информа-
125