- •С.П. Казаков
- •Содержание
- •1. Элементы теории вероятностей
- •1.1. Общие понятия
- •1.2. Сумма и произведение случайных событий,
- •1.3 Формула полной вероятности, формула Байеса
- •1.4 Схема Бернулли
- •1.5 Дискретные случайные величины
- •1.6 Непрерывные случайные величины
- •1.6.2 Числовые характеристики непрерывных случайных величин
- •1.3 – Плотности распределения случайных величин
- •1.7 Нормальное распределение
- •1.8 Основы теории надежности
- •1.8.2. Надежность элементов
- •Контрольные вопросы и задачи
- •2. Случайные прцессы
- •2.1Общие понятия
- •2.2 Непрерывный нормальный
- •2.3 Нестационарный случайный процесс (временной ряд)
- •2. 4 Марковские случайные процессы
- •Самостоятельная работа № 2
- •3. Математическая статистика
- •3.1 Общие понятия и задачи математической статистики
- •3.2 Выборочный метод
- •175, 166, 169, 179, 164, 170, 169, 167, 175, 181.
- •158, 162, 163, 164, 165, 166, 167, 168, 169,169,
- •170, 170, 171, 174, 175, 175, 177, 179, 180, 181.
- •3.3 Точечные оценки параметров распределений
- •3.4 Доверительные интервалы
- •3.5 Отсев грубых ошибок и определение минимально
- •3.6Проверка статистических гипотез
- •6, 4, 5, 7, 6, 4, 8, 6, 8, 9. 3, 2, 0, 4, 4, 3, 4, 1, 5, 7.
- •3, 6, 3, 4, 6, 9, 4, 9, 6, 5. 3, 4, 6, 4, 2, 3, 6, 3, 4, 1.
- •4 Статистические зависимости и связи
- •4.1 Подбор эмпирических формул (парная корреляция)
- •4.2 Практическая задача: проверка легитимности выборов
- •4.3 Множественная корреляция
- •4.4 Задачи классификации
- •Теория вероятностей, случайные процессы и математическая статистика
4.4 Задачи классификации
При решении многих задач, связанных со статистическим анализом и группировкой объектов, характеризующихся несколькими разнородными параметрами, помогают статистические методы распознавания образов или классификации многомерных наблюдений. Введем некоторые понятия.
Распознавание образов – это раздел кибернетики (математики), разрабатывающий принципы и методы классификации и идентификации предметов, явлений и процессов – всех тех объектов, которые могут быть описаны набором признаков или свойств, их характеризующих.
Идентификация– опознание, отождествление объектов по группе основных признаков. Имеется и другое, социальное понимание идентификации как процесса эмоционального и иного отождествления личности с другим человеком, группой, образом.
Классификация многомерных наблюдений– метод, позволяющий разделять неоднородные статистические совокупности на группы (классы), выделять определяющие факторы такого разделения и предусматривать возможность корректировки классов при поступлении новых данных.
Постановка задач классификации многомерных наблюдений заключается в следующем. Предположим, что объекты исследований характеризуются вектором параметров
,
где n– число параметров;i– число наблюдаемых объектов,.
Необходимо сгруппировать объекты в отдельные совокупности (кластеры, таксоны), являющиеся однородными по некоторым качественным признакам.
Приведем примеры подобных задач, возникающих в гуманитарных исследованиях.
1) В команду подбирается группа квалифицированных хоккеистов, которые должны, кроме прочего: ужиться с коллективом, быть нацеленными на успехи команды и ориентироваться на длительный контракт. Какие факторы при этом нужно учитывать и можно ли «вычислить» неподходящих претендентов?
2) Требуется сгруппировать отдельные города региона по критерию «социально – экономическое лицо города». Желательно учесть численность населения, уровень дохода, вид градообразующих предприятий, расположение города на территории РФ, традиции и т.д. Как выявить степень важности отдельных факторов и как оценить уровень их значимости?
3) Необходимо дать прогноз динамики криминогенной преступности в регионе и изменений в ее социально – экономической направленности. Какими данными и как при этом пользоваться?
В связи с комплексным подходом к решению задач собственно классификации возникают две статистические задачи:
- во-первых, как выявить наиболее информативные признаки, число которых pдолжно быть меньше числа параметров объектов (р<n);
- во-вторых, как осуществить такую группировку объектов, при которой каждый из них попадал бы только в один класс, т.е. выбрать алгоритм классификации.
Для решения этих задач существует ряд специальных методов. Наиболее распространённые из них следующие.
Кластерный (таксономический) анализ– позволяет объединять в однородные группы различные параметры и объекты с помощью некоторой метрики, например, евклидова расстояния. Число классов заранее не определено. Задача кластерного анализа состоит в представлении первичной информации в сжатом виде и переходе от параметров объектов к признакам без чрезмерной потери информации.
Дискриминантный анализ– решает задачу разделения объектов на два класса. Для этого осуществляется переход от параметров объектов к специальной дискриминантной функции. Затем с помощью некоторого решающего правила осуществляется классификация.
Факторный анализ– позволяет преобразовать набор коррелированных параметров в меньшее число некоррелированных агрегированных признаков, являющихся линейной комбинацией параметров, т. е. осуществить признаковую классификацию.Основной задачей факторного анализа является группировка схожих по смыслу утверждений в макрокатегории (факторы) с целью сократить число переменных и упростить процедуру анализа существующей базы данных.
В ходе выполнения факторного анализа решаются следующие задачи:
- выявляются корреляционные взаимосвязи между переменными исходного массива;
- определяется оптимальное число факторов (компонент факторной модели), т.е. групп, на которые может быть разделен существующий массив переменных;
- разделяется существующий массив переменных на группы на основании значений коэффициентов корреляции;
- интерпретируются результаты, т.е. производится подбор названий созданным факторам.
Метод главных компонент– даёт возможность путем привлечения всехnпараметров перейти кp=n агрегированным признакам (ортогональным главным компонентам), затем оценить информативность каждой компоненты и ограничиться использованием одной – двух. Метод позволяет оценить информативность каждого из nисходных параметров.
Особенностью метода главных компонент является возможность использования для классификации так называемых обучающих выборок. Например, выбираются две группы лиц: осужденных ранее за совершение определённого вида преступлений и группы законопослушных граждан. Каждого из них отображают в векторное пространство анализируемых параметров. Параметрамимогут быть уровень образования, возраст, среда воспитания, антропологические данные и др. Затем производится математическое преобразование массивов данных таким образом, чтобы в новой метрике группы разделились на два класса, “отстоящие” друг от друга на наибольшее расстояние. Теперь, если задаться параметрами, характеризующими новый объект и аналогичным образом преобразовать их, можно спрогнозировать степень криминальной опасности нового индивидуума. Это даёт возможность повышения эффективности профилактики преступлений.
Контрольные вопросы и задачи.
1.Определить коэффициенты a,b в формуле y=a+bx для значений (,) и вычислить коэффициент корреляции. Построить график .
Таблица 4.19 – Статистические данные по вариантам
Вариант |
А |
Б |
В |
г |
Д |
Е |
Значения статистических данных |
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
| |
|
|
|
|
|
| |
|
|
|
|
|
| |
|
|
|
|
|
| |
|
|
|
|
|
| |
|
|
|
|
|
|
2.Найти статистическую зависимость вида y = axb, определить корреляционное отношение и построить график.
Таблица 4.20 – Статистические данные по вариантам
Вариант |
А |
б |
В |
Г |
Значения статистических данных |
|
|
|
|
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
|
3.Найти статистическую зависимость вида y = aebx, определить корреляционное отношение и построить график.
Таблица 4.21 – Статистические данные по вариантам
Вариант |
А |
б |
В |
Г |
Значения статистических данных |
|
|
|
|
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
|
4.Что такое коэффициенты парной, множественной и частной корреляции?
Самостоятельная работа № 4
Выполнить самостоятельную работу (таблица 4.22).
Таблица 4.22
Номер по списку |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Вопросы, задачи |
1а 2г 3а 4
|
1б 2а 3а 4
|
1в 2в 3б 4
|
1г 2б 3в 4 |
1д 2а 3б 4
|
1е 2г 3г 4
|
1в 2в 3б 4
|
1б 2б 3а 4
|
1г 2б 3в 4
|
1д 2а 3г 4
|
1а 2в 3в 4 |
1е 2г 3г 4
|
Продолжение таблицы 4.22
Номер по списку |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
Вопросы, задачи |
1а 2б 3б 4
|
1б 2в 3а 4
|
1в 2а 3в 4
|
1г 2г 3б 4
|
1д 2а 3г 4
|
1е 2г 3а 4
|
1в 2б 3в 4
|
1б 2а 3а 4
|
1г 2г 3г 4
|
1д 2в 3г 4
|
1а 2б 3в 4
|
1е 2в 3б 4
|
БИБЛИОГРАФИЯ
1 Гмурман В.Е. Теория вероятностей и математическая статистика. Учеб. пособие для вузов. [Текст] / В.Е. Гмурман. – М.: Высш. шк., 2000. – 242 с.
2 Казаков С.П. Математика и статистика:учебное пособие.[Текст]./ С.П.Казаков. – НФИ Кем ГУ: Новокузнецк, 2005. – 170 с.
3 Печенкин А.В. Теория вероятностей [Текст] / А.В. Печенкин, О.И. Тескин, Г.М.Цветкова и др. – М.: МГТУ им. Н.Э.Баумана, 1999. – 456 с.
4 Волков И.К. Случайные процессы [Текст]./ Волков И.К., Зуев С.М., Цветкова Г.М. – М.: МГТУ им. Н.Э.Баумана, 2000. – 448 с.
5 Айвазян С.А. Прикладная статистика: исследование зависимостей [Текст] / С.А.Айвазян, И.С.Енюков, Л.Д.Мешалкин. – М.: Финансы и статистика, 1985. – 488 с.
6 Хлебопрос Р. Г. Природа и общество: модели катастроф [Текст] / Р. Г. Хлебопрос, А. И. Фет. – Новосибирск: Сибирский хронограф, 1994. – 344 с.
7 Казаков С.П. Основы научных исследований:учебное пособие.[Текст]./ С.П.Казаков, В.В.Сенкус, К.С.Горбунов. – НФИ КемГУ: Новокузнецк, 2003. – 165 с.
Казаков Сергей Павлович,
докт.техн.наук, профессор