Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
твмс Казаков 2010.doc
Скачиваний:
74
Добавлен:
29.05.2015
Размер:
3.28 Mб
Скачать

4.4 Задачи классификации

При решении многих задач, связанных со статистическим анализом и группировкой объектов, характеризующихся несколькими разнородными параметрами, помогают статистические методы распознавания образов или классификации многомерных наблюдений. Введем некоторые понятия.

Распознавание образов – это раздел кибернетики (математики), разрабатывающий принципы и методы классификации и идентификации предметов, явлений и процессов – всех тех объектов, которые могут быть описаны набором признаков или свойств, их характеризующих.

Идентификация– опознание, отождествление объектов по группе основных признаков. Имеется и другое, социальное понимание идентификации как процесса эмоционального и иного отождествления личности с другим человеком, группой, образом.

Классификация многомерных наблюдений– метод, позволяющий разделять неоднородные статистические совокупности на группы (классы), выделять определяющие факторы такого разделения и предусматривать возможность корректировки классов при поступлении новых данных.

Постановка задач классификации многомерных наблюдений заключается в следующем. Предположим, что объекты исследований характеризуются вектором параметров

,

где n– число параметров;i– число наблюдаемых объектов,.

Необходимо сгруппировать объекты в отдельные совокупности (кластеры, таксоны), являющиеся однородными по некоторым качественным признакам.

Приведем примеры подобных задач, возникающих в гуманитарных исследованиях.

1) В команду подбирается группа квалифицированных хоккеистов, которые должны, кроме прочего: ужиться с коллективом, быть нацеленными на успехи команды и ориентироваться на длительный контракт. Какие факторы при этом нужно учитывать и можно ли «вычислить» неподходящих претендентов?

2) Требуется сгруппировать отдельные города региона по критерию «социально – экономическое лицо города». Желательно учесть численность населения, уровень дохода, вид градообразующих предприятий, расположение города на территории РФ, традиции и т.д. Как выявить степень важности отдельных факторов и как оценить уровень их значимости?

3) Необходимо дать прогноз динамики криминогенной преступности в регионе и изменений в ее социально – экономической направленности. Какими данными и как при этом пользоваться?

В связи с комплексным подходом к решению задач собственно классификации возникают две статистические задачи:

- во-первых, как выявить наиболее информативные признаки, число которых pдолжно быть меньше числа параметров объектов (р<n);

- во-вторых, как осуществить такую группировку объектов, при которой каждый из них попадал бы только в один класс, т.е. выбрать алгоритм классификации.

Для решения этих задач существует ряд специальных методов. Наиболее распространённые из них следующие.

Кластерный (таксономический) анализ– позволяет объединять в однородные группы различные параметры и объекты с помощью некоторой метрики, например, евклидова расстояния. Число классов заранее не определено. Задача кластерного анализа состоит в представлении первичной информации в сжатом виде и переходе от параметров объектов к признакам без чрезмерной потери информации.

Дискриминантный анализ– решает задачу разделения объектов на два класса. Для этого осуществляется переход от параметров объектов к специальной дискриминантной функции. Затем с помощью некоторого решающего правила осуществляется классификация.

Факторный анализ– позволяет преобразовать набор коррелированных параметров в меньшее число некоррелированных агрегированных признаков, являющихся линейной комбинацией параметров, т. е. осуществить признаковую классификацию.Основной задачей факторного анализа является группировка схожих по смыслу утверждений в макрокатегории (факторы) с целью сократить число переменных и упростить процедуру анализа существующей базы данных.

В ходе выполнения факторного анализа решаются следующие задачи:

- выявляются корреляционные взаимосвязи между переменными исходного массива;

- определяется оптимальное число факторов (компонент факторной модели), т.е. групп, на которые может быть разделен существующий массив переменных;

- разделяется существующий массив переменных на группы на основании значений коэффициентов корреляции;

- интерпретируются результаты, т.е. производится подбор названий созданным факторам.

Метод главных компонент– даёт возможность путем привлечения всехnпараметров перейти кp=n агрегированным признакам (ортогональным главным компонентам), затем оценить информативность каждой компоненты и ограничиться использованием одной – двух. Метод позволяет оценить информативность каждого из nисходных параметров.

Особенностью метода главных компонент является возможность использования для классификации так называемых обучающих выборок. Например, выбираются две группы лиц: осужденных ранее за совершение определённого вида преступлений и группы законопослушных граждан. Каждого из них отображают в векторное пространство анализируемых параметров. Параметрамимогут быть уровень образования, возраст, среда воспитания, антропологические данные и др. Затем производится математическое преобразование массивов данных таким образом, чтобы в новой метрике группы разделились на два класса, “отстоящие” друг от друга на наибольшее расстояние. Теперь, если задаться параметрами, характеризующими новый объект и аналогичным образом преобразовать их, можно спрогнозировать степень криминальной опасности нового индивидуума. Это даёт возможность повышения эффективности профилактики преступлений.

Контрольные вопросы и задачи.

1.Определить коэффициенты a,b в формуле y=a+bx для значений (,) и вычислить коэффициент корреляции. Построить график .

Таблица 4.19 – Статистические данные по вариантам

Вариант

А

Б

В

г

Д

Е

Значения статистических данных

2.Найти статистическую зависимость вида y = axb, определить корреляционное отношение и построить график.

Таблица 4.20 – Статистические данные по вариантам

Вариант

А

б

В

Г

Значения статистических данных

3.Найти статистическую зависимость вида y = aebx, определить корреляционное отношение и построить график.

Таблица 4.21 – Статистические данные по вариантам

Вариант

А

б

В

Г

Значения статистических данных

4.Что такое коэффициенты парной, множественной и частной корреляции?

Самостоятельная работа № 4

Выполнить самостоятельную работу (таблица 4.22).

Таблица 4.22

Номер по списку

1

2

3

4

5

6

7

8

9

10

11

12

Вопросы, задачи

4

4

4

4

4

4

4

4

4

4

4

4

Продолжение таблицы 4.22

Номер по списку

13

14

15

16

17

18

19

20

21

22

23

24

Вопросы, задачи

4

4

4

4

4

4

4

4

4

4

4

4

БИБЛИОГРАФИЯ

1 Гмурман В.Е. Теория вероятностей и математическая статистика. Учеб. пособие для вузов. [Текст] / В.Е. Гмурман. – М.: Высш. шк., 2000. – 242 с.

2 Казаков С.П. Математика и статистика:учебное пособие.[Текст]./ С.П.Казаков. – НФИ Кем ГУ: Новокузнецк, 2005. – 170 с.

3 Печенкин А.В. Теория вероятностей [Текст] / А.В. Печенкин, О.И. Тескин, Г.М.Цветкова и др. – М.: МГТУ им. Н.Э.Баумана, 1999. – 456 с.

4 Волков И.К. Случайные процессы [Текст]./ Волков И.К., Зуев С.М., Цветкова Г.М. – М.: МГТУ им. Н.Э.Баумана, 2000. – 448 с.

5 Айвазян С.А. Прикладная статистика: исследование зави­симостей [Текст] / С.А.Айвазян, И.С.Енюков, Л.Д.Мешалкин. – М.: Фи­нансы и статистика, 1985. – 488 с.

6 Хлебопрос Р. Г. Природа и общество: модели катастроф [Текст] / Р. Г. Хлебопрос, А. И. Фет. – Новосибирск: Сибирский хронограф, 1994. – 344 с.

7 Казаков С.П. Основы научных исследований:учебное пособие.[Текст]./ С.П.Казаков, В.В.Сенкус, К.С.Горбунов. – НФИ КемГУ: Новокузнецк, 2003. – 165 с.

Казаков Сергей Павлович,

докт.техн.наук, профессор