Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Исследование влияния различных факторов на потр...doc
Скачиваний:
5
Добавлен:
14.11.2019
Размер:
1.47 Mб
Скачать

Кластерный анализ

Цель кластерного анализа заключается в выделении групп однородных объектов, сходных между собой и резко отличающихся друг от друга. Необходимо выявить естественное разбиение на классы, свободные от субъективизма исследователя или от сложившейся традиции объединения объектов в группы. В данном исследовании, соответственно, нужно посмотреть возможность выделения нескольких групп регионов на основании присущих им признаков.

Для этого построим дендрограммы методом внутригрупповых и межгрупповых связей.

На основании анализа дендрограмм можно предположить, что кластеров будет 3 или 4.

Методом к-средних разобьем совокупность на 4 кластера.

Число наблюдений в каждом кластере

Кластер

1

4,000

2

1,000

3

64,000

4

9,000

Валидные

78,000

Пропущенные значения

,000

В кластер 2 входит только одно наблюдение – Республика Тыва. Такое разбиение явно не подходит, так как из четырех кластеров два оказываются недостаточно заполненными. Также на графике значений конечных центров кластеров видно, что 3 из 4 кластеров имеют очень близкие центры по переменной X5, а эта переменная (уровень преступности) является самой значимой во влиянии на результирующую переменную (это было показано в ходе регрессионного и факторного анализа).

Рассмотрим разбиение на 3 кластера.

Число наблюдений в каждом кластере

Кластер

1

26,000

2

5,000

3

47,000

Валидные

78,000

Пропущенные значения

,000

В этом разбиении уже нет ненаполненных кластеров.

Кластеризация проводится на основе стандартизованных переменных, по которым сложно дать названия для кластеров, поэтому рассмотрим средние значения не стандартизованных переменных вкаждом кластере.

кластер

Численность населения с денежными доходами ниже прожиточного минимума

Реальная начисленная заработная плата

Уровень безработицы

Соотношение браков и разводов

Число зарегистрированных преступлений на 100 человек населения

Общая площадь жилых помещений, приходящаяся в среднем на одного жителя

1

12,86

18582,01

6,96

637,54

1,96

24,69

2

16,7

10481,96

14,38

325,6

1,17

18,62

3

18,7

13675,77

9,88

599,83

2,19

22,08

Кластер №1 назовем благополучным, так как среди его регионов меньше всего людей с доходами ниже прожиточного минимума, реальная начисленная зарплата велика, уровень безработицы очень мал (чуть выше естественного уровня), относительно высокое соотношение браков и разводом (а чем выше этот показатель, тем сильнее развито общество). Число зарегистрированных преступлений не самое низкое, но ниже, чем в неблагополучном кластере, а площадь жилых помещений самая большая. К этому кластеру относятся такие регионы как Москва, Санкт-Петербург, Татарстан и другие (полный список регионов см. в приложении).

Кластер №3 назовем неблагополучным, так как в этой группе хуже и рынок труда (численность бедного населения и уровень безработицы примерно в полтора раза выше, чем в благополучном) и условия жилья, и в целом реальная зарплата на 26% ниже, а число зарегистрированных преступлений на 12% выше. К этой группе относятся регионы Урала и Сибири.

Кластер №2 можно назвать бедственным. В него входит всего 5 республик: Дагестан, Кабардино-Балкарская, Карачаево-Черкесская, Северная Осетия – Алания и Тыва. Они характеризуются крайне низкой реальной заработной платой, очень высоким уровнем безработицы, самой маленькой площадью жилых помещений на одного человека. Что интересно, в этих республиках соотношение разводов и браков в 2 раза ниже, чем во всех остальных, и почти в 2 раза – уровень преступности. Первое наблюдение можно объяснить тем, что в этих регионах общество более традиционное, а второе – тем, что многие преступления просто не регистрируются. Также в этом кластере меньше всего значение результирующей переменной – потребления алкоголя: 0,94 (в остальных кластерах эти значения почти одинаковые: 1,62 в первом и 1,67 во втором). Это объясняется тем, что в 4 из 5 этих республик преобладающим является мусульманское население, которому религией запрещено принимать алкоголь.

Необходимо отметить, что данное разбиение нельзя считать оптимальным, так как внутригрупповые дисперсии по каждому признаку почти всегда превышают межгрупповые (близость кластеров и центроидов будет показана в дальнейшем при дискриминантном анализе).

Кластерный анализ на главных компонентах

Разобьем наблюдения на 3 кластера, основываясь не на переменных, а на главных компонентах.

Число наблюдений в каждом кластере

Кластер

1

38,000

2

31,000

3

9,000

Валидные

78,000

Пропущенные значения

,000

Это разбиение получилось заметно более однородным, чем разбиение по переменным.

Судя по графику, кластеры действительно сильно отличаются друг от друга.

Рассмотрим средние значения по группам.

кластер

Численность населения с денежными доходами ниже прожиточного минимума

Реальная начисленная заработная плата

Уровень безработицы

Соотношение браков и разводов

Число зарегистрированных преступлений на 100 человек населения

Общая площадь жилых помещений, приходящаяся в среднем на одного жителя

1

15,43

12277,89

8,73

572,34

1,60

23,41

2

15,81

19262,75

8,36

643,68

2,46

22,85

3

24,50

12733,14

14,03

521,44

2,56

19,39

кластер

Главная компонента №1: социально-экономическое положение населения

Главная компонента №2: Уровень преступности.

1

0,0223545

-0,8250542

2

0,4413345

0,74009129

3

-1,614537

0,93435778

По средним значениям главных компонент можно охарактеризовать кластер №1 как спокойный (в нем самый низкий уровень преступности и средний уровень жизни), кластер №2 как развитый (относительно высокий уровень преступности и самый высокий уровень жизни), а кластер №3 как неблагополучный (самый высокий уровень преступности и очень низкий уровень жизни).

При таком разбиении те кавказские республики, которые в предыдущем разбиении были выделены в отдельный «бедственный» кластер, попали в группу к «спокойным» регионам (вероятно, из-за низкого количества зарегистрированных преступлений), Тыва – в «неблагополучный» кластер, где, кроме неё, в основном Сибирские регионы.

По уровню потребления алкоголя эти кластеры почти не отличаются: 1,58, 1,67 и 1,57 соответственно. При этом у «развитой» группы уровень потребления алкоголя выше остальных.

В этом разбиении только по второй главной компоненте значения внутригрупповых дисперсий ниже, чем межгрупповая дисперсия, то есть уровень преступности действительно является одним из важнейших факторов, определяющих потребление алкоголя. Значения первой компоненты несильно различаются между группами.

В итоге можно сделать вывод, что однозначного естественного расслоения на кластеры по данным признакам не существует, поскольку разбиение по переменным и поглавным компонентам дало такое существенное различие в результатах, но, применяя разные методики, можно каждый раз получить объяснимое и логичное распределение регионов по группам.