Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 2.docx
Скачиваний:
3
Добавлен:
01.06.2015
Размер:
128.05 Кб
Скачать

2.2 Формирование модели

Работу над задачей «Построение модели» проведем следующим образом:

Определим общую форму модели;

Статистически исследуем взаимосвязи между признаками с помощью процедур корреляционного анализа.

Начнем работу над формированием модели.

1). Определение общей формы модели.

Определим статус переменных и введем символьную запись:

Цена (у, price) – зависимая переменная, независимые переменные:

Класс отеля (х1, hotel);

Длительность отдыха (х2, duration);

Тип пития в отеле (х3, meal);

Категория номера (х4, room);

Расположение отеля относительно моря (х5, line);

Курортная зона (х6, place);

Горящая путевка (х7, last_minuit);

Пляж (х8, beach).

По содержанию изучаемого нами явления можно предположить, что связь между признаками будет линейной. Преимущества линейной формы связи заключается в простоте интерпретации модели и в получении надежных оценок параметров, благодаря процедурам оценивания, более доступным и надежным именно для линейных моделей.

2). Статистическое исследование взаимосвязи между признаками с помощью процедуры корреляционного анализа.

Построим корреляционную матрицу.

Таблица 3 – Корреляционная матрица

hotel

duration

meal

room

line

place

last_min

beach

price

1

-0,3542

0,1507

0,4033

-0,2203

0,0823

-0,1396

0,2648

0,5951

1

-0,1736

-0,3491

-0,0192

-0,0370

-0,0252

-0,0939

-0,1907

1

0,0008

0,1201

-0,0258

0,0310

-0,0478

0,4320

1

-0,1637

-0,0097

-0,2936

-0,0021

0,5093

1

0,0997

0,0551

-0,3481

-0,1007

1

-0,1330

-0,1780

0,2407

1

0,1128

-0,4325

1

0,0057

1

Как видим, наибольшее влияние на результирующий признак оказывает х1, класс отеля. Также оказываю значительное влияние х4, х3 и х7: тип питания, категория номера и время от покупки путевки до вылета на курорт.

Проверим значимость коэффициентов.

Сформулируем две гипотезы:

Н0: ⍴ху=0 о том, что генеральный коэффициент корреляции равен нулю, а значит статистически существенной связи между результирующей переменной и фактором нет.

Н1: ⍴ху≠0, следствие из которой – существование связи между признаками.

В качестве статистического критерия будем использовать t-статистику Стьюдента:

Сопоставим данное значение с табличным критическим значением распределения Стьюдента.

Если tрасч > tтабл, то подтверждается гипотеза Н1 и делается вывод о наличии статистически существенной связи между исследуемыми признаками.

Если tрасч ≤ tтабл , то подтверждается Н0 , и мы можем говорить об отсутствии связи между признаками.

Рассмотрим процедуру проверки значимости для одного коэффициента корреляции, для остальных занесем результаты вычисления в таблицу (произведем все расчеты в MS Office Excel).

Для коэффициент rx1,y=0,5951, описывающего связь между ценой путевки и классом отеля, tрасч=5,130299543. Критическое значение при ν=48 (число степеней свободы), р=5% определим по таблице Процентные точки распределения Стьюдента5:

tтабл=1,6772, что меньше tрасч следовательно, коэффициент является значимым при 95% уровне доверительной вероятности. Построим доверительный интервал:

0,441906365≤ρx1y ≤0,748293635

Таблица 4 – Проверка значимости коэффициентов корреляции между зависимым признаком и фактором.

Фактор

Коэффициент парной корреляции

tрасч

tα,ν, ν=48

Вывод

Доверительный интервал

hotel, х1

0,5951

5,1303

1,6772, α=0,05

Значим

(0,441906365; 0,748293635)

duration, х2

-0,1907

1,34590797

1,6772, α=0,05

Не значим

meal, х3

0,4320

3,318629

1,6772, α=0,05

Значим

(0,239071502; 0,624928498)

room, х4

0,5093

4,100138

1,6772, α=0,05

Значим

(0,333630381; 0,684969619)

line, х5

-0,1007

0,70123

1,6772, α=0,05

Не значим

place, х6

0,2407

1,718132

1,6772, α=0,05

Значим

(0,067578339; 0,413821661)

last_min х7

-0,4325

3,323353

1,6772, α=0,05

Значим

(-0,625325971; -0,239674029)

beach, х8

0,0057

0,039491

1,6772, α=0,05

Не значим

Мы получили, что х2, х5 и х8 не оказывают влияния на зависимую переменную, то есть ни длительность отдыха, ни расположение отеля относительно моря, ни то, принадлежит пляж отелю или муниципалитету, значимо не влияет на итоговую цену путевки.

Отсутствие влияния расположения отеля на цену путевки можно объяснить тем, что на стоимость проживания в отеле, в первую очередь, может влиять его класс. На Бали расположение гостиниц таково, что 3* отель может находиться в километровом удалении от пляжа, а 1* отель – на более приемлемой для отдыхающих первой линии, и наоборот. Поэтому влиять этот фактор не может.

Отсутствие влияния на цену путевки длительности отдыха можно объяснить особенностью выборки: в основном, в ней представлены туры на 13-16 дней, то есть нет большой вариации в продолжительности, чтобы можно было отметить значимое влияние на цену пакета.

А выбытие из набора переменных фактора, описывающего собственность на пляж, подтверждает наше предположение, сделанное по описательной статистике.

Однако данные факторы из рассмотрения исключать не будем, посмотрим, как они повлияют на исходную модель регрессии.

Проверим на значимости коэффициенты корреляции между объясняющими переменными, отличающиеся относительно высокими значения.

Таблица 5 – Проверка значимости коэффициентов корреляции между факторными переменными

Признаки

Коэффициент корреляции

tрасч

tα,ν, ν=48

Вывод

Доверительный интервал

х1 и х2

-0,3542

2,62409

1,6772, α=0,05

Значим

(-0,561636836; -0,146763164)

х1 и х4

0,4033

3,053483

1,6772, α=0,05

Значим

(0,204685206; 0,601914794)

х1 и х5

-0,2203

1,564725078

1,6772, α=0,05

Не значим

х4 и х7

-0,2936

2,127901

1,6772, α=0,05

Значим

(-0,510348314; -0,076851686)

х2 и х4

-0,3491

2,581019351

1,6772, α=0,05

Значим

(-0,557387614; -0,140812386)

х5 и х8

-0,3481

2,5726

1,6772, α=0,05

Значим

х1 и х8

0,2648

1,902501

1,6772, α=0,05

Значим

Наблюдаемую корреляцию объясняющих переменных можно объяснить с точки зрения их качественного содержания. Как известно, покупаешь больше – платишь меньше (это объясняет обратную связь между ценой и продолжительностью отдыха), но, как показывает коэффициент корреляции между длительностью отдыха и классом отеля и категорией номера (х2 и х4, х1 и х2), эта выгода достигается за счет того, что выбирая более длительный отдых покупатель будет вынужден жить в отеле, номере более низкого рейтинга, чем если бы он отдал предпочтение короткому отдыху.

Но, как можно судить по коэффициенту корреляции х4 и х7 (категории номера и временем приобретения путевки), путешественник сможет сэкономить при покупки путевки за совсем короткий срок до отправления и жить в номере более высокого класса, чем если бы он планировал свой отдых заранее.

Связь класса отеля и типа номера также объяснима: гостиницы с высоким рейтингом предлагают своим клиентом номера более высокого уровня комфорта, чем 2* и 3* отели, в которых, в основном, номера типа std и superior.

Но так как корреляция между объясняющими переменными невысока (менее 0,41 по абсолютной величине), никакие факторы из рассмотрения исключать не будем.

Получили набор объясняющих переменны: х1, x2, х3, x4, х6 и х7, которым соответствуют признаки: класс отеля, длительность отдыха, тип питания, категория номера, курортная зона и горящая путевка.

Таким образом, общая форма модели, объясняющей формирование цены путевки, будет выглядеть следующим образом:

y=β0+β1x1+ β2x2+β3x3+ β4x4 +β6x6+β7x7+ε.