Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 2.docx
Скачиваний:
3
Добавлен:
01.06.2015
Размер:
128.05 Кб
Скачать

Глава 2. Построение и анализ модели

2.1 Сбор и предварительная обработка исходной информации

В ходе работы нами была создана выборка, объемом 50 турпакетов. Результаты набора были представлены в таблице (см. ПРИЛОЖЕНИЕ А).

Для расчетов мы будем использовать прикладной программный пакет для эконометрического моделирования Gretl.

Проведем обработку информации по следующему алгоритму:

Вычисление выборочных характеристик;

Отсев грубых погрешностей;

Проверка нормальности распределения

Преобразование распределения к нормальному (при необходимости).

Цифровые метки фиктивных переменных

Большая часть выбранных факторных признаков – качественные. Поэтому для дальнейшего анализа нам необходимо ввести их цифровые обозначения (см. Таблица 1).

Таблица 1 – Цифровые метки фиктивных переменных

Признак

Значение

Метка

Класс отеля

2*

2

3*

3

4*

4

5*

5

Тип пития в отеле

BB

1

HB

2

FB

3

Категория номера

std;

0

superior

1

suit

2

de luxe

3

studio

4

Расположение отеля относительно моря

1 линия

1

2 линия

2

3 линия

3

Курортная зона

Санур

1

Кута

2

Семиньяк

3

Нуса-Дуа

4

Горящая путевка

Путевка с вылетом в августе

0

Путевка с вылетом в апреле

1

Пляж

Муниципальный

0

Собственный

1

Приступим к выполнению алгоритма.

Вычисление выборочных характеристик (см. Таблица 2).

Таблица 2 – Описательная статистика

Переменная

Среднее

Медиана

Ст. откл.

Вариация

Класс отеля

3,2000

0,69985

Тип питания

1,5200

0,73512

Пляж

0,220000

Курорт

2,4200

0,40975

Тип номера

1,46000

1,4028

Горящий тур

0,440000

0,50143

Цена

79650,6

77243,5

21885,5

0,274768

Переменная

Асимметрия

Эксцесс

5% Perc.

95% Perc.

Цена

0,219750

-1,29288

49722,3

114940,

Обратим внимание на значение некоторых коэффициентов.

Медиана и среднее значение цены близки, что может свидетельствовать о распределении, близком к нормальному. Если представить наши данные в виде столбчатой диаграммы (рис. 1), то можно посмотреть соотношение моды, медианы и средней. Медиана находится между модой и средней величиной, причем ближе к средней, чем к моде, это также говорит о том, что распределение по форме близко к нормальному1.

Коэффициент асимметрии показывает незначительную правостороннюю асимметрию, коэффициент эксцесса – то, что график распределения будет «приплюснутым».

Показатель вариации цены 27,4% приемлем для выбранной нами темы.

О распределении значений цены также можно сказать, что 5% выбранных путевок дешевле 49772 руб, а 95% - 114940 руб.

Рисунок 1 – Соотношение моды, медианы и средней

Обратим внимание на значение средней бинарных переменных пляж и горящая путевка, 0,22 и 0,44, соответственно, то есть только 22% отелей из нашей выборки имеют в собственности пляж, и 44% путевок предполагают вылет в апреле. На основании значений можно предположить, что влияние переменной, соответствующей признаку пляж, будет незначимым, а влияние переменной, описывающей время вылета, будет значимым.

Примерно две трети нашей выборки находятся в ценовой области 79650,6± 21885,5 руб.

Отсев грубых погрешностей

Проверим на аномальность наибольшее и наименьшее значения цены турпутевки, используя статистику:2

Вычисления произведем с помощью MS Office Excel.

Для Pmax= 116319,0 τ=|116319 – 79804|/22173=1,675485492.

В качестве критерия, с которым будем сопоставлять расчетное значение τ, выберем τр. Вычислим τр с помощью таблицы критических значений распределения Стьюдента:

Из таблицы распределения Стьюдента выбираем при n=48 и доверительной вероятности (1-p) 95% и 99,9% критические значения t5%=1,6772 и t0,1%=3,2669.

Вычислили и получили τ5%= 1,647007, τ0,1%= 2,985493.

1,647007<τ<2,985493, следовательно значение не признается аномальным и не исключается из выборки.

Проверим на аномальность минимальное значение pmin=42922,0:

τ=1,663374.

При t5%=1,6772, t0,1%=3,2689 статистики равны

τ5%= 1,647007, τ0,1%= 2,985493. Таким образом, τ0,1% >τ> τ5%, что означает отсутствие погрешности.

Проверка распределения на нормальность

Проверка распределения на нормальность – основное содержание предварительной обработки результатов наблюдений.

Сформулируем нуль-гипотезу:

Н0: распределения является нормальным, и альтернативную ей

Н1 : распределение не является нормальным.

Быструю проверку гипотезы нормального распределения проведем с помощью R/S̄ - критерия, где R – размах выборки. Для этого вычислим отношение

R/S̄= (116319- 42922)/ 22173,0=3,310197

Сопоставим полученное значение с критическими границами этого отношения, приведенными в соответствующей таблице, при вероятности ошибки 5%.3

R/S̄ниж=3,83, R/S̄верх=5,35: рассчитанное нами значение не попадает в указанный интервал, следовательно, отвергается гипотеза о нормальном распределении.

Судить о близости распределения к нормальному можно также по значения коэффициентов асимметрии и эксцесса.4

Гипотезу о нормальном распределении не следует отвергать, если

и , где

Для нашей выборки As=0,219750, Ex=-1,29288,

σAs =0,336600709, σEx = 0,661908375.

При As/σAs = 1,531743839, Ex/σEx = -0,511964277

и , следовательно, подтверждается нулевая гипотеза о нормальном распределении.

Далее проведем более строгую проверку распределения с помощью критерия χ2.