8860
.pdfпоказателей, имеющихся в ХД ВОДА. Определите, у какого загрязните-
ля наибольшее среднее значение. Назовите отчет «Средние значения загрязнителей»
Рис. 29. Отчет «Средние значения загрязнителей»
4.Из ХД ВОДА выгружена информация по экологическим показателям объектов Нижегородской области (фрагмент данных в таблице).
Используя визуализатор OLAP-куб, требуется получить отчет в виде приведенной ниже таблицы (указан фрагмент).
Таблица
61
Дополнительно: требуется сделать преобразование (трансформацию)
данных так, чтобы на выходе была указанная таблица. Какие обработ-
чики нужно использовать в сценарии для решения этой задачи?
5.Построить отчет-диаграмму «Индекс загрязнения воды (ИЗВ)» для всех рассматриваемых водных объектов и сделать вывод, какой объект явля-
ется самым загрязненным.
Рис. 30. Отчет «ИЗВ»
Указание: Для составления данного отчета должна быть произведена фильтрация по каждому водному объекту и шести загрязнителям, относящимся к конкретному водному объекту. С помощью внешнего левого соединения для каждого водного объекта нужно составить таблицу, содержащую информацию о загрязнителях, их значениях и ПДК (предельно допустимая концентрация).
Далее с помощью калькулятора в таблицу добавить поле «Отношение», которое вычисляется путем деления столбца «Значение загрязнителя» на столбец
«ПДК». После вычисления данного столбца произвести группировку по измерениям «Наименование объекта» и «Дата», а в качестве агрегации факта
«Отношение» выбрать. Затем с помощью калькулятора в полученную таблицу добавить поле «ИЗВ», которое вычисляется по формуле (2), и вывести диаграмму на панель отчетов.
62
|
n |
|
/ |
ПДК |
i |
ИЗВ |
i 1Ci |
|
|
||
|
N |
|
|
||
|
|
|
|
Сi - концентрация компонента;
N – число показателей, используемых для расчета индекса;
ПДКi – установленная величина для соответствующего типа водного объекта.
6. Написать сценарий и получить отчет «Отношение к ПДК» (рис. 31).
Отчет представляет собой сводную таблицу, в которой представлено от-
ношение каждого загрязнителя к уровню его ПДК. Данные значения являются относительными, то есть не имеют единиц измерения, поэтому их можно ис-
пользовать для корреляционного анализа.
Рис. 31. Отчет «Отношение к ПДК» (фрагмент)
Задание 3. Требуется разработать систему аналитической отчетности в
Deductor на основе созданного ранее хранилища данных Регион. Все требуемые отчеты должны быть вынесены на Панель отчетов (рис. 32). При помощи опе-
раций транспонирование измерений, фильтрация и агрегирование фактов,
сформировать отчеты и ответить на вопросы в заданиях.
Используемые обозначения основных социально-экономических показа-
телей:
Показатель промышленность – объем произведенной продукции (работ,
услуг) в действующих ценах соответствующих лет по крупным и средним предприятиям, млн.руб.;
Показатель с/х – продукция сельского хозяйства в хозяйствах всех категорий (в фактически действовавших ценах), тыс.руб.;
Показатель инвестиции – инвестиции в основной капитал крупных и средних предприятий, тыс.руб.;
Показатель зарплата – среднемесячная заработная плата работающих на крупных и средних предприятиях, руб.;
63
Показатель безработица – уровень официально зарегистрированной безработицы (в % от экономически активного населения);
Показатель доход – доходы бюджета, млн.руб.;
Показатель расход – расходы бюджета, млн.руб.
Рис. 32. Отчеты по данным ХД Регион
1. Сформировать многомерные отчеты и соответствующие им кросс-
диаграммы для показателя промышленность, в которых будут указаны
5 лучших районов по объем произведенной продукции, 5 худших и районы, дающие 50% от общего объема произведенной продукции в Нижегородском регионе.
Последовательность выполнения задания
1)Подключить ХД Регион, извлечь имеющуюся там информацию и откорректировать названия полей, используя обработчик
Настройка набора данных.
2)Запустить мастер визуализации и указать способ отображения данных в виде куба.
64
3)Произвести настройку назначений полей куба: измерения – дата
(размещаем в строки), код_региона-название (размещаем в ко-
лонки), код региона – информационный, остальные поля – факты
(с агрегацией – сумма).
4)В полученной кросс-таблице осуществить фильтрацию, выбрав факт промышленность, измерение код_региона-название и
а) условие «Первые N», значение «5»;
б) условие «Последние N», значение «5»;
в) условие «Доля от общего», значение «50».
2.Сформировать многомерные отчеты и соответствующие им кросс-
диаграммы для показателя с/х, в которых будут указаны 5 лучших рай-
онов по уровню с/х, 5 худших.
3.Определить первые 5 районов по инвестициям и 5 последних.
4.Определить районы с самым высоким и самым низким уровнем безра-
ботицы.
5.Определить районы с самым высоким и самым низким уровнем зар-
платы.
6.Определить 5 самых доходных районов, 5 районов с самым низким уровнем доходов и районы, дающие 80% дохода бюджета всего Ниже-
городского региона.
7.Определить районы с наибольшим и наименьшим расходом бюджета.
Задание для раздела 3.
Проанализировать стоимость определенной категории квартир на вто-
ричном рынке жилья, построив и проанализировав модель множественной ре-
грессии.
1. Сбор данных.
Осуществить поиск и сбор данных о ценах квартир на вторичном рынке жилья с сайтов риэлтерских компаний, газеты «Из рук в руки», иных Интернет-
65
ресурсов. Объем выборки должен быть достаточно большим (n>7m, где n –
объем выборки, m – число факторов в модели. Например, если число факторов,
от которых зависит цена квартиры и значения которых удалось найти, равно 7,
то необходимо иметь информацию не менее чем о 50 квартирах). Данные соот-
ветствуют актуальным на момент исследования значениям характеристик про-
даваемых квартир.
2.Устранение эксцессов
Выявление и удаление данных, резко отличающихся и вносящих возму-
щения в выборку. Предлагается вычислить стоимость одного квадратного мет-
ра общей площади квартиры, упорядочить (отсортировать в порядке возраста-
ния) данные и проанализировать их в области минимальных и максимальных значений. Рекомендуется построить график зависимости цены одного квадрат-
ного метра от номера квартиры и удалить из дальнего анализа «хвосты», резко отличающиеся от остальной части выборки.
3.Построение модели парной линейной регрессии
Предлагается выбрать один, наиболее значимый фактор и построить ре-
грессионную модель yˆ a bx , оценить ее качество (в целом и отдельных параметров). Необходимо проанализировать значение индекса детерминации
R2, значения F-критерия Фишера и t-критерия Стьюдента, проверить условия применимости МНК.
Для определения параметров регрессионной зависимости и указанных выше характеристик можно использовать статистическую функцию ЛИНЕЙН электронных таблиц MS Excel или функцию Регрессия надстройки Пакет ана-
лиза. Напомним, что в результате применения функции ЛИНЕЙН получим в качестве результата массив значений, содержащих следующую информацию
b |
a |
mb |
ma |
R 2 |
my |
|
|
F |
df2 |
2 |
2 |
S регрессион |
Sостаточн |
66
Для проверки качества построенной регрессионной модели анализируем
полученное значение R 2 (чем ближе значение R 2 к единице, тем модель лучше
соответствует реальным данным).
Далее анализируется значение полученного F-критерия Фишера, в основе которого лежит оценка сумм квадратов регрессионной модели на одну степень свободы. Вычисляются средние квадраты отклонений или дисперсию на одну
степень свободы.
|
n |
|
|
|
|
n |
2 |
|
|
|
n |
2 |
|
y y |
|
|
|
y y |
|
|
|
y y |
|||
|
|
2 |
|
|
|
ˆ |
|
|
|
ˆ |
||
D |
i 1 |
|
; D |
|
|
i 1 |
|
; D |
|
|
i 1 |
|
|
|
факторная |
|
|
остаточная |
|
|
|||||
общая |
|
n 1 |
|
1 |
|
|
|
n 2 |
|
|||
|
|
|
|
|
|
|
|
|
Сопоставляя факторную и остаточную дисперсию на одну единицу сте-
пени свободы получим величину F-критерия для проверки нулевой гипотезы
H 0 : Dфакторная Dостаточная
Fкритерий DDфакторная
остаточная
Для отклонения H0 необходимо, чтобы F-фактическое было больше F-
табличное
Fфактическое Fтабл ичное ,df1,df2 ,
где – уровень значимости (выбирается значение 1% или 5%).
Для парной регрессии df1 =1, а df2 n 2 .
Если F-фактическое больше F-табличное, то можно сделать вывод о зна-
чимости уравнения регрессии с вероятностью (1 ).
Величина F-критерия связана с индексом детерминации R 2 для парной регрессии зависимостью
|
|
|
|
R |
2 |
|
|
F |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
1 |
|
R |
2 |
|
|
|
|
|
|
Величина стандартной ошибки совместно с t-распределением Стьюдента при n 2 степенях свободы применяется для проверки существенности коэф-
67
фициентов регрессии.
В линейной регрессии обычно оценивается значимость не только уравне-
ния в целом, но и отдельных его элементов. С этой целью по каждому из пара-
метров определяется его стандартная ошибка ma и mb .
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y y |
2 |
n 2 |
|
|
|
|
|
|
|
|
S |
|
|
|||||
mb |
|
ˆ |
|
|
|
|
2 |
|
||
|
|
|
|
|
|
|
|
|||
|
x x 2 |
x |
x 2 |
|||||||
|
|
|
|
|||||||
S 2 – остаточная дисперсия на одну единицу свободы. |
|
|
||||||||
Выдвигается гипотеза H0 |
о случайной природе показателя b , то есть о |
незначительности его отличия от 0. Для оценки существенности коэффициен-
тов регрессии, его величина сравнивается с его стандартной ошибкой, то есть определенное значение t-критерия Стьюдента
tb b , mb
которая затем сравнивается с табличным значением при определенном уровне значимости и числе степеней свободы n 2 . Аналогично оценивается ста-
тистическая значимость свободного члена уравнения регрессии a.
Замечание:
Отметим, что в случае парного регрессионного анализа t-критерий и F-
критерий эквивалентны друг другу.
tb Fфакт
Доверительный интервал для коэффициента регрессии b определяется,
как b t mb , где t – табличное значение критерия Стьюдента.
Замечание:
Поскольку b имеет экономическую интерпретацию, то доверительные границы интервала для b не должны содержать противоречивых результатов.
Стандартная ошибка параметра a определяется по формуле:
68
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
y y |
2 |
x |
2 |
|
|
|
|
|
|
2 |
|
x |
2 |
|
|
||||
m |
|
|
ˆ |
|
|
|
|
|
|
S |
|
|
|
, |
|||||||||
a |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
n 2 n |
x x 2 |
|
n x x 2 |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
а соответствующее значение t-статистики ta |
|
a |
(t – статистика для парамет- |
||||||||||||||||||||
ma |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
ра a сравнивается с табличными значениями. |
|
|
|
|
|
|
|
|
|
|
|||||||||||||
Значимость линейного коэффициента корреляции проверяется на основе |
|||||||||||||||||||||||
величины ошибки коэффициента корреляции mr |
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
mr |
|
1 r 2 xy |
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
n 2 |
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Фактическое значение t-критерия Стьюдента для линейного коэффициен-
та корреляции определяется как
|
|
rxy |
|
|
|
|
|
tr |
|
|
|
|
n 2 |
||
|
|
|
|
|
|||
1 r |
2 |
||||||
|
|
|
|
||||
|
|
xy |
|
|
|
|
Отметим, что для парной линейной регрессии tz2 tb2 F .
Для получения табличных значений F-критерия Фишера и t-критерия
Стьюдента используются статистические функции FРАСПОБР и СТЬЮДРАС-
ПОБР.
Рекомендуется построить график регрессионной прямой, сопоставив ее с
реальными данными.
Оценить качество построенной модели можно и с помощью средней ошибки аппроксимации, значение которой принято определять в процентах по
следующей формуле |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
n |
|
y |
i |
yˆ |
i |
|
|
A |
|
|
|
|
|
|
100 |
||
|
|
|
|
|
|||||
|
n i 1 |
|
|
|
yi |
|
|
|
Если средняя ошибка аппроксимации А<7%, то модель хорошо соответ-
ствует реальным данным.
69
Необходимо проанализировать остатки на выполнение условий примени-
мости метода наименьших квадратов (МНК), а именно проверить все пять условий Гаусса-Маркова (обязательно критерии Гольдфельда-Квандта и Дар-
бина-Уотсона).
Напомним, что оценки, полученные с использованием МНК, должны быть несмещенными, эффективными и состоятельными.
Несмещенность оценки означает, что математическое ожидание остатков равняется нулю.
Оценки считаются эффективными, если они характеризуются наимень-
шей дисперсией.
Состоятельность оценки характеризует увеличение их точности с увели-
чением объемов выборки.
Условия применимости МНК связаны с исследованием поведения остат-
ков (ошибок ).
Пять предпосылок МНК:
1). Случайный характер остатков. Он проверяется путем построения гра-
фика зависимости остатков от значения результативного признака y. Если значения остатков разбросаны случайно и находятся в некоторой симметрич-
ной относительно оси абсцисс полосе, то первая предпосылка МНК выполняет-
ся.
2). Нулевая средняя величина остатков, не зависящая от xi . Это условие автоматически выполняется для линейных моделей и моделей нелинейных от-
носительно включаемых переменных, но линейных по параметрам.
3). Остатки подчиняются нормальному распределению. Существует кри-
терий размахов (RS критерий) . Находим значения размаха остатков R и S по формулам:
R max min ,
S |
i2 |
n 1 |
70