Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8860

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
1.97 Mб
Скачать

показателей, имеющихся в ХД ВОДА. Определите, у какого загрязните-

ля наибольшее среднее значение. Назовите отчет «Средние значения загрязнителей»

Рис. 29. Отчет «Средние значения загрязнителей»

4.Из ХД ВОДА выгружена информация по экологическим показателям объектов Нижегородской области (фрагмент данных в таблице).

Используя визуализатор OLAP-куб, требуется получить отчет в виде приведенной ниже таблицы (указан фрагмент).

Таблица

61

Дополнительно: требуется сделать преобразование (трансформацию)

данных так, чтобы на выходе была указанная таблица. Какие обработ-

чики нужно использовать в сценарии для решения этой задачи?

5.Построить отчет-диаграмму «Индекс загрязнения воды (ИЗВ)» для всех рассматриваемых водных объектов и сделать вывод, какой объект явля-

ется самым загрязненным.

Рис. 30. Отчет «ИЗВ»

Указание: Для составления данного отчета должна быть произведена фильтрация по каждому водному объекту и шести загрязнителям, относящимся к конкретному водному объекту. С помощью внешнего левого соединения для каждого водного объекта нужно составить таблицу, содержащую информацию о загрязнителях, их значениях и ПДК (предельно допустимая концентрация).

Далее с помощью калькулятора в таблицу добавить поле «Отношение», которое вычисляется путем деления столбца «Значение загрязнителя» на столбец

«ПДК». После вычисления данного столбца произвести группировку по измерениям «Наименование объекта» и «Дата», а в качестве агрегации факта

«Отношение» выбрать. Затем с помощью калькулятора в полученную таблицу добавить поле «ИЗВ», которое вычисляется по формуле (2), и вывести диаграмму на панель отчетов.

62

 

n

 

/

ПДК

i

ИЗВ

i 1Ci

 

 

 

N

 

 

 

 

 

 

Сi - концентрация компонента;

N – число показателей, используемых для расчета индекса;

ПДКi – установленная величина для соответствующего типа водного объекта.

6. Написать сценарий и получить отчет «Отношение к ПДК» (рис. 31).

Отчет представляет собой сводную таблицу, в которой представлено от-

ношение каждого загрязнителя к уровню его ПДК. Данные значения являются относительными, то есть не имеют единиц измерения, поэтому их можно ис-

пользовать для корреляционного анализа.

Рис. 31. Отчет «Отношение к ПДК» (фрагмент)

Задание 3. Требуется разработать систему аналитической отчетности в

Deductor на основе созданного ранее хранилища данных Регион. Все требуемые отчеты должны быть вынесены на Панель отчетов (рис. 32). При помощи опе-

раций транспонирование измерений, фильтрация и агрегирование фактов,

сформировать отчеты и ответить на вопросы в заданиях.

Используемые обозначения основных социально-экономических показа-

телей:

Показатель промышленность – объем произведенной продукции (работ,

услуг) в действующих ценах соответствующих лет по крупным и средним предприятиям, млн.руб.;

Показатель с/х – продукция сельского хозяйства в хозяйствах всех категорий (в фактически действовавших ценах), тыс.руб.;

Показатель инвестиции – инвестиции в основной капитал крупных и средних предприятий, тыс.руб.;

Показатель зарплата – среднемесячная заработная плата работающих на крупных и средних предприятиях, руб.;

63

Показатель безработица – уровень официально зарегистрированной безработицы (в % от экономически активного населения);

Показатель доход – доходы бюджета, млн.руб.;

Показатель расход – расходы бюджета, млн.руб.

Рис. 32. Отчеты по данным ХД Регион

1. Сформировать многомерные отчеты и соответствующие им кросс-

диаграммы для показателя промышленность, в которых будут указаны

5 лучших районов по объем произведенной продукции, 5 худших и районы, дающие 50% от общего объема произведенной продукции в Нижегородском регионе.

Последовательность выполнения задания

1)Подключить ХД Регион, извлечь имеющуюся там информацию и откорректировать названия полей, используя обработчик

Настройка набора данных.

2)Запустить мастер визуализации и указать способ отображения данных в виде куба.

64

3)Произвести настройку назначений полей куба: измерения – дата

(размещаем в строки), код_региона-название (размещаем в ко-

лонки), код региона – информационный, остальные поля – факты

(с агрегацией – сумма).

4)В полученной кросс-таблице осуществить фильтрацию, выбрав факт промышленность, измерение код_региона-название и

а) условие «Первые N», значение «5»;

б) условие «Последние N», значение «5»;

в) условие «Доля от общего», значение «50».

2.Сформировать многомерные отчеты и соответствующие им кросс-

диаграммы для показателя с/х, в которых будут указаны 5 лучших рай-

онов по уровню с/х, 5 худших.

3.Определить первые 5 районов по инвестициям и 5 последних.

4.Определить районы с самым высоким и самым низким уровнем безра-

ботицы.

5.Определить районы с самым высоким и самым низким уровнем зар-

платы.

6.Определить 5 самых доходных районов, 5 районов с самым низким уровнем доходов и районы, дающие 80% дохода бюджета всего Ниже-

городского региона.

7.Определить районы с наибольшим и наименьшим расходом бюджета.

Задание для раздела 3.

Проанализировать стоимость определенной категории квартир на вто-

ричном рынке жилья, построив и проанализировав модель множественной ре-

грессии.

1. Сбор данных.

Осуществить поиск и сбор данных о ценах квартир на вторичном рынке жилья с сайтов риэлтерских компаний, газеты «Из рук в руки», иных Интернет-

65

ресурсов. Объем выборки должен быть достаточно большим (n>7m, где n –

объем выборки, m – число факторов в модели. Например, если число факторов,

от которых зависит цена квартиры и значения которых удалось найти, равно 7,

то необходимо иметь информацию не менее чем о 50 квартирах). Данные соот-

ветствуют актуальным на момент исследования значениям характеристик про-

даваемых квартир.

2.Устранение эксцессов

Выявление и удаление данных, резко отличающихся и вносящих возму-

щения в выборку. Предлагается вычислить стоимость одного квадратного мет-

ра общей площади квартиры, упорядочить (отсортировать в порядке возраста-

ния) данные и проанализировать их в области минимальных и максимальных значений. Рекомендуется построить график зависимости цены одного квадрат-

ного метра от номера квартиры и удалить из дальнего анализа «хвосты», резко отличающиеся от остальной части выборки.

3.Построение модели парной линейной регрессии

Предлагается выбрать один, наиболее значимый фактор и построить ре-

грессионную модель yˆ a bx , оценить ее качество (в целом и отдельных параметров). Необходимо проанализировать значение индекса детерминации

R2, значения F-критерия Фишера и t-критерия Стьюдента, проверить условия применимости МНК.

Для определения параметров регрессионной зависимости и указанных выше характеристик можно использовать статистическую функцию ЛИНЕЙН электронных таблиц MS Excel или функцию Регрессия надстройки Пакет ана-

лиза. Напомним, что в результате применения функции ЛИНЕЙН получим в качестве результата массив значений, содержащих следующую информацию

b

a

mb

ma

R 2

my

 

 

F

df2

2

2

S регрессион

Sостаточн

66

Для проверки качества построенной регрессионной модели анализируем

полученное значение R 2 (чем ближе значение R 2 к единице, тем модель лучше

соответствует реальным данным).

Далее анализируется значение полученного F-критерия Фишера, в основе которого лежит оценка сумм квадратов регрессионной модели на одну степень свободы. Вычисляются средние квадраты отклонений или дисперсию на одну

степень свободы.

 

n

 

 

 

 

n

2

 

 

 

n

2

 

y y

 

 

 

y y

 

 

 

y y

 

 

2

 

 

 

ˆ

 

 

 

ˆ

D

i 1

 

; D

 

 

i 1

 

; D

 

 

i 1

 

 

 

факторная

 

 

остаточная

 

 

общая

 

n 1

 

1

 

 

 

n 2

 

 

 

 

 

 

 

 

 

 

Сопоставляя факторную и остаточную дисперсию на одну единицу сте-

пени свободы получим величину F-критерия для проверки нулевой гипотезы

H 0 : Dфакторная Dостаточная

Fкритерий DDфакторная

остаточная

Для отклонения H0 необходимо, чтобы F-фактическое было больше F-

табличное

Fфактическое Fтабл ичное ,df1,df2 ,

где – уровень значимости (выбирается значение 1% или 5%).

Для парной регрессии df1 =1, а df2 n 2 .

Если F-фактическое больше F-табличное, то можно сделать вывод о зна-

чимости уравнения регрессии с вероятностью (1 ).

Величина F-критерия связана с индексом детерминации R 2 для парной регрессии зависимостью

 

 

 

 

R

2

 

 

F

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

R

2

 

 

 

 

 

Величина стандартной ошибки совместно с t-распределением Стьюдента при n 2 степенях свободы применяется для проверки существенности коэф-

67

фициентов регрессии.

В линейной регрессии обычно оценивается значимость не только уравне-

ния в целом, но и отдельных его элементов. С этой целью по каждому из пара-

метров определяется его стандартная ошибка ma и mb .

 

 

 

 

 

 

 

 

 

 

 

 

 

y y

2

n 2

 

 

 

 

 

 

 

S

 

 

mb

 

ˆ

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

x x 2

x

x 2

 

 

 

 

S 2 – остаточная дисперсия на одну единицу свободы.

 

 

Выдвигается гипотеза H0

о случайной природе показателя b , то есть о

незначительности его отличия от 0. Для оценки существенности коэффициен-

тов регрессии, его величина сравнивается с его стандартной ошибкой, то есть определенное значение t-критерия Стьюдента

tb b , mb

которая затем сравнивается с табличным значением при определенном уровне значимости и числе степеней свободы n 2 . Аналогично оценивается ста-

тистическая значимость свободного члена уравнения регрессии a.

Замечание:

Отметим, что в случае парного регрессионного анализа t-критерий и F-

критерий эквивалентны друг другу.

tb Fфакт

Доверительный интервал для коэффициента регрессии b определяется,

как b t mb , где t – табличное значение критерия Стьюдента.

Замечание:

Поскольку b имеет экономическую интерпретацию, то доверительные границы интервала для b не должны содержать противоречивых результатов.

Стандартная ошибка параметра a определяется по формуле:

68

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y y

2

x

2

 

 

 

 

 

 

2

 

x

2

 

 

m

 

 

ˆ

 

 

 

 

 

 

S

 

 

 

,

a

 

 

 

 

 

 

 

 

 

 

 

 

 

n 2 n

x x 2

 

n x x 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а соответствующее значение t-статистики ta

 

a

(t – статистика для парамет-

ma

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ра a сравнивается с табличными значениями.

 

 

 

 

 

 

 

 

 

 

Значимость линейного коэффициента корреляции проверяется на основе

величины ошибки коэффициента корреляции mr

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mr

 

1 r 2 xy

 

 

 

 

 

 

 

 

 

 

 

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Фактическое значение t-критерия Стьюдента для линейного коэффициен-

та корреляции определяется как

 

 

rxy

 

 

 

 

tr

 

 

 

 

n 2

 

 

 

 

 

1 r

2

 

 

 

 

 

 

xy

 

 

 

 

Отметим, что для парной линейной регрессии tz2 tb2 F .

Для получения табличных значений F-критерия Фишера и t-критерия

Стьюдента используются статистические функции FРАСПОБР и СТЬЮДРАС-

ПОБР.

Рекомендуется построить график регрессионной прямой, сопоставив ее с

реальными данными.

Оценить качество построенной модели можно и с помощью средней ошибки аппроксимации, значение которой принято определять в процентах по

следующей формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

y

i

yˆ

i

 

 

A

 

 

 

 

 

 

100

 

 

 

 

 

 

n i 1

 

 

 

yi

 

 

 

Если средняя ошибка аппроксимации А<7%, то модель хорошо соответ-

ствует реальным данным.

69

Необходимо проанализировать остатки на выполнение условий примени-

мости метода наименьших квадратов (МНК), а именно проверить все пять условий Гаусса-Маркова (обязательно критерии Гольдфельда-Квандта и Дар-

бина-Уотсона).

Напомним, что оценки, полученные с использованием МНК, должны быть несмещенными, эффективными и состоятельными.

Несмещенность оценки означает, что математическое ожидание остатков равняется нулю.

Оценки считаются эффективными, если они характеризуются наимень-

шей дисперсией.

Состоятельность оценки характеризует увеличение их точности с увели-

чением объемов выборки.

Условия применимости МНК связаны с исследованием поведения остат-

ков (ошибок ).

Пять предпосылок МНК:

1). Случайный характер остатков. Он проверяется путем построения гра-

фика зависимости остатков от значения результативного признака y. Если значения остатков разбросаны случайно и находятся в некоторой симметрич-

ной относительно оси абсцисс полосе, то первая предпосылка МНК выполняет-

ся.

2). Нулевая средняя величина остатков, не зависящая от xi . Это условие автоматически выполняется для линейных моделей и моделей нелинейных от-

носительно включаемых переменных, но линейных по параметрам.

3). Остатки подчиняются нормальному распределению. Существует кри-

терий размахов (RS критерий) . Находим значения размаха остатков R и S по формулам:

R max min ,

S

i2

n 1

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]