Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9306

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.5 Mб
Скачать

90

Справа находятся элементы:

Измерение. Фильтрация подразумевает, что в таблице останется лишь часть значений некоторого измерения. Это поле как раз и задает измерение, значения которого будут отфильтрованы.

Факты и варианты агрегации. В кубе может содержаться один и более фактов. Фильтрация будет происходить по значениям выбранного здесь факта. Для факта выбирается функция агрегации, в соответствии с которой отбираются записи.

Условие – условие отбора записей по значениям выбранного факта. Условие может принимать различные значения, перечислим некоторые из них.

Первые N. Значения измерения сортируются в порядке убывания факта и выбираются первые N значений измерений. Таким образом, можно, например, выделить 5 загрязнителей, больше всех превышающих ПДК, или 10 наиболее продаваемых товаров, или первые 5 наиболее удачных дней.

Последние N. Значения измерения сортируются в порядке убывания факта и выбираются последние N значений измерений, например, 10 наименее популярных товаров.

Доля от общего. Значения измерения сортируются в порядке убывания факта. В этой последовательности выбирается столько первых значений измерения, сколько в сумме дадут заданную долю от общей суммы. Например, можно отобрать клиентов, приносящих 80% прибыли, или товары, дающие 50 % объема продаж.

Диапазон, Больше, Меньше – отбираются записи, для которых значение соответствующего факта лежит в заданном диапазоне, больше или меньше указанного значения.

91

3.4.Практическая работа «Аналитическая отчетность в Deductor

Studio Academic»

Задание 1. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных ВОДА. Все требуемые отчеты должны быть вынесены на Панель отчетов.

1.Постройте отчет–диаграмму «Динамика показателя содержания ХПК (химическое потребление кислорода) в реке Ока», используя все имеющиеся данные.

Рис. 3.13. Временной ряд загрязнителя ХПК

2.Постройте отчет–гистограмму распределения показателя «ХПК» в реке Беленькая за последние 5 месяцев от имеющихся данных. Назовите отчет «Гистограмма показателя ХПК».

Рис. 3.14. Гистограмма показателя ХПК

3.Постройте куб (и кросс-диаграмму) по двум измерениям Створ и Название загрязнителя, в ячейках которого указаны средние значения показателей, имеющихся в ХД ВОДА. Определите, у какого

92

загрязнителя наибольшее среднее значение. Назовите отчет «Средние значения загрязнителей».

Рис. 3.15. Отчет «Средние значения загрязнителей»

4.Из ХД ВОДА выгружена информация по экологическим показателям объектов Нижегородской области (фрагмент данных в табл. 5).

Используя визуализатор OLAP-куб, требуется получить отчет в виде приведенной ниже табл. 6 (указан фрагмент).

Таблица 6

Дополнительно: требуется сделать преобразование (трансформацию) данных так, чтобы на выходе была табл. 6. Какие обработчики нужно использовать в сценарии для решения этой задачи?

93

5.Построить отчет-диаграмму «Индекс загрязнения воды (ИЗВ)» для всех рассматриваемых водных объектов и сделать вывод, какой объект является самым загрязненным.

Рис. 3.16. Отчет «ИЗВ»

Указание: Для составления данного отчета должна быть произведена фильтрация по каждому водному объекту и шести загрязнителям, относящимся к конкретному водному объекту. С помощью внешнего левого соединения для каждого водного объекта нужно составить таблицу, содержащую информацию о загрязнителях, их значениях и ПДК (предельно допустимая концентрация). Далее с помощью калькулятора в таблицу добавить поле «Отношение», которое вычисляется путем деления столбца «Значение загрязнителя» на столбец «ПДК». После вычисления данного столбца произвести группировку по измерениям «Наименование объекта» и «Дата», а в качестве агрегации факта «Отношение» выбрать. Затем с помощью калькулятора в полученную таблицу добавить поле «ИЗВ», которое вычисляется по формуле (2), и вывести диаграмму на панель отчетов.

ИЗВ =

in=1Ci /

ПДК i

 

N

(2)

 

 

 

 

Сi - концентрация компонента;

N – число показателей, используемых для расчета индекса;

ПДКi – установленная величина для соответствующего типа водного объекта.

94

6. Написать сценарий и получить отчет «Отношение к ПДК» (рис. 3.17). Отчет представляет собой сводную таблицу, в которой представлено

отношение каждого загрязнителя к уровню его ПДК. Данные значения являются относительными, то есть не имеют единиц измерения, поэтому их можно использовать для корреляционного анализа.

Рис. 3.4. Отчет «Отношение к ПДК» (фрагмент)

Задание 2. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных Регион. Все требуемые отчеты должны быть вынесены на Панель отчетов (рис. 3.17). При помощи операций транспонирование измерений, фильтрация и агрегирование фактов сформировать отчеты и ответить на вопросы в заданиях.

Используемые обозначения основных социально-экономических показателей:

Показатель промышленность – объем произведенной продукции (работ, услуг) в действующих ценах соответствующих лет по крупным и средним предприятиям, млн руб.;

Показатель с/х – продукция сельского хозяйства в хозяйствах всех категорий (в фактически действовавших ценах), тыс.руб.;

Показатель инвестиции – инвестиции в основной капитал крупных и средних предприятий, тыс.руб.;

Показатель зарплата – среднемесячная заработная плата работающих на крупных и средних предприятиях, руб.;

Показатель безработица – уровень официально зарегистрированной безработицы (в % от экономически активного населения);

Показатель доход – доходы бюджета, млн руб.;

95

• Показатель расход – расходы бюджета, млн руб.

Рис. 3.17 Отчеты по данным ХД Регион

1. Сформировать многомерные отчеты и соответствующие им кроссдиаграммы для показателя промышленность, в которых будут указаны 5 лучших районов по объему произведенной продукции, 5 худших и районы, дающие 50% от общего объема произведенной продукции в Нижегородском регионе.

Последовательность выполнения задания:

1)Подключить ХД Регион, извлечь имеющуюся там информацию и откорректировать названия полей, используя обработчик

Настройка набора данных.

2)Запустить мастер визуализации и указать способ отображения данных в виде куба.

3)Произвести настройку назначений полей куба: измерения – дата (размещаем в строки), код_региона-название (размещаем в колонки), код региона – информационный, остальные поля – факты (с агрегацией – сумма).

96

4)В полученной кросс-таблице осуществить фильтрацию, выбрав факт промышленность, измерение код_региона-название и

а) условие «Первые N», значение «5»; б) условие «Последние N», значение «5»;

в) условие «Доля от общего», значение «50».

2.Сформировать многомерные отчеты и соответствующие им кроссдиаграммы для показателя с/х, в которых будут указаны 5 лучших районов по уровню с/х, 5 худших.

3.Определить первые 5 районов по инвестициям и 5 последних.

4.Определить районы с самым высоким и самым низким уровнем безработицы.

5.Определить районы с самым высоким и самым низким уровнем зарплаты.

6.Определить 5 самых доходных районов, 5 районов с самым низким уровнем доходов и районы, дающие 80% дохода бюджета всего Нижегородского региона.

7.Определить районы с наибольшим и наименьшим расходом бюджета.

97

3.5. Вопросы для самопроверки

1.Каковы цели и задачи визуализации данных в аналитических технологиях?

2.Для чего используется визуализация источников данных?

3.Зачем нужен визуальный контроль данных после их загрузки в аналитическое приложение?

4.Чем отличаются средства визуализации общего назначения от специализированных?

5.Какие средства визуализации данных относят к визуализаторам общего назначения и почему?

6.В чем отличие графика от диаграммы? Какие виды диаграмм вам известны?

7.По какому принципу строится гистограмма, и какую информацию о поведении исследуемой величины из нее можно извлечь?

8.Для каких целей служит визуализатор Статистика?

9.Почему визуализация многомерных данных может оказаться

проблематичной c точки зрения пользователя? 10.В чем заключается OLAP-анализ и каковы его цели? 11.Какова структура OLAP-куба?

12.Какие манипуляции с измерениями можно производить, чтобы сделать представление куба более информативным?

13.В чем заключаются операции транспонирования и детализации, каковы их цели?

14.Что такое кросс-диаграмма, и для каких целей она используется?

98

4. Методы и модели Data Mining 4.1. Технологии KDD и Data Mining

Информационный подход к анализу получил распространение в таких методиках извлечения знаний, как KDD (Knowledge Discovery in Databases, извлечение знаний из баз данных) и Data Mining (интеллектуальный анализ данных). Сегодня на базе этих методик создается большинство прикладных аналитических решений в бизнесе и многих других областях. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки, построения моделей, постобработки и интерпретации полученных результатов. Ядром или шагом процесса KDD являются методы Data Mining, позволяющие обнаруживать закономерности и знания.

Knowledge Discovery in Databases – процесс получения из данных знаний в виде зависимостей, правил, моделей, обычно состоящий из таких этапов, как выборка данных, их очистка и трансформация, моделирование и интерпретация полученных результатов.

Data Mining (DM) – обнаружение в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. К базовым методам интеллектуального анализа данных прежде всего относят нейронные сети, деревья решений, логистическую регрессию, ассоциативные правила.

Выделяют пять основных типов задач, решаемых методами Data Mining:

1.Классификация – это установление зависимости дискретной выходной переменной от входных переменных.

2.Регрессия – это установление зависимости непрерывной выходной переменной от входных переменных.

3.Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри

99

кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.

4.Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis). Если же нас интересует последовательность происходящих событий, то можно говорить о последовательных шаблонах –

установлении закономерностей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события X спустя время t последует событие Y.

5.Прогнозирование – определение некоторой неизвестной величины по набору связанных с ней значений. Выполняется с помощью таких задач Data Mining, как регрессия, классификация и кластеризация.

Прогнозирование – одна из самых востребованных задач анализа данных. Зная, пусть даже с определенной погрешностью, характер развития событий в будущем, можно принимать более обоснованные управленческие решения, планировать деятельность, разрабатывать соответствующие комплексы мероприятий, эффективно распределять ресурсы и т.д.

Существует множество методов, позволяющих сделать прогноз. Среди статистических методов достаточно эффективными считаются методы регрессионного анализа. Их суть заключается в определении кривой, наиболее точно описывающей связь между двумя параметрами на основании существующих статистических данных. Развитие методов прогнозирования непосредственно связано с развитием информационных технологий, в частности, с ростом объемов хранимых данных и усложнением методов и

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]