Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Архитектурно-Строительный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

9306

.pdf

Скачиваний:

Добавлен:

25.11.2023

Размер:

2.5 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 1610 11 12 13 14 15 16 > Следующая >>>

Справа находятся элементы:

Измерение. Фильтрация подразумевает, что в таблице останется лишь часть значений некоторого измерения. Это поле как раз и задает измерение, значения которого будут отфильтрованы.

Факты и варианты агрегации. В кубе может содержаться один и более фактов. Фильтрация будет происходить по значениям выбранного здесь факта. Для факта выбирается функция агрегации, в соответствии с которой отбираются записи.

Условие – условие отбора записей по значениям выбранного факта. Условие может принимать различные значения, перечислим некоторые из них.

Первые N. Значения измерения сортируются в порядке убывания факта и выбираются первые N значений измерений. Таким образом, можно, например, выделить 5 загрязнителей, больше всех превышающих ПДК, или 10 наиболее продаваемых товаров, или первые 5 наиболее удачных дней.

Последние N. Значения измерения сортируются в порядке убывания факта и выбираются последние N значений измерений, например, 10 наименее популярных товаров.

Доля от общего. Значения измерения сортируются в порядке убывания факта. В этой последовательности выбирается столько первых значений измерения, сколько в сумме дадут заданную долю от общей суммы. Например, можно отобрать клиентов, приносящих 80% прибыли, или товары, дающие 50 % объема продаж.

Диапазон, Больше, Меньше – отбираются записи, для которых значение соответствующего факта лежит в заданном диапазоне, больше или меньше указанного значения.

3.4.Практическая работа «Аналитическая отчетность в Deductor

Studio Academic»

Задание 1. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных ВОДА. Все требуемые отчеты должны быть вынесены на Панель отчетов.

1.Постройте отчет–диаграмму «Динамика показателя содержания ХПК (химическое потребление кислорода) в реке Ока», используя все имеющиеся данные.

Рис. 3.13. Временной ряд загрязнителя ХПК

2.Постройте отчет–гистограмму распределения показателя «ХПК» в реке Беленькая за последние 5 месяцев от имеющихся данных. Назовите отчет «Гистограмма показателя ХПК».

Рис. 3.14. Гистограмма показателя ХПК

3.Постройте куб (и кросс-диаграмму) по двум измерениям Створ и Название загрязнителя, в ячейках которого указаны средние значения показателей, имеющихся в ХД ВОДА. Определите, у какого

загрязнителя наибольшее среднее значение. Назовите отчет «Средние значения загрязнителей».

Рис. 3.15. Отчет «Средние значения загрязнителей»

4.Из ХД ВОДА выгружена информация по экологическим показателям объектов Нижегородской области (фрагмент данных в табл. 5).

Используя визуализатор OLAP-куб, требуется получить отчет в виде приведенной ниже табл. 6 (указан фрагмент).

Таблица 6

Дополнительно: требуется сделать преобразование (трансформацию) данных так, чтобы на выходе была табл. 6. Какие обработчики нужно использовать в сценарии для решения этой задачи?

5.Построить отчет-диаграмму «Индекс загрязнения воды (ИЗВ)» для всех рассматриваемых водных объектов и сделать вывод, какой объект является самым загрязненным.

Рис. 3.16. Отчет «ИЗВ»

Указание: Для составления данного отчета должна быть произведена фильтрация по каждому водному объекту и шести загрязнителям, относящимся к конкретному водному объекту. С помощью внешнего левого соединения для каждого водного объекта нужно составить таблицу, содержащую информацию о загрязнителях, их значениях и ПДК (предельно допустимая концентрация). Далее с помощью калькулятора в таблицу добавить поле «Отношение», которое вычисляется путем деления столбца «Значение загрязнителя» на столбец «ПДК». После вычисления данного столбца произвести группировку по измерениям «Наименование объекта» и «Дата», а в качестве агрегации факта «Отношение» выбрать. Затем с помощью калькулятора в полученную таблицу добавить поле «ИЗВ», которое вычисляется по формуле (2), и вывести диаграмму на панель отчетов.

ИЗВ =	∑in=1Ci /	ПДК i
ИЗВ =	N	(2)
		(2)

Сi - концентрация компонента;

N – число показателей, используемых для расчета индекса;

ПДКi – установленная величина для соответствующего типа водного объекта.

6. Написать сценарий и получить отчет «Отношение к ПДК» (рис. 3.17). Отчет представляет собой сводную таблицу, в которой представлено

отношение каждого загрязнителя к уровню его ПДК. Данные значения являются относительными, то есть не имеют единиц измерения, поэтому их можно использовать для корреляционного анализа.

Рис. 3.4. Отчет «Отношение к ПДК» (фрагмент)

Задание 2. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных Регион. Все требуемые отчеты должны быть вынесены на Панель отчетов (рис. 3.17). При помощи операций транспонирование измерений, фильтрация и агрегирование фактов сформировать отчеты и ответить на вопросы в заданиях.

Используемые обозначения основных социально-экономических показателей:

•Показатель промышленность – объем произведенной продукции (работ, услуг) в действующих ценах соответствующих лет по крупным и средним предприятиям, млн руб.;

•Показатель с/х – продукция сельского хозяйства в хозяйствах всех категорий (в фактически действовавших ценах), тыс.руб.;

•Показатель инвестиции – инвестиции в основной капитал крупных и средних предприятий, тыс.руб.;

•Показатель зарплата – среднемесячная заработная плата работающих на крупных и средних предприятиях, руб.;

•Показатель безработица – уровень официально зарегистрированной безработицы (в % от экономически активного населения);

•Показатель доход – доходы бюджета, млн руб.;

• Показатель расход – расходы бюджета, млн руб.

Рис. 3.17 Отчеты по данным ХД Регион

1. Сформировать многомерные отчеты и соответствующие им кроссдиаграммы для показателя промышленность, в которых будут указаны 5 лучших районов по объему произведенной продукции, 5 худших и районы, дающие 50% от общего объема произведенной продукции в Нижегородском регионе.

Последовательность выполнения задания:

1)Подключить ХД Регион, извлечь имеющуюся там информацию и откорректировать названия полей, используя обработчик

Настройка набора данных.

2)Запустить мастер визуализации и указать способ отображения данных в виде куба.

3)Произвести настройку назначений полей куба: измерения – дата (размещаем в строки), код_региона-название (размещаем в колонки), код региона – информационный, остальные поля – факты (с агрегацией – сумма).

4)В полученной кросс-таблице осуществить фильтрацию, выбрав факт промышленность, измерение код_региона-название и

а) условие «Первые N», значение «5»; б) условие «Последние N», значение «5»;

в) условие «Доля от общего», значение «50».

2.Сформировать многомерные отчеты и соответствующие им кроссдиаграммы для показателя с/х, в которых будут указаны 5 лучших районов по уровню с/х, 5 худших.

3.Определить первые 5 районов по инвестициям и 5 последних.

4.Определить районы с самым высоким и самым низким уровнем безработицы.

5.Определить районы с самым высоким и самым низким уровнем зарплаты.

6.Определить 5 самых доходных районов, 5 районов с самым низким уровнем доходов и районы, дающие 80% дохода бюджета всего Нижегородского региона.

7.Определить районы с наибольшим и наименьшим расходом бюджета.

3.5. Вопросы для самопроверки

1.Каковы цели и задачи визуализации данных в аналитических технологиях?

2.Для чего используется визуализация источников данных?

3.Зачем нужен визуальный контроль данных после их загрузки в аналитическое приложение?

4.Чем отличаются средства визуализации общего назначения от специализированных?

5.Какие средства визуализации данных относят к визуализаторам общего назначения и почему?

6.В чем отличие графика от диаграммы? Какие виды диаграмм вам известны?

7.По какому принципу строится гистограмма, и какую информацию о поведении исследуемой величины из нее можно извлечь?

8.Для каких целей служит визуализатор Статистика?

9.Почему визуализация многомерных данных может оказаться

проблематичной c точки зрения пользователя? 10.В чем заключается OLAP-анализ и каковы его цели? 11.Какова структура OLAP-куба?

12.Какие манипуляции с измерениями можно производить, чтобы сделать представление куба более информативным?

13.В чем заключаются операции транспонирования и детализации, каковы их цели?

14.Что такое кросс-диаграмма, и для каких целей она используется?

4. Методы и модели Data Mining 4.1. Технологии KDD и Data Mining

Информационный подход к анализу получил распространение в таких методиках извлечения знаний, как KDD (Knowledge Discovery in Databases, извлечение знаний из баз данных) и Data Mining (интеллектуальный анализ данных). Сегодня на базе этих методик создается большинство прикладных аналитических решений в бизнесе и многих других областях. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки, построения моделей, постобработки и интерпретации полученных результатов. Ядром или шагом процесса KDD являются методы Data Mining, позволяющие обнаруживать закономерности и знания.

Knowledge Discovery in Databases – процесс получения из данных знаний в виде зависимостей, правил, моделей, обычно состоящий из таких этапов, как выборка данных, их очистка и трансформация, моделирование и интерпретация полученных результатов.

Data Mining (DM) – обнаружение в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. К базовым методам интеллектуального анализа данных прежде всего относят нейронные сети, деревья решений, логистическую регрессию, ассоциативные правила.

Выделяют пять основных типов задач, решаемых методами Data Mining:

1.Классификация – это установление зависимости дискретной выходной переменной от входных переменных.

2.Регрессия – это установление зависимости непрерывной выходной переменной от входных переменных.

3.Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри

кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.

4.Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis). Если же нас интересует последовательность происходящих событий, то можно говорить о последовательных шаблонах –

установлении закономерностей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события X спустя время t последует событие Y.

5.Прогнозирование – определение некоторой неизвестной величины по набору связанных с ней значений. Выполняется с помощью таких задач Data Mining, как регрессия, классификация и кластеризация.

Прогнозирование – одна из самых востребованных задач анализа данных. Зная, пусть даже с определенной погрешностью, характер развития событий в будущем, можно принимать более обоснованные управленческие решения, планировать деятельность, разрабатывать соответствующие комплексы мероприятий, эффективно распределять ресурсы и т.д.

Существует множество методов, позволяющих сделать прогноз. Среди статистических методов достаточно эффективными считаются методы регрессионного анализа. Их суть заключается в определении кривой, наиболее точно описывающей связь между двумя параметрами на основании существующих статистических данных. Развитие методов прогнозирования непосредственно связано с развитием информационных технологий, в частности, с ростом объемов хранимых данных и усложнением методов и

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 1610 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.11.20232.49 Mб39301.pdf
#
25.11.20232.49 Mб09302.pdf
#
25.11.20232.49 Mб09303.pdf
#
25.11.20232.49 Mб09304.pdf
#
25.11.20232.49 Mб09305.pdf
#
25.11.20232.5 Mб09306.pdf
#
25.11.20232.5 Mб09307.pdf
#
25.11.20232.5 Mб09308.pdf
#
25.11.20232.51 Mб09309.pdf
#
21.11.2023163.39 Кб0931.pdf
#
25.11.20232.51 Mб09310.pdf