Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
guide_analyst_5.2.0.pdf
Скачиваний:
374
Добавлен:
21.03.2015
Размер:
6.37 Mб
Скачать

www.basegroup.ru

Поставщик

 

Товар

 

Дата+

 

Поставщик+

 

Товар+

 

Количество+

 

 

 

 

 

 

 

 

 

 

 

ЖБИ

 

Бетон

 

10.02.2004

 

ЖБИ

 

Бетон

 

100

 

 

 

 

 

 

 

 

 

 

 

КРЗ

 

Картон

 

11.03.2004

 

КРЗ

 

Картон

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12.03.2004

 

ДСК

 

Бетон

 

30

 

 

 

 

 

 

 

 

 

 

 

В выходной набор данных были включены все поля исходной и связываемой таблицы. В результате ко второй таблице были присоединены только те строки и столбцы из исходной таблицы, для которых нашлись совпадающие значения в поле Поставщик из обеих таблиц. Поскольку такими значениями являются «ЖБИ» и «КРЗ», то запись со значением «НЕФТЕБАЗА» поля Поставщик из исходной таблицы в итоговую таблицу не будет включена.

E. Полное внешнее соединение

Рассмотрим соединение двух таблиц с типом слияния «Полное внешнее соединение».

Осуществляя «Полное внешнее соединение» таблиц из примера B) по полю Поставщик, получится следующий результат:

Поставщик

 

Товар

 

 

Дата+

 

Поставщик+

 

Товар+

 

Количество+

 

 

 

 

 

 

 

 

 

 

 

 

ЖБИ

 

Бетон

 

 

10.02.2004

 

ЖБИ

 

Бетон

 

100

 

 

 

 

 

 

 

 

 

 

 

 

КРЗ

 

Картон

 

 

11.03.2004

 

КРЗ

 

Картон

 

20

 

 

 

 

 

 

 

 

 

 

 

 

НЕФТЕБАЗА

 

Мазут

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12.03.2004

 

ДСК

 

Бетон

 

30

 

 

 

 

 

 

 

 

 

 

 

 

В выходной набор данных были включены все поля исходной и связываемой таблицы. Результирующая таблица получается следующим образом: при совпадении значений ключевого поля «Поставщик», по которому происходит соединение, в результирующую таблицу включаются все поля из обеих таблиц с реальными данными. Значение «НЕФТЕБАЗА» поля Поставщик исходной таблицы отсутствует в соответствующем поле присоединяемой таблицы, поэтому значения в присоединенных столбцах в этой строке принимают пустые значения. Соответственно значения «ДСК» поля «Поставщик» нет в аналогичном столбце исходной таблицы, поэтому в результирующей таблице значения столбцов Поставщик и Товар в последней строке принимают пустые значения.

Компонент «Слияние» позволяет соединять и обрабатывать необходимым образом наборы данных, полученные из разных, не связанных между собой источников данных.

Замена данных

В результате выполнения этой операции производится замена значений по таблице подстановки, которая содержит пары, состоящие из исходного значения и выходного значения. Например, 0 – «красный», 1 – «зеленый», 2 – «синий». Или «зима» – «январь», «весна» – «апрель», «лето» – «июль», «осень» - «октябрь». Для каждого значения исходного набора данных ищется соответствие среди исходных значений таблицы подстановки. Если соответствие найдено, то значение меняется на соответствующее выходное значение из таблицы подстановки. Если значение не найдено в таблице, оно может быть либо заменено значением, указанным для замены «по умолчанию», либо оставлено без изменений (если такое значение не указано). Кроме того, можно указать значения, которые нужно вставить вместо пустых ячеек.

стр. 93 из 192

www.basegroup.ru

Пример

Пусть, например, есть список клиентов и каким-либо образом каждый клиент был отнесен в одну из трех групп. Группа задана номером. Таблица может быть такой.

Наименование клиента

 

Группа

 

 

 

Клиент 1

 

1

 

 

 

Клиент 2

 

3

 

 

 

Клиент 3

 

2

 

 

 

Клиент 4

 

1

 

 

 

Клиент 5

 

2

 

 

 

 

 

 

 

Понять, что представляет каждый клиент по такой таблице, невозможно. Но известно, что соответствует каждой группе.

Группа

 

Наименование

 

 

 

1

 

Постоянные

 

 

 

2

 

Случайные

 

 

 

3

 

Потерянные

 

 

 

Это таблица подстановки. Воспользуемся ей для замены значений группы в таблице клиентов.

Наименование клиента

 

Группа

 

 

 

Клиент 1

 

Постоянные

 

 

 

Клиент 2

 

Потерянные

 

 

 

Клиент 3

 

Случайные

 

 

 

Клиент 4

 

Постоянные

 

 

 

Клиент 5

 

Случайные

 

 

 

 

 

 

 

Группировка

Назначение

Аналитику для принятия решения часто необходима сводная информация, т.е. сгруппированные данные. Совокупные данные намного более информативны, особенно если их можно получить в

стр. 94 из 192

www.basegroup.ru

разных разрезах. В Deductor Studio предусмотрен инструмент, реализующий сбор сводной информации – «Группировка». Группировка позволяет объединять записи по полям-измерениям, агрегируя данные в полях-фактах для дальнейшего анализа.

Настройки

Для настройки группировки требуется указать, какие поля являются измерениями, а какие – фактами. Для каждого факта требуется указать функцию агрегации.

Стандартные варианты агрегации: сумма, среднее, максимум, минимум, количество. Количество

– это число агрегируемых значений фактов для каждой комбинации измерений. Для строковых полей в качестве функции агрегации можно указать только максимум, минимум и количество. При этом максимум (минимум) двух строк рассчитывается посимвольным сравнением. Сначала сравниваются два первых символа строк. Если коды этих символов одинаковы, сравниваются вторые символы и т.д. Как только в строках появится первый несовпадающий символ, функция агрегации принимает значение строки, код символа в которой оказался больше (меньше).

Помимо стандартных вариантов агрегации можно еще рассчитать медиану, стандартное отклонение, выбрать первый и последний элемент в группе. Медиана рассчитывается следующим образом: все строки, попавшие в группу, сортируются по факту, по которому рассчитывается медиана, и из отсортированного списка выбирается средний по расположению в списке элемент. Медиана – это альтернатива среднему значению, устойчивое к аномальным выбросам. Стандартное отклонение – это показатель рассеивания значений параметра около его математического ожидания. Используется при нахождении стандартной ошибки, построении доверительных интервалов и т.д. Первый и последний элемент в группе выбирается в соответствии с естественным порядком, в котором эти элементы следуют в исходном наборе данных.

Принцип работы

В таблице данных ищутся записи с одинаковыми значениями полей, являющихся измерениями. Значения полей, выбранных как факты применяются функции агрегации.

Пример

Сгруппируем объемы продаж по клиентам и месяцам. Для этого нужно назначить измерениями поля: клиент и месяц. Поле с объемом продаж назначить фактом и указать для него функцию агрегации – сумма.

К результату можно снова применить операцию группировки. Например, можно задать измерением поле месяц, а фактом – объемы продаж, указав в качестве функции агрегации среднее. Результатом будут объемы продаж в месяц в среднем по всем клиенту.

Зачем проводить группировку данных, если это может сделать OLAP-куб? При использовании инструмента «Группировка» формируется таблица со сгруппированными значениями, которую в отличие от OLAP-куба можно использовать для обработки другими алгоритмами программы.

Например, необходимо построить прогноз объемов продаж. Обычно данные о продажах собираются в определенный промежуток времени, например, раз в день. В таком случае желательно группировать объемы продаж по неделям. Использование выборки по дневным продажам даст плохие результаты, так как продажи по каждому дню в отдельности могут очень сильно отличаться. Однако объемы продаж за неделю или за месяц в среднем не так сильно зашумлены. Поэтому перед построением прогноза желательно применить две обработки: преобразование даты для приведения даты к неделе, в который она попадает, и группировка для вычисления объемов продаж за неделю.

Разгруппировка

Назначение

стр. 95 из 192

www.basegroup.ru

Группировка используется для объединения фактов по каким-либо измерениям. При этом под объединением понимается применение некоторой функции агрегации. Если в исходном наборе данных присутствовали какие-либо другие измерения, то теряется информация о значениях фактов в разрезе этих измерений. Алгоритм разгруппировки позволяет восстановить эти факты, но их значения восстанавливаются не точно, а пропорционально известному вкладу в сгруппированные значения.

Пример

Пусть есть таблица с объемами продаж некоторого товара за два месяца.

Месяц

 

Наименование товара

 

Количество

 

 

 

 

 

1

 

Товар 1

 

100

 

 

 

 

 

1

 

Товар 2

 

10

 

 

 

 

 

2

 

Товар 1

 

110

 

 

 

 

 

2

 

Товар 2

 

20

 

 

 

 

 

Построена модель, которая прогнозирует продажи на 2 месяца вперед. Для этого используется группировка с измерением Месяц и фактом Количество с последующим построением модели прогноза и применением обработчика «Прогнозирование». Результаты прогнозирования представляются в следующем виде:

Месяц

 

Количество

 

 

 

3

 

140

 

 

 

4

 

155

 

 

 

В результирующей таблице указаны общие объемы продаж на 3 и 4 месяц. Для расчета объемов продаж каждого товара по отдельности за месяц необходимо сделать разгруппировку. Результат будет следующим:

Месяц

 

Наименование товара

 

Количество

 

 

 

 

 

 

 

3

 

Товар 1

 

122,50

 

 

 

 

 

 

 

3

 

Товар 2

 

17,50

 

 

 

 

 

 

 

4

 

Товар 1

 

135,62

 

 

 

 

 

 

 

4

 

Товар 2

 

19,37

 

 

 

 

 

 

 

Поясним, как выполнена такая разгруппировка. Общее количество проданного товара за первый и второй месяцы 100 + 10 + 110 + 20 = 240. При этом первый товар внес в это количество 100 + 110 = 210 или (210/240)*100 = 87,5%.

После прогнозирования выяснилось, что общее прогнозное количество товара за третий месяц равно 140. Из них 87.5% приходится на «Товар 1». Это составляет 122,50. Прогноз количества товара за 4 месяц равен 155. Из них 87,5% приходится на Товар 1. Это составляет 135,62. Точно

стр. 96 из 192

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]