Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Зайцев Применение методов Дата Мининг для поддержки процессов управления ИТ-услугами.Учебное пособие 2009

.pdf
Скачиваний:
72
Добавлен:
17.08.2013
Размер:
2.04 Mб
Скачать

услугами выявил следующие задачи поиска скрытых зависимостей (знаний) в больших объемах данных.

1.Нахождение скрытых ассоциативных правил, связанных с нарушением крайних сроков времени устранения инцидента.

2.Кластеризация инцидентов для нахождения групп, потенциально связанных с одной проблемой.

3.Классификация инцидентов с целью связывания их с уже обнаруженными проблемами.

4.Классификация типов, моделей, элементов конфигурационных единиц с целью выявления ненадежных компонентов.

5.Обнаружение ассоциативных правил и последовательностей, связанных с возникновением инцидента.

6.Определение шаблонов в поведении пользователей, информации и нагрузки с целью обнаружения выбросов.

7.Обнаружение шаблонов действий, поведения информации, нагрузки «злоумышленник – обычный пользователь».

8.Нахождение в проектируемой ИТ-инфраструктуре шаблонов, которые приводили ранее к инцидентам или соответствуют известной проблеме.

9.Прогнозирование времени до следующего сбоя данной конфигурационной единицы.

10.Классификация конфигурационных единиц (принадлежит ли этот элемент к какой-то определенной, неочевидной группе).

6. Практическое применение методов Data Mining в задачах ITSM

6.1. Анализ причин нарушения сроков выполнения заявок

Постановка задачи. Имеется массив данных о заявках пользователей (16 000 заявок) системы автоматизации службы технической поддержки и регламентов управления ИТ. Данные находятся в СУБД MS SQL Server 2005.

Необходимо выявить скрытые зависимости, влияющие на нарушение сроков выполнения заявок, в виде правил «если-то» с использованием различных методов Data Mining и проанализировать полученные результаты.

Действия по анализу данных разбиваются на этапы.

81

1. Выбор факторов, влияющих на нарушение сроков выполнения заявок. После консультации с экспертами в предметной области было выявлено, что на нарушение срока выполнения заявки могут влиять следующие факторы:

рабочая группа, которая выполняет работы по данной заявке;

назначенный сотрудник, который выполняет работы по данной заявке;

категория заявки;

степень влияния на предприятие проблемы, с которой связана заявка;

заявитель заявки.

2.Выбор программного продукта для анализа данных. Так как данные находятся в СУБД MS SQL Server 2005 и программный продукт MS SQL Server Analysis Services поддерживает оба метода нахождения скрытых знаний в виде правил «если-то», то был выбран именно этот программный продукт для глубокого анализа данных.

3.Подготовка данных. Для работы алгоритма нахождения деревьев решений и алгоритма поиска ассоциативных правил, встро-

енных в MS SQL Server Analysis Services, необходимо воспользо-

ваться линейным представлением сущности. Таким образом, для выполнения представления были созданы следующие представление и функции на языке T-SQL в СУБД:

SELECT SC.SER_ID AS ID, dbo.fn_v0_get_name_code_by_id(SC.SER_CAT_OID, 1049) AS CATEGORY,

dbo.fn_v0_get_name_cod_code_by_id(SC.SER_IMP_OID, 1049) AS IMPACT, ASSIGNED_PERSON.PER_NAME AS ASSIGNED_PERSON_NAME,

WOGS.WOG_NAME AS WORKGROUP, REQUESTOR.PER_OID AS REQUESTOR_OID, REQUESTOR.PER_NAME AS REQUESTOR_NAME,

ASSIGNED_PERSON.PER_OID

FROM (SELECT PER_OID, PER_NAME FROM dbo.ITSM_PERSONS AS pers) AS REQUESTOR RIGHT OUTER JOIN

dbo.ITSM_SERVICECALLS AS SC LEFT OUTER JOIN (SELECT PER_OID, PER_NAME

FROM dbo.ITSM_PERSONS AS pers) AS ASSIGNED_FROM ON SC.SER_ASS_PER_FROM_OID = ASSIGNED_FROM.PER_OID LEFT OUTER JOIN

dbo.ITSM_WORKGROUPS AS WOGS ON SC.SER_ASS_WOG_OID = WOGS.WOG_OID LEFT OUTER JOIN

(SELECT PER_OID, PER_NAME

FROM dbo.ITSM_PERSONS AS pers) AS ASSIGNED_PERSON ON SC.SER_ASS_PER_TO_OID = ASSIGNED_PERSON.PER_OID ON

82

REQUESTOR.PER_OID = SC.SER_CALLER_PER

FUNCTION [dbo].[fn_v0_get_name_cod_code_by_id](@id_code varchar(1000),@lang

int)

RETURNS varchar(1000) AS begin

declare @ret varchar(1000) select @ret=cdl_name

from dbo.itsm_codes_locale where cdl_lng_oid = @lang and cdl_cod_oid = @id_code; return @ret

END

FUNCTION [dbo].[fn_v0_get_name_code_by_id](@id_code varchar(1000),@lang int) RETURNS varchar(1000) AS

begin

declare @ret varchar(1000)

select @ret= dbo.REP_CODES_TEXT.RCT_NAME FROM dbo.REP_CODES INNER JOIN

dbo.REP_CODES_TEXT ON dbo.REP_CODES.RCD_OID = dbo.REP_CODES_TEXT.RCT_RCD_OID

WHERE (dbo.REP_CODES_TEXT.RCT_LNG_OID = @lang) AND (dbo.REP_CODES_TEXT.RCT_RCD_OID = @id_code)

return @ret

END

4.Анализ данных. После подготовки данных был создан проект

всреде MS Visual Studio 2005, с помощью которого выполнен анализ данных в представлении методами построения деревьев решений и поиска ассоциативных правил.

Результаты анализа данных методом деревьев решений. В

результате анализа данных методом деревьев решений было получено дерево решений, состоящее из 12 уровней (рис. 6.1).

Кроме этого, в результате анализа данных методом деревьев решений было получено 51 скрытое правило. Больше половины правил содержат в левой части более четырех логических условий. Такие правила уже трудно воспринимаются человеком. Примером может служить следующее правило, выданное алгоритмом.

«IMPACT = "Низкое" and WORKGROUP not = "ГИ09.1 Help Desk" and WORKGROUP not = "ГИ03.8 RSS - МКУ" and ASSIGNED PERSON NAME not = Missing and WORKGROUP not = "ГИ03.12 RSS - ШЕРЕМЕТЬЕВО" and

83

Рис. 6.1. Дерево решений анализа влияний факторов на нарушение сроков выполнения заявок

WORKGROUP not = "ГИ02.1 Internet, Active Directory + серверы" and ASSIGNED PERSON NAME not = "Мекин Сергей Михайлович" and WORKGROUP not = "ГИ08.1 Техобслуживание Летного Комплекса" and WORKGROUP not = "ГИ01.5

ИБП" and REQUESTOR NAME not = "Нефедова Татьяна Юрьевна" and WORKGROUP not = "ГИ03.13 RSS - ЦМР" => EXPIRED = 1»,

которое сложно интерпретировать.

Результаты анализа данных методом поиска ассоциативных правил. В результате анализа данных методом поиска ассоциативных правил при минимально возможных значениях параметров поддержки и достоверности было получено 1347 правил. При этом ни одно из правил не содержало более трех логических условий в левой части. После установки разумных значений параметров поддержки и достоверности осталось 40 правил, которые содержали только два логических условия в левой части, и поэтому легко поддавались восприятию человеком.

Сравнение правил полученных разными методами. Правила полученные в данном исследовании двумя разными методами сильно различаются:

количество условий в левой части правил, полученных методом поиска ассоциативных правил не более трех, а условий, полученных методом деревьев решений, достигает одиннадцати;

атомарные условия, входящие в правила, в результирующих наборах разных методов, пересекаются только на 35 %.

6.2.Анализ причин нарушения сроков выполнения нарядов

Постановка задачи. Имеется массив данных о нарядах (26 000 нарядов) системы автоматизации службы технической поддержки и регламентов управления ИТ. Данные находятся в СУБД

MS SQL Server 2005.

Необходимо выявить скрытые зависимости, влияющие на нарушение сроков выполнения заявок, в виде правил «если-то» с использованием методов Data Mining и проанализировать полученные результаты.

Действия по анализу данных разбиваются на этапы.

1. Выбор факторов, влияющих на нарушение сроков выполнения наряда. После консультации с экспертами в предметной области

85

было выявлено, что на нарушение срока выполнения наряда могут влиять следующие факторы:

рабочаягруппа, котораявыполняетработыподанному наряду;

назначенный сотрудник, который выполняет работы по данному наряду;

категория наряда;

степень влияния на предприятие проблемы, с которой связан

наряд;

контактное лицо наряда.

2.Выбор программного продукта для анализа данных. Анало-

гично предыдущему примеру.

3.Подготовка данных. В виду выбора того же средства анализа, что и в предыдущем примере было создано еще одно представление в СУБД:

SELECT WO.WOR_ID AS ID, dbo.fn_v0_get_name_code_by_id (WO.WOR_CAT _OID, 1049) AS CATEGORY,

dbo.fn_v0_get_name_cod_code_by_id(WO.WOR_IMP_OID, 1049) AS IMPACT, REQUESTOR.PER_NAME AS REQUESTOR_NAME,

PERSON_TO.PER_NAME AS TO_PERSON, WO_CF.WCF_BOOLEAN8 AS WORKORDER_EXPIRE, WG.WOG_NAME AS ASSIGNED_WORKGROUP,

REQUESTOR.PER_OID AS REQUESTOR_OID FROM (SELECT PER_OID, PER_NAME

FROM dbo.ITSM_PERSONS AS pers) AS REQUESTOR RIGHT OUTER JOIN (SELECT PER_OID, PER_NAME

FROM dbo.ITSM_PERSONS AS pers) AS PERSON_TO RIGHT OUTER JOIN (SELECT WOG_OID, WOG_NAME

FROM dbo.ITSM_WORKGROUPS) AS WG RIGHT OUTER JOIN

(SELECT WCF_COD2_OID, WCF_COD1_OID, WCF_WORKORDERDATE6, WCF_COD5_OID, WCF_WORKORDERDATE8, WCF_WORNUMBER6,

WCF_WORKORDERTEXT23, WCF_WORSHORTTEXT10, WCF_WOR_OID, WCF_WORNUMBER1, WCF_WORNUMBER2,

WCF_WORNUMBER3, WCF_WORKORDERTEXT2, WCF_WORKORDERTEXT3, WCF_WORKORDERTEXT4, WCF_WORKORDERTEXT5,

WCF_WORSHORTTEXT1, WCF_PER1_OID, WCF_CIT1_OID, WCF_BOOLEAN3, WCF_BOOLEAN4, WCF_BOOLEAN6, WCF_BOOLEAN7,

WCF_BOOLEAN8, WCF_BOOLEAN10, WCF_BOOLEAN13

FROM dbo.ITSM_WOR_CUSTOM_FIELDS) AS WO_CF RIGHT OUTER JOIN dbo.ITSM_WORKORDERS AS WO ON WO_CF.WCF_WOR_OID = WO.WOR_OID

ON WG.WOG_OID = WO.ASS_WORKGROUP ON

PERSON_TO.PER_OID = WO.ASS_PER_TO_OID ON REQUESTOR.PER_OID = WO.WOR_REQUESTOR_PER_OID

4.Анализ данных. После подготовки данных был создан проект

всреде MS Visual Studio 2005, с помощью которого был проведен анализ данных в представлении методами построения деревьев решений и поиска ассоциативных правил.

86

Рис. 6.2. Дерево решений анализа влияний факторов на нарушение сроков выполнения заявок

Результаты анализа данных методом деревьев решений. В

результате анализа данных методом деревьев решений было получено дерево решений, состоящее из 24 уровней (рис. 6.2).

Методом деревьев решений было получено 123 скрытых правила. Больше половины из них в левой части содержат свыше семи логических условий, что трудно воспринимается человеком. Например, алгоритм выдал правило:

«IMPACT = "Низкое" and ASSIGNED WORKGROUP not = "ГИ06.01 Техоб-

служивание програмного обеспечения" and ASSIGNED WORKGROUP not = "ГИ03.8 RSS - МКУ" and TO PERSON not = "Колымагин-RSS" and TO PERSON not = "Мекин Сергей Михайлович" and TO PERSON not = "Петриков Николай Сергеевич" and ASSIGNED WORKGROUP not = "ГИ06.02 Техобслуживание периферии" and ASSIGNED WORKGROUP not = "ГИ16.02 Выдача расходных материалов" and TO PERSON not = "МонтерШ1-2" and ASSIGNED WORKGROUP not = "ГИ08.1 Техобслуживание Летного Комплекса" and ASSIGNED WORKGROUP not = "ГИ05.1 Группа сопровождения производств. систем" and ASSIGNED WORKGROUP not = "ФАиП" and ASSIGNED WORKGROUP not = "RSS - Сервисный Центр" and TO PERSON not = "1 ТИС" and TO PERSON not = "Павельев-RSS, С Л" and ASSIGNED WORKGROUP not = "Отдел РИСК" and TO PERSON not = "Портал Лэнд" and ASSIGNED WORKGROUP not = "ГИ01.11 Обслуж. офисов рег.Москва 2 (сеть, телеф.)" and TO PERSON not = "Тихенький Георгий Владимирович" and TO PERSON not = "Петрушин Игорь Николаевич" and REQUESTOR NAME not = "Хаустов Михаил Вячеславович" and CATEGORY = "01. Управление инцидентами" and REQUESTOR NAME not = "Редянова Лариса Михайловна" => EXPIRED = 1»,

которое практически не поддается восприятию человеком.

Результаты анализа данных методом поиска ассоциативных правил. В результате анализа данных методом поиска ассоциативных правил при минимально возможных значениях параметров поддержки и достоверности было получено 1115 правил (при этом ни одно из правил в левой части не содержало более трех логических условий). После установки разумных значений параметров поддержки и достоверности было получено 45 правил, которые содержали в левой части только два логических условия и легко интерпретировались специалистами.

Сравнение правил полученных разными методами. Правила полученные в данном исследовании двумя разными методами сильно различаются:

количество условий в левой части правил, полученных методом поиска ассоциативных правил, не более трех, а количество ус-

88

ловий в левой части правил, полученных методом деревьев решений, достигает двадцати трех;

условия, входящие в правила, в результирующих наборах правил обоих методов, пересекаются только на 27 %.

Причины несовпадения результатов. При использовании для анализа данных двух разных методов (деревьев решений и поиска ассоциативных правил), приведенных выше, выявлены следующие отличия в результирующих наборах найденных правил:

различие числа условий в левой части правил;

существенные различия в перечне атомарных условий, используемых в правилах, и как следствие различие самих правил.

Значительно большее количество условий в левой части правил алгоритма построения деревьев решений по сравнению с алгоритмом нахождения ассоциативных правил объясняется учетом этим алгоритмом условий типа «A ≠ Значение», в то время как алгоритм поиска ассоциаций не учитывает правила такого вида.

Различия в условных частях правил объясняется тем, что процесс построения дерева решений основан на максимизации прироста информации, в то время как алгоритм поиска ассоциативных правил основан на выделении частых наборов, т.е. таких наборов, в которых высока частота появления одной части (правая часть правила) относительно наборов, в которых есть другая часть (левая часть правила).

Алгоритм поиска ассоциативных правил предназначен для выявления в данных зависимостей типа A -> B, где A и B представляют собой наборы пар «атрибут = значение». Правило должно быть:

значимым, т.е. наборы A и B должны достаточно часто совместно встречаться в исходных данных;

точным, т.е. должна быть высока доля записей, содержащих набор B, который, в свою очередь, содержит набор A.

Алгоритм дерева решений предназначен для решения задач регрессии и классификации, т.е. для выявления зависимости целевого параметра от значения других параметров. В процессе построения модели алгоритм итеративно вычисляет степень влияния каждого входного атрибута модели на значения выходного атрибута и использует атрибут, влияющий на выходной атрибут в наибольшей

89

степени для разбиения узла дерева решений. Узел верхнего уровня описывает распределение значений выходного атрибута по всей совокупности данных. Каждый последующий узел описывается распределением выходного атрибута при соблюдении условий на входные атрибуты, соответствующие этому узлу.

Модель продолжает расти до тех пор, пока разбиение узла на последующие узлы значительно увеличивает вероятность того, что выходной атрибут будет принимать какое-то определенное значение по сравнению со всеми другими значениями, т.е. разбиение увеличивает качество прогноза. Алгоритм также прекращает разбиение, когда число записей в базе данных, описываемых условиями узла, становится меньше определенного уровня. Алгоритм осуществляет поиск атрибутов и их значений, разбиение по которым позволяет с большей вероятностью правильно предсказать значение выходного атрибута.

6.3. Анализ инцидентов системы автоматизации процессов управления ИТ-услугами

Постановка задачи. Имеется массив данных об инцидентах системы автоматизации процессов управления ИТ-услугами службы технической поддержки и регламентов управления ИТ (58 000 записей). Данные находятся в СУБД MS SQL Server 2005.

Имеется массив данных о конфигурационных единицах ИТинфраструктуры системы централизованного управления разветвленной ИТ-инфраструктурой (13 000 записей). Данные находятся в СУБД MS SQL Server 2000.

Необходимо выявить скрытые факторы, влияющие на нарушение крайних сроков устранения инцидентов за три последних месяца с использованием методов Data Mining и проанализировать полученные результаты.

Действия по анализу данных разбиваются на этапы.

1. Выбор факторов, влияющих на нарушение крайних сроков. Фак-

торы, учитывающиеся в конечном анализе данных, при поиске скрытых ассоциативных правил, связанных с нарушением крайних сроков, хранимыесистемойHP Service Desk, представленынарис. 6.3.

90

Соседние файлы в предмете Интегрированные системы управления и проектирования