Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
диплом_NY_30 (1).doc
Скачиваний:
46
Добавлен:
16.02.2016
Размер:
2.87 Mб
Скачать

2.2. Методика дослідження гіс для вирішення основного класу задач Data Mining

Слід зазначити, що побудова ГІС для інтелектуального аналізу даних є частиною більш масштабного процесу, до якого входять всі завдання, від формулювання питань щодо даних і створення моделі для відповідей на ці питання до розгортання моделі в робочому середовищі. Цей процес можна представити як послідовність наступних шести базових кроків:

Перший крок включає аналіз бізнес-вимог, визначення області проблеми, метрик, за якими буде виконуватися оцінка моделі, а також визначення завдань для проекту інтелектуального аналізу даних.

Другим кроком процесу інтелектуального аналізу даних є об’єднання та очищення даних.

Дані можуть зберігатися в різних форматах або містити такі помилки узгодження, як невірні записи. Очищення даних це не тільки видалення неприпустимих даних, а й пошук в даних прихованих залежностей, визначення джерел самих точних даних і підбір ознак, які найбільше підходять для використання в аналізі. Необхідно визначити який фактор найсильніше впливає, або які фактори виглядають незалежними, але насправді мають міцний взаємозв’язок та можуть непередбачуваним чином вплинути на результати моделі. Тому перед початком побудови моделей інтелектуального аналізу даних слід виявити такі проблеми і визначити, як їх усунути.

Третім кроком процесу інтелектуального аналізу даних є перегляд підготовлених даних.

Для прийняття правильних рішень при створенні моделей інтелектуального аналізу даних необхідно розуміти дані. Методи дослідження даних включають в себе розрахунок мінімальних і максимальних значень, обчислення стандартного відхилення і вивчення розподілу даних. Наприклад, по максимальному, мінімальному та середньому значенням можна зробити висновок, що вибірка даних не є репрезентативною, і тому необхідно отримати більш збалансовані дані або змінити припущення, що лежать в основі очікуваних результатів. Стандартне відхилення та інші характеристики розподілу можуть повідомити корисні відомості про стабільність і точності результатів. Велика величина стандартного відхилення може свідчити про те, що додавання нових даних допоможе вдосконалити модель. Дані, які сильно відхиляються від стандартного розподілу, можуть виявитися спотвореними або представляти точну картину реальної проблеми, яка робить складним підбір відповідної моделі для даних.

Четвертим кроком процесу інтелектуального аналізу даних є побудова моделей інтелектуального аналізу даних.

Знання, отримані при виконанні кроку «Перегляд даних», допоможуть визначити і створити моделі. Дані, необхідні для використання, визначаються шляхом створення структури інтелектуального аналізу даних. Перед обробкою модель інтелектуального аналізу даних є просто контейнером, який задає параметри, що використовуються для вхідних даних, прогнозований атрибут і параметри, що керують алгоритмом обробки даних. Обробка моделі також називається навчанням. Навчання позначає процес застосування певного математичного алгоритму до даних у структурі з метою виявити закономірності. Закономірності, виявлені в процесі навчання, залежать від вибору навчальних даних, обраного алгоритму і його конфігурації. Для налаштування кожного алгоритму використовуються параметри, і крім того, можна застосувати фільтри до навчальних даних, щоб використовувати лише їх підмножину, що призведе до отримання інших результатів. Після проходження даних через модель об’єкт моделі інтелектуального аналізу даних буде містити зведені дані і закономірності, які можна запитувати і використовувати для прогнозування.

П’ятим кроком процесу інтелектуального аналізу даних є дослідження побудованих моделей інтелектуального аналізу даних і перевірка їх ефективності.

Необхідно перевірити ефективність роботи моделі. Крім того, під час побудови моделі зазвичай створюється кілька моделей з різною конфігурацією, а потім перевіряються всі моделі, щоб визначити, яка з них забезпечує найкращі результати для поставленої задачі і наявних даних. Якщо жодна з моделей, створених при виконанні кроку «Побудова моделей», не має потрібної ефективності, може виникнути необхідність повернутися до попереднього кроку процесу і або змінити постановку задачі або виконати повторне вивчення даних у вихідному наборі даних.

Останнім кроком процесу інтелектуального аналізу даних є розгортання найбільш ефективних моделей у робочому середовищі.

Кожен крок не обов’язково веде безпосередньо до наступного кроку, тому творення ГІС для статистичного аналізу даних являє собою динамічний ітеративний процес.

Виконавши перегляд даних, користувач може виявити, що даних недостатньо для створення необхідних моделей інтелектуального аналізу даних, що веде до необхідності пошуку додаткових даних. Може виникнути необхідність у відновленні вже розгорнутих моделей за рахунок нових даних, що надійшли.

Суть дослідження полягає в порівнянні ефективності побудови ГІС, яка вирішує задачі кластеризації та регресії в вигляді ієрархії методів з традиційними підходами.

Методику дослідження ефективності можна розділити на три етапи:

1) розбити вхідні дані на ряд груп таким чином, щоб всередині групи об’єкти були максимально схожі між собою, а також щоб групи максимально між собою різнилися. Для визначення кількості кластерів на які треба розділити вхідні дані необхідно скористатися ієрархічним методом кластерного аналізу.

2) визначити, який об’єкт, до якого кластеру належить. Для цього треба скористатися ітеративною процедурою, методом К-середніх.

3) вирішити задачу регресії, яка стає простою і формальною процедурою. Необхідно, вказавши на кластер, обчислити підсумкове значення для предикторів.