- •Пояснювальна записка
- •Магістра
- •З а в д а н н я на дипломний проект (роботу) студенту Романюк Ірині Сергіївні
- •Календарний план
- •Розділ 1 аналіз гібридних інтелектуальних систем
- •1.1. Аналіз та порівняльні дослідження методів та підходів для вирішення задач інтелектуального аналізу даних
- •1.2. Дослідження сутності гібридних інтелектуальних систем
- •Класифікація архітектури гібридних інтелектуальних систем
- •1.3. Аналіз основних задач Data Mining
- •Характеристика методів Data Mining
- •Розділ 2 методологічні основи побудови гібридної інтелектуальної системи для вирішення основного класу задач data mining
- •2.1. Аналіз алгоритмів і методів кластеризації та регресії для вирішення класу задач Data Mining
- •2.2. Методика дослідження гіс для вирішення основного класу задач Data Mining
- •2.3. Побудова моделі гібридної інтелектуальної системи з використанням математичного апарату
- •Розділ 3 Проектування гібридної інтелектуальної інформаційної системи для вирішення задач кластеризації та регресії
- •3.1. Узагальнена структура гібридної інформаційної системи та алгоритм її роботи
- •3.2. Програмна реалізація гібридної інтелектуальної системи для рішення задач кластеризації та регресії
- •3.3. Ефективність побудови гібридної інтелектуальної системи для рішення задач кластеризації та регресії
- •Загальні результати розбиття на 3 кластери тестової вибірки методом к-середніх
- •Загальні результати розбиття на 3 кластери тестової вибірки методом к-середніх
- •Розділ 4 Охорона праці та безпека в надзвичайних ситуавціях
- •4.1. Вимоги до робочого місця програміста
- •4.2. Режим роботи програміста
- •Час регламентованих перерв при роботі на комп'ютері
- •4.3. Вимоги до приміщень на підприємстві
- •Параметри мікроклімату для приміщень, де встановлені комп’ютери
- •Норми подачі свіжого повітря в приміщення, де розташовані комп'ютери
- •Граничні рівні звуку, дБ, на робочих місцях.
- •Допустимі значення параметрів неіонізуючих електромагнітних випромінювань (відповіднодо СанПіН 2.2.2.542-96)
- •Висновки
- •Список використаних джерел:
- •Порівняльна характеристика методів Data Mining
- •Лістинг програмного продукту
- •Діаграми бізнес-варіантів використання та варіантів використання розробленого програмного продукту
- •Загальні результати кластеризації тестової вибірки різними методами з різними мірами подібності
2.2. Методика дослідження гіс для вирішення основного класу задач Data Mining
Слід зазначити, що побудова ГІС для інтелектуального аналізу даних є частиною більш масштабного процесу, до якого входять всі завдання, від формулювання питань щодо даних і створення моделі для відповідей на ці питання до розгортання моделі в робочому середовищі. Цей процес можна представити як послідовність наступних шести базових кроків:
Перший крок включає аналіз бізнес-вимог, визначення області проблеми, метрик, за якими буде виконуватися оцінка моделі, а також визначення завдань для проекту інтелектуального аналізу даних.
Другим кроком процесу інтелектуального аналізу даних є об’єднання та очищення даних.
Дані можуть зберігатися в різних форматах або містити такі помилки узгодження, як невірні записи. Очищення даних – це не тільки видалення неприпустимих даних, а й пошук в даних прихованих залежностей, визначення джерел самих точних даних і підбір ознак, які найбільше підходять для використання в аналізі. Необхідно визначити який фактор найсильніше впливає, або які фактори виглядають незалежними, але насправді мають міцний взаємозв’язок та можуть непередбачуваним чином вплинути на результати моделі. Тому перед початком побудови моделей інтелектуального аналізу даних слід виявити такі проблеми і визначити, як їх усунути.
Третім кроком процесу інтелектуального аналізу даних є перегляд підготовлених даних.
Для прийняття правильних рішень при створенні моделей інтелектуального аналізу даних необхідно розуміти дані. Методи дослідження даних включають в себе розрахунок мінімальних і максимальних значень, обчислення стандартного відхилення і вивчення розподілу даних. Наприклад, по максимальному, мінімальному та середньому значенням можна зробити висновок, що вибірка даних не є репрезентативною, і тому необхідно отримати більш збалансовані дані або змінити припущення, що лежать в основі очікуваних результатів. Стандартне відхилення та інші характеристики розподілу можуть повідомити корисні відомості про стабільність і точності результатів. Велика величина стандартного відхилення може свідчити про те, що додавання нових даних допоможе вдосконалити модель. Дані, які сильно відхиляються від стандартного розподілу, можуть виявитися спотвореними або представляти точну картину реальної проблеми, яка робить складним підбір відповідної моделі для даних.
Четвертим кроком процесу інтелектуального аналізу даних є побудова моделей інтелектуального аналізу даних.
Знання, отримані при виконанні кроку «Перегляд даних», допоможуть визначити і створити моделі. Дані, необхідні для використання, визначаються шляхом створення структури інтелектуального аналізу даних. Перед обробкою модель інтелектуального аналізу даних є просто контейнером, який задає параметри, що використовуються для вхідних даних, прогнозований атрибут і параметри, що керують алгоритмом обробки даних. Обробка моделі також називається навчанням. Навчання позначає процес застосування певного математичного алгоритму до даних у структурі з метою виявити закономірності. Закономірності, виявлені в процесі навчання, залежать від вибору навчальних даних, обраного алгоритму і його конфігурації. Для налаштування кожного алгоритму використовуються параметри, і крім того, можна застосувати фільтри до навчальних даних, щоб використовувати лише їх підмножину, що призведе до отримання інших результатів. Після проходження даних через модель об’єкт моделі інтелектуального аналізу даних буде містити зведені дані і закономірності, які можна запитувати і використовувати для прогнозування.
П’ятим кроком процесу інтелектуального аналізу даних є дослідження побудованих моделей інтелектуального аналізу даних і перевірка їх ефективності.
Необхідно перевірити ефективність роботи моделі. Крім того, під час побудови моделі зазвичай створюється кілька моделей з різною конфігурацією, а потім перевіряються всі моделі, щоб визначити, яка з них забезпечує найкращі результати для поставленої задачі і наявних даних. Якщо жодна з моделей, створених при виконанні кроку «Побудова моделей», не має потрібної ефективності, може виникнути необхідність повернутися до попереднього кроку процесу і або змінити постановку задачі або виконати повторне вивчення даних у вихідному наборі даних.
Останнім кроком процесу інтелектуального аналізу даних є розгортання найбільш ефективних моделей у робочому середовищі.
Кожен крок не обов’язково веде безпосередньо до наступного кроку, тому творення ГІС для статистичного аналізу даних являє собою динамічний ітеративний процес.
Виконавши перегляд даних, користувач може виявити, що даних недостатньо для створення необхідних моделей інтелектуального аналізу даних, що веде до необхідності пошуку додаткових даних. Може виникнути необхідність у відновленні вже розгорнутих моделей за рахунок нових даних, що надійшли.
Суть дослідження полягає в порівнянні ефективності побудови ГІС, яка вирішує задачі кластеризації та регресії в вигляді ієрархії методів з традиційними підходами.
Методику дослідження ефективності можна розділити на три етапи:
1) розбити вхідні дані на ряд груп таким чином, щоб всередині групи об’єкти були максимально схожі між собою, а також щоб групи максимально між собою різнилися. Для визначення кількості кластерів на які треба розділити вхідні дані необхідно скористатися ієрархічним методом кластерного аналізу.
2) визначити, який об’єкт, до якого кластеру належить. Для цього треба скористатися ітеративною процедурою, методом К-середніх.
3) вирішити задачу регресії, яка стає простою і формальною процедурою. Необхідно, вказавши на кластер, обчислити підсумкове значення для предикторів.