Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Розширений електронний конспект з курсу ІАД, 20...doc
Скачиваний:
53
Добавлен:
13.09.2019
Размер:
1.52 Mб
Скачать

Mineset — візуальний інструмент аналітика

Компанія «silicon graphics» розробила систему дейтамайнінгу — mineset, яка відрізняється специфічними особливостями як на концептуальному, так і на технологічному рівнях. Акцент при цьому робиться на унікальну процедуру візуальної інтерпретації складних взаємозв’язків у багатовимірних даних.

Система mineset являє собою інструментарій для поглибленого інтелектуального аналізу даних на базі використання потужної візуальної парадигми. Характерною особливістю mineset є комплексний підхід, що адаптує застосування не однієї, а кількох взаємодоповнюючих стратегій добування, аналізу й інтерпретації даних. Це дає користувачеві можливість вибирати найвідповідніший інструмент або ряд інструментів залежно від розв’язуваної задачі і видів використовуваних програмно-апаратних засобів. Архітектура mineset має принципово відкритий характер — використовуючи стандартизований файловий формат, інші додатки можуть постачати дані для введення в mineset, а також використовувати результати її роботи. Відкрита архітектура системи — це і ос­нова для майбутнього її розширення, що передбачає можливість вбудовування нових компонентів на основі концепції інтеграції (plug-in). У свою чергу, інтерфейс прикладного програмування (api) дає змогу інкорпорувати елементи mineset в автономні додатки.

Knowledgestudio

Knowledgestudio є новою версією дейтамайнінгу корпорації з програмного забезпечення «angoss» (http://www.angoss. Com/). Система впроваджує найрозвинутіші методи дм у корпоративне середовище з тим, щоб підприємства могли досягати максимальної вигоди від своїх інвестицій у дані. Вона забезпечує високу продуктивність користувачів щодо розв’язання ділових проблем без суттєвих зусиль на навчання, як це, наприклад, потрібно для освоєння статистичного програмного забезпечення. Крім того, це також потужний інструментальний засіб для аналітиків.

Knowledgestudio сумісна з основними статистичними пакетами програм. Наприклад, ця система не тільки читає і записує файли даних, але також і генерує коди статистичного пакета sas. Із такими властивостями стосовно статистики моделювальники можуть швидко й легко адаптувати успадковані статистичні аналізи.

У knowledgestudio реалізована велика кількість методів дейтамайнінгу. Пропонується п’ять алгоритмів дерев рішень, три алгоритми нейромереж і алгоритм кластеризації «неконтрольованого навчання» (unsupervised). Має місце повне інтегрування з додатками і бізнесовими процесами. Можна створювати нові додатки або вставляти дейтамайнінг у наявні додатки. Програмований комплекс knowledgestudiosoftware (sdk) надає можливість розроблення додатків, наприклад створення моделей для прогнозування, з можливим використанням visual basic, power­builder, delphi, c++, або java. Формування, випробування і оцінювання нових моделей може бути також автоматизованим. Know­ledgestudio забезпечує різні шляхи, щоб візуально виразити і дослідити у великих базах даних зразки прихованих закономірностей.

2. Характеристика процесів і активностей інтелектуального аналізу даних.

Традиційно мали місце два типи статистичних аналізів: підтверджуючий (confirmatory analysis) і дослідницький аналіз (exploratory analysis). У підтверджуючому аналізі будь-хто має конкретну гіпотезу і в результаті аналізу або підтверджує, або спростовує її. Однак недоліком підтверджуючого аналізу є недостатня кількість гіпотез у аналітика. За дослідницького аналізу виявляють, підтверджуються чи спростовуються підхожі гіпотези. Тут система, а не користувач, бере ініціативу за аналізу даних.

Здебільшого термін «дейтамайнінг» використовується для описання автоматизованого процесу аналізу даних, в якому система сама бере ініціативу щодо генерування взірців, тобто дейтамайнінг належить до інструментальних засобів дослідницького аналізу.

Типи процесів дейтамайнінгу

З погляду орієнтації на процес є три типи процесів дейтамайнінгу (рис. 9.7): відкриття (добування) (discovery,); моделювання передбачень (predictive modeling,); аналіз аномалій (forensic analysis).

Відкриття є процесом перегляду бази даних для знаходження невидимих взірців (pattern) без наперед визначеної ідеї або гіпотези взагалі про те, що вони можуть бути. Інакше кажучи, програма бере ініціативу без попередніх міркувань стосовно того, що взірці (шаблони), які цікавлять користувачів, мають насправді місце і можуть подаватися у формі доречних запитів. У великих базах даних є так багато інформаційних аспектів, про які користувач практично може ніколи й не думати і не робити правильних запитів стосовно відповідних їм взірців. Ключовим питанням тут може бути кількість взірців, які можуть бути виражені й відкриті та якість інформації, що добувається. Саме цим і визначається потужність засобів відкриття (discovery) інформації.

У разі моделювання передбачень добуваються взірці з бази даних для їх використання, щоб передбачити майбутнє. Моделювання передбачень дає змогу користувачеві створювати записи з деякими невідомими дослідницькими значеннями, і система визначає ці невідомі значення, які ґрунтуються на попередніх шаблонах, що відкриваються з бази даних. У той час як відкриття знаходить взірці в даних, за прогнозуючого моделювання взірці застосовуються для того, щоб підібрати значення для нових елементів даних, і в цьому полягає істотна відмінність між цими видами процесів дейтамайнінгу.

Аналіз аномалій (forensic analysis) є процесом застосування вибраних взірців (шаблонів) для виявлення аномалій або незвичайних елементів даних. Щоб виокремити незвичайні елементи, спершу потрібно знайти те, що є нормою, а вже потім виявляти за допомогою заданих порогових величин ті елементи, які відхиляються від звичайних. Зокрема, сюди відноситься виявлення девітації, тобто відхилення від правильного курсу.

Кожний із цих процесів може бути далі охарактеризований виділенням відповідних прийомів. Наприклад, є кілька методів відкриття взірців: правило «якщо…, то», асоціації, афінність (суміжність) тощо. У той час, коли правило «якщо…, то» для людини звичне, то асоціативні правила є новими. Вони стосуються групування елементів даних (наприклад, коли хтось купує один продукт, то за звичкою чи збігом обставин він може купити інший продукт у той самий час; такий процес, зазвичай, пов’язаний з аналізом ринкового кошика покупця). Потужність системи відкриття вимірюється кількістю типів і загальністю взірців, які можна знайти і виразити придатною для використання мовою.