Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Mon1.doc
Скачиваний:
25
Добавлен:
17.04.2019
Размер:
2.21 Mб
Скачать

2.3.6. Використання синаптичної нейронної мережі для підготовки вхідних даних

Відповідно опису СНМ, наведеного в [84-87] результатом представлення нею деякого фрагменту тексту є формування структури НМ та активація певних виходів мережі (ефекторів). При цьому структура СНМ, що отримала назву СЛД, формується в процесі навчання і значно відрізняється від структур широкорозповсюджених НМ. Основною перевагою СНМ є принципова можливість якісного врахування імітаційної моделі прикладної області, службових слів, порядку інформативних слів в реченні, омонімів та синонімів. Для цього в СНМ застосовуються граматичні словники прикладної області, а сама вона повинна входити в склад експертної системи. На відміну від інших типів НМ вхідними параметрами СНМ є тільки символи із яких складається текстовий фрагмент. Номенклатура цих символів чітко означена в межах природної мови на якій написано електронний лист. Очевидно, що номенклатура вхідних параметрів СНМ буде відповідати означеним символам. Значення вхідних параметрів будуть бінарними 0  відсутність символу, або 1  наявність символу. Суттєвим недоліком сучасних СНМ є не досконалість методики побудови та застосування імітаційної моделі прикладної області та формування не чітких правил порівняння змісту текстових фрагментів. Тому самостійне використання цього типу НМ для класифікації електронних листів на сьогодні проблематичне. Підтвердженням даного твердження є і відсутність інформації про застосування СНМ для класифікації або для кластеризації текстових фрагментів на природній мові. Однак СНМ доцільно застосувати в процесі підготовки вхідних даних НМ призначених для класифікації електронних листів. Передумовою цього є пристосованість СНМ до використання граматичних словників та лексико-синтаксичного розбору тексту. Метою підготовки вхідних навчальних даних є визначення канонічної форми інформативних слів, що входять до складу електронного листа та синонімів цих слів. Метою ж підготовки вхідних даних невідомого образу є тільки визначення канонічної форми інформативних слів. За рахунок цього можливо покращити якість та ефективність класифікації електронно кореспонденції. Відповідно опису та характеристикам СНМ, наведеному в п.1.8 можливо запропонувати наступний алгоритм застосування НМ при підготовці навчальних даних: 1  визначення номенклатури вхідних параметрів, 2  підготовка навчальної вибірки, 3  розробка імітаційної моделі прикладної області, 4  впровадження в СНМ імітаційної моделі, 5  навчання СНМ на прикладі із навчальної вибірки, 6  розрахунок для навчального прикладу частот інформативних слів та їх синонімів, 7  повторення етапів 5 та 6 для всіх навчальних прикладів.

Розглянемо особливості реалізацію даного алгоритму. Як і для інших типів НМ, призначених для класифікації спаму підготовка навчальної вибірки полягає в формуванні прикладів спаму та цільових листів. Застосування імітаційної моделі є специфічним етапом СНМ. В першому наближені в якості такої моделі можуть бути використані граматичні словники по тематиці спаму, цільових листів та інших тематик. Їх призначенням є врахування специфіки формування синтаксичних правил, омонімів та синонімів, що характерні для тієї чи іншої прикладної області (тематики тексту). Словники різних тематик можуть бути сформовані заздалегідь. Користувачеві системи зостається лише вказати які словники відповідають тематиці спаму, а які цільовим листам. Для нейтральних листів доцільно використовувати словники загальної тематики. Впровадження в СНМ імітаційної моделі прикладної області знань, в першу чергу означає навчання мережі на всіх прикладах граматичних словників словника природної мови. Відповідно [87] результатом навчання є формування бази даних експертної системи, реалізувати яку можливо у вигляді додаткового агрегуючого шару нейронів СНМ. Приклад фрагменту такого шару після навчання СНМ слову “захисту” показаний на рис. 2.10. Для слова захист підбирались синоніми із словників комп'ютерної тематики, а для слова хист  синоніми із словників загальної тематики. Навчання СНМ відбувалось шляхом формування СЛД згідно методики 1.8, запропонованої в [87]. На відміну від загального випадку побудови агрегуючого шару СНМ, приклад якого показаний на рис.1.21, на рис. 2.10 не враховуються службові слова. Реалізувати відбір службових слів можливо за рахунок не складної модифікації процесу граматичного розбору тексту, представленого в п. 1.8. Відзначимо, що сформована база даних відображає сітку зв'язків між словами синонімами, характерними для певних тематик тексту. Крім того, в базу даних необхідно внести інформацію, що до цільових листів та спаму. Для цього СНМ навчається на прикладах інформативних слів текстів цільових листів та спаму. Відзначимо, що перед подачею прикладу на вхід НМ користувач повинен вказати приблизну тематику листа  технічна, економічна, загальна, філософська, тощо. Крім формування СЛД, характерного представленому тексту, результатом навчання на одному прикладі буде збудження в додатковому агрегуючому шарі ефекторів, що відповідають канонічній формі інформативних слів та їх синонімів. За рахунок цього для навчального прикладу можливо розрахувати:

  1. Загальну кількість слів в листі (N), яка відповідає загальній кількості ефекторів-об'єктів в основному агрегуючому шарі СЛД.

  2. Кількість інформативних слів в канонічній формі (n), яка відповідає кількості збуджених ефекторів-об'єктів в додатковому агрегуючому шарі СЛД.

  3. Перелік синонімів для кожного із інформативних слів, який визначається ефекторами, пов'язаними з збудженими кон'юкторами-синонімами.

  4. Відповідно (2.12) частоту кожного із інформативних слів в канонічній формі () та відповідно (2.13) відносну кількість інформативних слів (Iw).

Рис. 2.10 Фрагмент додаткового агрегуючого шару нейронів

Розраховані величини можливо використовувати в якості вхідних параметрів при навчанні карти Кохонена, ПК та PNN. Приклад фрагменту вхідних даних, що враховують слова синоніми представлений в табл. 2.9. Даний фрагмент отримано шляхом модифікації даних табл. 1. На відміну від даних табл. 2, параметрам №2 відповідають слова “СТОИМОСТЬ” та “ЦЕНА”, а параметру №4  слова “КОМПЛЕКТ” та “ГРУППА”.

Таблиця 2.9

Величини вхідних параметрів карт Кохонена та ПК з врахуванням синонімів

Номер групи

листів

Номера параметрів

1

2

3

4

5

Відносна кількість інформативних слів

СТОИМОСТЬ

ЦЕНА

ГРН

КОМПЛЕКТ

ГРУППА

ГОД

1

0,12

0,04

0,04

0,04

0

5

0,2336

0,0263

0,0263

0

0,0263

6

0,4211

0

0

0

0,0238

Таким чином, один вхідний параметрів може відповідати декільком словам-синонімам. Використати це можливо завдяки застосуванню додаткового блоку пам'яті в якому буде зберігатись інформація про відношення між номером параметру та переліком слів-синонімів. Ще одним позитивним наслідком обробки листа є можливість використовувати в якості вхідних параметрів НМ слів в називному відмінку, а не обрізаних варіантів цих слів. Методика обробки листа, що підлягає класифікації відрізняється від обробки навчальних прикладів тільки відсутністю визначення слів-синонімів. Її результатом буде перелік та відносна кількість інформативних слів в називному відмінку, тобто вхідна інформація НМ. Для застосування НМ необхідно знайти номера параметрів, які відповідають визначеним словам.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]