Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Mon1.doc
Скачиваний:
25
Добавлен:
17.04.2019
Размер:
2.21 Mб
Скачать

2.3.3. Критерій фільтрації електронних листів

Сам факт існування достатньо дорогих масових розсилок електронних листів рекламного характеру свідчить про те, що для багатьох користувачів Інтернету спам представляє великий інтерес. Очевидно, що цей інтерес обумовлений змістом спам-листів. В той же час користувачі, які не цікавляться запропонованою тематикою, відносяться до спаму негативно. З цих причин основним критерієм фільтрації електронних листів може бути відповідність змісту електронного листа і інтересів користувачів:

,

(2.9)

де P електронний лист, T тематика електронного листа, {I}  множина (область) інтересів користувача, C  множина цільових листів, S  спам.

Виходячи з можливостей потенційних експлуатантів системи захисту, формування області інтересів користувачів необхідно реалізувати за допомогою одного або декількох фрагментів тексту на природній мові. В якості таких фрагментів можуть використовуватися спеціальним чином оброблені цільові листи, а також безпосередньо введений текст. Можливою проблемою реалізації залежності (2.9) є визначення експлуатантами системи захисту, всієї області інтересів користувачів електронної пошти. На практиці може виявитися, що навіть кінцевому користувачу чітко визначити межі цієї області достатньо важко. При цьому межі області інтересів можуть змінюватися в часі. Тому багато потенційно важливих листів можуть бути розцінені як спам. Для вирішення даної проблеми розділимо всі електронні листи на три групи: цільові листи, спам і нейтральні листи. В групу нейтральних потраплятимуть ті листи, тематика яких не належить ні множині інтересів користувачів, ні множині тематик спама. Враховуючи запропоновану класифікацію, модифікуємо критерій фільтрації (2.9):

,

(2.10)

де F – множина нейтральних листів, {Q} – множина тем спама.

Практичний досвід, а також результати [30, 39, 49, 56, 65, 82] показують, що спам це в основному текстові листи, які іноді мають графічні файли-вкладення. Основними тематичними напрямами спаму є:

  • Реклама споживчих товарів (Rt). Рекламується реальний товар, і вказуються джерела (посилання на сайт або номер телефону) більш докладної інформації. Цікавою особливістю цього напряму спама є домінування в певні інтервали часу реклами конкретного виду товару. Наприклад, в російськомовній зоні Інтернет в період 2004 року реклама лікарських препаратів склала близько 17% кількості спама.

  • Реклама товарів і послуг "для дорослих" (Rp), ПЗ і комп'ютерів (Rk), туристичних компаній (Ro), запрошення на семінари і тренінги (Rst), послуги з електронної реклами (Rer).

  • Платні дзвінки. Рекламується товар та/або послуга і вказується номер телефону, дзвінки на який є платними (Rz).

  • Підвищення рейтингу сайту. Лист містить інформацію з метою запрошення користувачів відвідати певний сайт (Rw).

  • Фінансовий спам. До цього виду спама відносяться листи з рекламою різних фінансових пірамід, інвестицію або покупки акцій (Rf).

  • Збір інформації. Одержувачу пропонують заповнити анкету і відіслати дані за вказаною адресою (Ri).

  • Політичні або PR-акції. Цей вид спаму характерний в періоди загострення політичної обстановки (Rpr).

  • Зараження програмами типу троянський кінь. При відкритті листа активізується троян, яка виконує деякі несанкціоновані дії, наприклад, збирає і посилає зловмиснику необхідну інформацію з комп'ютера (Wt).

  • Фішинг. Це розповсюдження підроблених повідомлень від імені банків або фінансових компаній. Метою такого повідомлення є несанкціонований збір ідентифікаційних даних (паролів, пін-кодів, логінів) користувачів. Звичайно такий спам змушує користувача ввести свої ідентифікаційні дані, наприклад пароль для доступу до банківського рахунку на помилковому сайті банку. Одержані ідентифікаційні дані спамер може використовувати як для доступу до рахунку, так і для оплати покупок в інтернет-магазинах (Wf).

  • Тестові розсилки. Частіше всього представляють собою порожні листи (Tp), листи з декількома словами (Ts) або з безглуздим набором символів (Tb). З одного боку, це звичне тестування нового спамерского ПЗ. Проте такі листи часто проходять антиспам-фільтри (не містять спамерского контента), викликаючи у користувачів недовіру до захисту. Ще одна негативна властивість пов'язана із створенням великих додаткових навантажень на канали зв'язку. Це може призвести до істотного зниження швидкості обміну електронною кореспонденцією на час проходження розсилки.

Модифікуємо (2.10), з врахуванням наведених сучасних тем спама:

,

(2.11)

де N – спам-листи за тематикою, що не відноситься ні до одної із перерахованих розповсюджених тем спаму.

Очевидно, що основою розрахунку (2.11) є визначення відповідності електронного листа інтересам користувача, або тематиці спаму. З позицій теорії штучного інтелекту визначення такої відповідності можливо віднести до класу задач спілкування людини з обчислювальною системою на природній мові [29, 34, 40, 56, 65]. Відзначимо, що не зважаючи на значні успіхи в цілому даний клас задач далеко не вирішений. Тому пошук рішення слід обмежити, врахувавши існуючі можливості методик розуміння тексту і потреби системи захисту від спама. Слід враховувати, що система розпізнавання не обов'язково повинна зрозуміти зміст тексту електронного листа, інтереси користувача і тематики спама. Задача полягає в тому, що б порівняти формальний опис основного змісту вказаних текстів і віднести електронний лист до одного з наперед відомих класів. Більшість апробованих методів побудови формального опису базуються на семантичних мережах при створенні яких враховується частота використання в тексті різних слів, лексико-граматичні закономірності виявлені в тексті та імітаційна модель предметної області тексту [7, 9, 18-23, 26, 48, 71, 88-90]. Одна із найбільш відомих процедур визначення змісту отримала назву реферування тексту [18-23, 89-90]. Її особливістю є відсутність імітаційної моделі предметної області. Результатом застосування цієї процедури є короткий реферат представленого тексту. В крайньому випадку обсяг реферату може складати всього декілька слів, що вказують на тематику тексту. На сьогодні створення рефератів достатньо якісно відпрацьовано як на теоретичному. так і на практичному рівнях. При цьому порівняння текстів на основі їх рефератів довело свою ефективність завдяки широкому застосуванню в системах пошуку інформації в мережі Internet. Тому і класифікацію електронних листів доцільно реалізувати на основі їх рефератів. Відзначимо, що методику байєсовської фільтрації спаму можливо представити як окремий випадок порівняння рефератів. Крім іншого, перевагами використання рефератів є:

  • Формальне представлення реферату набагато менше від представлення початкового тексту. Відповідно для зберігання та обробки реферату потрібно менше обчислювальних ресурсів.

  • Можливо автоматично розпізнавати та блокувати беззмістовні листи, які практично не розпізнаються більшістю сучасних систем захисту від спаму.

  • Співставлення відносно коротких рефератів в значній мірі зменшить труднощі, пов'язані з різноманітністю мовних форм слів.

Алгоритм класифікації електронних листів, що надійшли з невідомої адреси, показаний на рис. 2.5. В алгоритмі передбачене створення множини рефератів, що відповідають як цільовим листам так і спаму на основі деякої навчальної множини відповідних листів. Крім того, пропонується проводити визначення тематики листа на основі аналізу його текстової частини. Таким чином, листи з невідомої адреси без тексту, хай навіть із вкладеними файлами

Рис.2.5 Алгоритм класифікації електронних листів

будуть розглядатися як спам. Це твердження відповідає етиці використання електронної пошти [49, 82], хоча є дещо прямолінійним. Альтернативним шляхом реакції на подібні листи є їх тимчасове блокування з відправкою запиту на пояснення тематики листа. Кількість таких запитів можливо обмежити. Якщо за визначений час пояснення не надходить, то лист вважається спамом і знищується. В протилежному випадку аналізується зміст тексту листа. В алгоритмі не враховані технічні моменти, пов'язані з відкриттям електронного листа, визначенням кодування символів і т.і. Основним розрахунковим вузлом алгоритму є порівняння тематик листів на основі їх рефератів.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]