Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Mon1.doc
Скачиваний:
25
Добавлен:
17.04.2019
Размер:
2.21 Mб
Скачать

2.3.2. Недоліки сучасних методів розпізнавання спаму

Метод "чорного", "білого" і "сірого" списків. Базою методу є аналіз зворотної IP-адреси та/або адреси електронної пошти відправника листа. Всі листи, відправлені з адрес, занесених в "чорний список", знищуються ще на поштовому сервері, так і не досягаючи кінцевого користувача. Адреса заноситися до "чорного списку" на підставі відгуку користувача, що лист який прийшов з неї є спамом. З адресатами з "білого списку" дозволений обмін поштовими повідомленнями. У разі, коли IP-адреса листа не присутня ні в "чорному" ні в "білому" списку, то відправнику автоматично висилається запит на авторизацію, а адреса заноситися в тимчасовий "сірий" список. Вважається, спамер не буде надсилати підтвердження про відправку свого листа, оскільки розсилки здійснюються автоматично, одночасно по багатьох мільйонах адрес, а адреса спамера - в більшості випадків – підроблена. Тому, якщо на протязі визначеного терміну підтвердження про відправку листа від невідомого відправника не надходить, то його адреса заноситься в чорний список, а повідомлення знищується. Основний недолік даного методу полягає в тому, що IP-адреса не обов'язково вказує на джерело спама. Наприклад, спам може прийти з динамічної IP-адреси, або розсилка здійснена без відома власника IP-адреси. Використання сірого списку доцільне тільки при невеликому обсязі листування з обмеженим колом осіб. В протилежному випадку ведення сірого списку потребує великих затрат на періодичну переконфігурацію. Крім того сучасні спамерські засоби можуть підтверджувати відправку спам-листа.

Метод фіксації масових розсилок електронних листів. Листи вважаються спамом, якщо обсяг відправки електронної пошти з однієї адреси (з однієї підмережі) за короткий термін часу перевищує граничну величину, наприклад 100000 листів за годину. Недоліками методу є необхідність контролю за всім простором поштових відправлень Інтернет, що потребує значних затрат. Крім того, метод неефективний при невеликих спам-розсилках.

Метод розпізнання спаму по ключовим словам (словосполученням), які визначаються користувачем у вигляді набору правил. Метод не знайшов широкого розповсюдження через складнощі при формуванні вказаних правил.

Метод байєсовської фільтрації. Кожному слову або тегу HTML, що зустрічається в електронній переписці присвоюється два значення: ймовірність присутності в спамі (z) та ймовірність присутності в звичайних листах (1-z). Величину z називають спам оцінкою слова. Для кожного нового листа за допомогою формули Байєса розраховується загальна спам-оцінка листа (Z):

,

(2.7)

де N  кількість слів в листі.

При цьому ймовірності z визначаються за допомогою спеціальних словників, або/та в процесі статистичного аналізу листів конкретного користувача. Якщо величина Z менша від деякого граничного значення (), то лист класифікується як спам:

(2.8)

Відзначимо, що в деяких антиспамових засобах застосовуються більш складні вирази розрахунку спам-оцінки. Ефективність даного методу багато в чому залежить від правильності розрахунку спам-оцінок слів. Для цього здійснюється статистичний аналіз як спаму, так і звичайних листів, що отримує окремий користувач. Необхідність індивідуального аналізу пояснюється:

  • Користувачі можуть мати різні інтереси. Для одних користувачів лист є спамом, для інших він представляє інтерес.

  • Різні користувачі використовують при листуванні різну лексику.

Таким чином, метод байесовской фільтрації передбачає деяке запізнення, пов'язане з накопиченням кожним користувачем достатнього об'єму статистичного матеріалу (архіву листів). Однак в якості основного недоліку байєсовської фільтрації вказують на недостатню адекватність виразу (2.8) процесу розпізнавання спаму [30, 39, 65, 82]. Одним із наслідків цього є висока ймовірність пропуску спаму, якщо в листі мало слів з високою спам-оцінкою. Вказана обставина використовується спамерами для обходу та компрометації захисту. Так для обходу захисту рекламні листи модифікуються за рахунок використання слів синонімів та словосполучень ідентичних за змістом, але різних за набором слів. Скомпрометувати захист може безглуздий лист, що складається з набору нейтральних слів. У більшості сучасних антиспамових системах реалізовані комплексні методи захисту, які по рекламним заявам їх розробників можуть фільтрувати до 98% спаму. Однак навіть у найбільших поштових служб Інтернету термін реакції на новий вид спам-листів складає 20-30 хвилин. Відзначимо, що ці поштові служби захищені найсучаснішими засобами захисту. При цьому, розсилки багатьох мільйонів спам-листів здійснюються на протязі 1-2 годин. Тому з великою вірогідністю поштові служби багатьох користувачів проведуть не вірну класифікацію спама. Таким чином, практично всі існуючі системи розпізнавання спаму не можуть адекватно реагувати на сучасні методи формування і розповсюдження спам-листів. В той же час навіть некваліфікований користувач легко проведе розпізнавання на основі співставлення своїх інтересів зі змістом листа. З цієї причини доцільно розпізнавати спам по аналогії з тим, як це робить людина, тобто на підставі аналізу змісту листа [56, 65].

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]