Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пример диплома ПиИТ v0.1.doc
Скачиваний:
2
Добавлен:
20.08.2019
Размер:
1.39 Mб
Скачать

2.5. Предлагаемые алгоритмы для работы классификатора

Для корректного функционирования реализуемой платформы предлагаются собственные алгоритмы, которые описаны ниже. Выбор данных алгоритмов обусловлен тем, что набор действий в них достаточен для корректной работы реализуемой платформы и модуля по рубрицированию объявлений.

Алгоритм для обучения классификатора:

  1. Для каждой рубрики выбираются все объявления, входящие в эту рубрику.

  2. Текст каждого из объявлений разбивается на слова.

  3. Для улучшения качества рубрицирования и уменьшения размерности таблицы с данными о количестве вхождений слов в объявления отбрасываются все слова, длина которых меньше трех символов, а также слова, состоящие из одних цифр. Кроме того, все слова приводятся к своим первым формам.

  4. Рассчитывается количество вхождений каждого из слов в документы из обучающей выборки для каждой рубрики.

  5. Результаты записываются в базу данных.

Алгоритм, по которому будут проводиться эксперименты:

  1. Получение тестового множества объявлений.

  2. Каждое из объявлений разбивается на слова.

  3. Отбрасываются все слова, длина которых меньше трех символов, а также слова, состоящие из одних цифр. Кроме того, все слова приводятся к своим первым формам.

  4. Для каждого слова рассчитывается частота его вхождения в каждую рубрику.

  5. Расчет вероятностей отнесения объявления к каждой из рубрик (с учетом априорной вероятности и без ее учета) и выбор рубрики с максимальной вероятностью.

  6. После расчета вероятностей для всех объявлений вычисляются полнота, точность и F-мера классификатора.

  7. Вывод полученных данных.

Алгоритм для классификации отдельного объявления:

  1. Получение текста объявления из веб-формы.

  2. Разбиение объявления на слова. Отбрасываются те слова, длина которых меньше трех символов и слова, которые полностью состоят из цифр.

  3. Приведение оставшихся слов к первым формам.

  4. Для каждого слова рассчитывается количество его вхождений в каждую из рубрик.

  5. Подсчет частоты каждого слова для всех рубрик.

  6. Подсчет вероятности отношения введенного объявления к каждой из рубрик с учетом и без учета априорной вероятности.

  7. Выбор пяти рубрик с максимальными вероятностями.

2.6. Анализ архитектуры модуля

Разрабатываемый модуль будет являться частью системы контекстной рекламы «Камелот.Контекст». Поэтому без описания архитектуры всей системы трудно понять место модуля в ней.

Всю систему контекстной рекламы можно разделить на три части:

  • front-офис;

  • back-офис;

  • реализация модели данных.

Front-офис — это набор интерфейсов, с которыми будет работать Интернет-пользователь системы. Примеры интерфейсов, которые будут реализованы в данной части:

  • интерфейс создания и редактирования рекламной кампании;

  • интерфейс регистрации и редактирования заказов;

  • интерфейс создания и редактирования объявлений;

  • интерфейс генерации и отправки счетов;

  • интерфейс отображения объявлений.

Back-офис — это набор интерфейсов, с которыми будут работать сотрудники компании «Камелот». В основном на эти интерфейсы будут возложены функции модерации:

  • проверка рекламных объявлений;

  • проверка достоверности предоставленных данных;

  • законодательный контроль.

Под реализацией модели данных понимается создание структуры таблиц базы данных и написания компонентов, через которые будет проходить взаимодействие front-офиса и back-офиса с базой данных.

Реализуемый модуль будет интегрирован в интерфейс создания и редактирования объявлений. Точнее, на web-странице для добавления и редактирования объявлений будет ссылка «Показать ключевые слова», по нажатию на которую будет начинаться работа модуля по подбору ключевых слов и фраз, который будет включать в себя две логические части:

  • автоматическое определение рубрики, к которой относится объявление;

  • подбор ключевых слов и фраз, который основан на различной статистике, на определенной на предыдущем шаге рубрике объявления, а также на некоторых других входных данных.

Графически архитектура модулей представлена на рисунке 2.6.1.

Рис.2.6.1. Архитектура разрабатываемых модулей