Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пример диплома ПиИТ v0.1.doc
Скачиваний:
2
Добавлен:
20.08.2019
Размер:
1.39 Mб
Скачать

1. Постановка задачи

Постановка задачи – краеугольный камень любой работы. От того, что здесь написано, зависит весь последующий текст ее решения. Цель работы и ее задачи нужно формулировать максимально четко!

Цель работы: разработка модуля для автоматического рубрицирования текстовых газетных объявлений.

К разрабатываемому модулю выдвинуты следующие требования:

  1. Способность автоматического определения рубрики у введенного объявления.

  2. Обеспечение минимального процента правильно отрубрицированных объявлений не менее 80%.

  3. Возможность интегрирования модуля автоматического рубрицирования в различные проекты компании.

Для достижения поставленной цели необходимо решить следующие задачи:

  1. Провести анализ существующих методов классификации текстов;

  2. Для проведения экспериментов реализовать тестовую платформу, которая позволит:

  • автоматически определять рубрику у введенного объявления;

  • проводить обучение классификатора;

  • проводить оценку качества рубрицирования путем проведения экспериментов.

3. Выбрать итоговый метод классификации объявлений путем проведения экспериментов.

4. По итогам экспериментов реализовать модуль для автоматической классификации объявлений на основе тестовой платформы.

Конечными пользователями модуля будут посетители сайта компании. Кроме того, данный модуль может быть использован и в других проектах компании «Камелот».

Требования к составу и параметрам технических средств обусловлены тем, что приложение и база данных находятся на собственных серверах компании. Поэтому состав технических средств определен следующим образом:

  • сервер приложения Tomcat;

  • сервер базы данных Oracle (версия 10g и выше), доступный из приложения;

  • среда разработки – Java (версия 1.6).

2. Анализ задачи

Сначала описываем более абстрактные вещи: откуда взялась задача, что мы по ее поводу думаем, как наша работа поможет ее решить и т.п. Потом переходим к конкретике – как будем решать (последовательность работ, методы, общая архитектура системы…).

На данный момент прием объявлений осуществляется следующим образом: оператор call-центра по телефону принимает объявления от клиентов. Далее, в зависимости от типа рекламы (например, рекламный макет или обычное газетное объявление), текст преобразуется к определенному виду. В результате в базе данных хранятся тексты объявлений двух типов:

  • шаблонные тексты – тексты, которые составлены по определенным правилам (пример: «1-комн.кв-ра»);

  • неструктурированные тексты – тексты, которые не содержат каких-либо сокращений (пример: «Однокомнатная квартира»).

Анализируя поставленную задачу, можно сделать вывод о том, что необходимо автоматизировать определение рубрики у введенного объявления. Разработка модуля по автоматической классификации объявлений облегчит работу операторов. Кроме того, его можно будет использовать в различных проектах компании. Например, если клиент будет подавать объявление через SMS, без указания рубрики, то модуль сможет определить тему введенного текста. Также планируется использование разрабатываемого модуля на сайте компании и в системе контекстной рекламы.