- •Титульный лист
- •Оглавление
- •Введение
- •1. Постановка задачи
- •2. Анализ задачи
- •2.1. Анализ предметной области
- •2.2. Методы автоматической классификации текстов
- •2.3. Метрики оценки качества рубрицирования
- •2.4. Существующие решения
- •2.5. Предлагаемые алгоритмы для работы классификатора
- •2.6. Анализ архитектуры модуля
- •2.7. Средства реализации
- •3. Аппаратные и программные требования
- •Серверная часть
- •Клиентская часть
- •4. Реализация
- •4.1. Структура базы данных
- •4.2. Реализация классов
- •4.3. Пример использования
- •5. Оценка качества рубрицирования
- •Заключение
- •Список литературы
- •Приложение 1. Класс-action ShowRubricProbability
- •Приложение 6. Результаты автоматической классификации объявлений
Заключение
Заключение должно повторять все те цели и задачи, которые ставились в постановке. Если чего-то нет – значит, работа не сделана до конца.
В рамках данной работы был реализован модуль по автоматической рубрикации текстовых газетных объявлений. В ходе реализации были решены следующие задачи:
Проанализированы существующие методы классификации текстов.
Реализована тестовая платформа, которая позволяет:
автоматически определять рубрику у введенного объявления;
проводить обучение классификатора;
проводить оценку качества рубрицирования;
Выбран метод классификации путем проведения экспериментов;
На основе разработанной тестовой платформы реализован модуль для автоматической классификации объявлений.
Разработанный модуль обладает следующими показателями:
Процент правильно отрубрицированных объявлений колеблется от 83,93% до 93,81% в зависимости от типа текста объявления.
Возможность интеграции в различные проекты компании.
На текущей стадии внедрения разработанный модуль по автоматической классификации текстов объявлений размещен на сайте компании и пока доступен только из внутренней сети компании.
У модуля две основные перспективы использования:
внедрение в систему контекстной рекламы для подбора ключевых слов и фраз;
классификация объявлений, поступающих по SMS.
Список литературы
Список литературы обязателен для любой работы. В тексте работы хотя бы на часть источников должны быть ссылки. Говорить, что «а я ничего не использовал» неправильно – уж какие-нибудь статьи в интернетах вы наверняка читали. Но учтите, что ссылаться на википедию и прочие тексты без конкретного автора нельзя. Минимальное число источников для курсовой работы – 10. Для дипломной – 25. Обратите внимание на оформление.
Андреев А.М., Березкин Д.В., Морозов В.В., Симаков К.В. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа. - (http://www.inteltec.ru/publish/articles/textan/RCDL2003.shtml)
Агеев М.С. Методы автоматической рубрикации текстов, основанные на машинном обучении и знании экспертов: Дис. канд. физ-мат. наук/ Московский Государственного Университета. – Москва, 2005. - (http://www.cir.ru/docs/ips/publications/2005_diss_ageev.pdf)
Агеев М.С., Кураленок И., Некрестьянов И. Официальные метрики РОМИП 2009. - (http://romip.ru/romip2009/20_appendix_a_metrics.pdf)
Дунаев Е.В., Шелестов А.А. Автоматическая рубрикация web-страниц в Интернет-каталоге с иерархической структурой. - (http://elar.usu.ru/bitstream/1234.56789/1419/1/IMAT_2005_20.pdf)
Лифшиц Ю. Классификация текстов. - (http://download.yandex.ru/class/lifshits/lecture-note06.pdf)
Солодухин А.С. Классификация текстов на основе приближенных оценок вероятностей классов. - (http://www.vestnik.vsu.ru/pdf/analiz/2008/01/soloduhin.pdf)
Joachims T. A probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. // Proceedings of ICML-97, 14th International Conference on Machine Learning. – 1996.
Yang Y., Liu X. A re-examination of text categorization methods. // Proc. of Int. ACM Conference on Research and Development in Information Retrieval (SIGIR-99). – 1999. - (http://nyc.lti.cs.cmu.edu/yiming/Publications/sigir99.ps)
Dumais S., Platt J., Heckerman D. Inductive Learning Algorithms and Representation for Text Categorization. - (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.80.8909&rep=rep1&type=pdf)
Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. - (http://www.cs.cornell.edu/People/tj/publications/joachims_98a.pdf)
Агеев М.С., Добров Б.В., Лукашевич Н.В. Автоматическая рубрикация текстов: методы и проблемы.// Ученые записки Казанского Государственного Университета. Серия Физико-математические науки. – 2008 – Том 150, книга 4 – С.25-40. - (http://www.cir.ru/docs/ips/publications/2008_kgu_classif.pdf)
Шахиди А. Деревья решений – общие принципы работы. -(http://www.basegroup.ru/library/analysis/tree/description)
Агеев М.С. Метод машинного обучения для автоматической классификации текстов. // Труды XXVI Конференции молодых ученых механико-математического факультета МГУ. Москва, Мехмат, МГУ, 2004. - (http://www.cir.ru/docs/ips/publications/2004_mmconf_ageev_tc.pdf)
Азанов Е. Text mining explained. - (http://krondix.blogspot.com/2006/10/blog-post.html)
Брюс Эккель. Философия Java. 4-е изд. – СПб.:Питер, 2009. – 640с.
Marty Hall, Larry Brown, Yaakov Chaikin. Core Servlets and JavaServer Pages™: Core Technologies. – Prentice-Hall, 2003. – 736с.
Hans Bergstan. JavaServer Pages. – O’REILLY, 2002. – 684с.
Bruce W. Perry. Java Servlet & JSP Cookbook. – O’REILLY, 2004. –746с.
Тимоти Фишер. Java. Карманный справочник. – Издательский дом «Вильямс», 2008. – 215с.
Stephan Wiesner. Learning Jakarta Struts 1.2: a concise and practical tutorial. – PACKT publishing, 2005. – 220с.
Ben Galbraith , Peter den Haan и др. Beginning Jsp 2.0: Build Web Applications Using Jsp, Java, and Struts. - Wrox Press, 2003. – 880с.
JavaServer Pages (JSP) v2.0 Syntax Reference – (http://java.sun.com/products/jsp/syntax/2.0/syntaxref20.html).
Hibernate Reference Documentation – (http://docs.jboss.org/hibernate/stable/core/reference/en/html/).
JSTL Reference Documentation – (http://java.sun.com/products/jsp/jstl/reference/api/index.html).
Яковлев, Алексей Александрович. Контекстная реклама. Основы, секреты.— СПб. : БХВ-Петербург, 2009 .— 287 с.