- •Реферат
- •Содержание
- •Введение
- •Постановка задачи
- •1. Профилирование пользователей
- •2. Работа с веб-данными
- •2.1 Источники данных
- •2.2 Обработка данных
- •3. Содержимое на основе профиля пользователя
- •3.1 Управление данными
- •3.2 Профилирование пользователя для веб-просмотра
- •3.3 Классификация данных профиля пользователя
- •3.3.1 Индексация и предобработка
- •3.3.2 Извлечение термов
- •3.3.3 Взвешивание термов с использованием статистических мер
- •3.3.4 Перевод текста в векторное представление
- •3.4 Кластеризация данных профиля пользователя
- •4. Нейронные сети
- •4.1 Функции активации
- •4.2 Функция потерь
- •5 Сверточные нейронные сети
- •5.1 Архитектура сверточной нейронной сети
- •5.1.1 Полносвязный слой
- •5.1.2 Сверточный слой
- •5.1.3 Cубдискретизирующий слой
- •5.1.4 Dropout слой
- •5.2 Модели использования сверточной нейронной сети для классификации текстов
- •5.2.1 Посимвольный подход
- •5.2.2 Подход c использованием кодирования слов
- •6 Использование сверточной нейронной сети для профилирования
- •6.1 Алгоритм при векторной репрезентации слов и текстов
- •6.2 Алгоритм при семантической репрезентации слов и текстов
- •6.3 Результаты работы алгоритмов
- •Заключение
- •Библиографический список
- •Приложение
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
Заключение
В данной работе проводилось исследование задачи профилирования пользователей в сети интернет с использованием нейронных сетей.
Нейронные сети зарекомендовали себя как мощный алгоритм для классификации изображений. Поэтому в настоящее время стали активно использоваться и для других задач машинного обучения.
Использование сверточной нейронной сети для профилирования позволит пользователям сети Интернет тратить меньше времени на просмотр информации и ее обработку, а больше на ее практическое применение.
Представленные алгоритмы определения профиля пользователя, основанные на векторной и семантической репрезентации текста с использованием сверточной нейронной сети, являются абсолютно новыми методами классификации пользователей. Эффективность работы алгоритма с семантической репрезентацией гораздо выше, чем при использовании векторной. Оба этих метода работают гораздо эффективнее стандартного метода классификации BagofWords&TFIDFдля обычных нейронных сетей, т.к. используют в своей основе сверточные нейронные сети. Это достигнуто благодаря использованию преимуществ сверточных нейронных сетей по сравнению с полносвязными нейронными сетями. А также немаловажно то, что в алгоритме семантической репрезентации эффективность выше по сравнению с алгоритмом векторной репрезентации. Это связано с использованием кластеризации по алгоритмуk-meansи получению не деградирующего при выполнении логических операций вектора всего текста или документа.
Таким образом, анализируя просмотренные пользователем данные, предоставляется возможность спрогнозировать и предложить пользователю наиболее необходимую для него информацию благодаря правильному кодированию интересующих пользователя слов.
В результате исследования, при реализации данных подходов становится возможным:
повысить эффективность поиска и получения информации для каждого пользователя сети Интернет. Это стало возможным благодаря предварительной обработке разработанными в этом исследовании алгоритмами его предпочтений и предыдущих поисковых запросов;
повысить производительность средств распространения рекламных информационных материалов в сети Интернет и эффективность рекламного и информационного воздействия на пользователей с помощью точного определения желаний пользователя на основе его профиля;
могут быть использованы в качестве методов для борьбы со спамом, а точнее его распознавании при проверке получаемых писем с помощью определения тематики и стиля их написания. Ведь многие спам-письма используют одинаковые шаблоны;
улучшить фильтрацию документов как по автору, поднимаемой теме в тексте, так и по художественному стилю или стилистике написания предложений;
добавить персонализацию информации при автоматическом переводе текстов, выявление смысловых намеков в переводимом тексте и добавлении стилистических и языковых особенностей пользователя-переводчика, тем самым облегчая труд и адаптацию машинного перевода;
помочь в навигации по большим информационным ресурсам со сложной структурой, благодаря разделению сайта по темам (кластерам) со схожим смыслом;
улучшить индексацию поисковых запросов, используя подбор предложений по аналогичным запросом из смежных синонимичных тем;
повысить точность автоматического аннотирования и реферирования текстов, так как при использовании алгоритма тема текста будет определяться гораздо точнее и при этом будут указываться поднимаемые еще в данном документе темы, а также предлагаться смежные темы к уже указанным;
и др.
Таким образом, сфера возможного применения результатов научного исследования весьма широка, что показывает высокую ценность проделанной работы.