Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Бакалавр_Рамки_07.doc
Скачиваний:
10
Добавлен:
27.03.2015
Размер:
1.22 Mб
Скачать

1.1.1.3 Генерация текстов из семантического представления

Кардинально отличается от БД другой источник содержания текста – семантические представления. Этот вид исходных данных создается человеком в режиме интерфейса с компьютером.

Моделирование структуры текста обычно выполняется для рассматриваемых систем в специальной системе планирования содержания, имеющей вид, в частности, графического редактора. Графический редактор последовательно предоставляет пользователю возможность выбирать понятия из определенных в данной семантической среде, следуя заданной в нем стратегии организации текста. Таким образом, графический редактор контролирует правильность получающегося представления, предлагая пользователю для продолжения структуры текста  допустимые по структурным и семантическим свойствам понятия моделируемой предметной области. Примерами таких систем являются AGILE (Automatic Generation of Instructions on Languages of the Eastern Europe) – система генерации софтверных руководств к графическим редакторам, и MDA (Multilingual Document Authoring) – система, генерирующая различные документы.

Особенность систем данного типа состоит в получении в результате планирования содержания целого связного представления текста, структуру которого образуют дискурсные и предметные отношения между высказываниями. Переход от единой структуры текста к последовательности предложений, а также реализация некоторых синтаксических конструкций предполагает сокращение фрагментов исходного представления, делая его более лаконичным и естественным. Эти процессы получили название агрегация. При агрегации сокращаются дублирующиеся структуры и понятия. 

      1. Морфологический разбор слов

Под морфологическим анализом (МА) понимается обработка словоформ вне связи с контекстом. Словоформой называется отрезок текста между двумя соседними пробелами (знаки препинания считаются отдельными словоформами). Функцией морфологического анализа является идентификация словоформы и приписывание словоформе характеризующего ее комплекса морфологической информации (МИ). Комплекс МИ состоит в общем случае из совокупности пар: основа — МИ. Алгоритм морфологического анализа в решающей степени зависит от принятого в системе способа хранения информации. Существуют два основных метода реализации морфологического анализа декларативный и процедурный.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

8

Изм.

Лист

докум.

Подп.

Дата

В декларативном методе реализации в словаре системы хранятся все возможные словоформы каждого слова с приписанной им морфологической информацией. По сути дела, в декларативном анализе нет собственно морфологического анализа, а хранится его результат. Задача декларативного морфологического анализа состоит только в поиске словоформы в словаре и переписывании из словаря комплекса морфологической информации, соответствующего данной словоформе. Это приводит к тому, что декларативный МА работает быстрее, чем процедурный МА. К недостаткам декларативного МА относится необходимость хранения всех словоформ каждой основы. Количество различных словоформ у одной основы довольно велико: у существительного 12, у прилагательного 36, а у глагола с учетом отглагольных форм до сотни. Следствием значительного количества словоформ является:

1) Необходимость определения человеком всех словоформ слова и соответствующих им МИ-строк перед записью их в словарь. Это увеличивает, по сравнению с процедурным МА, трудоемкость подготовки словарной информации.

2) Дополнительные затраты памяти ЭВМ.

Возможны варианты построения МА, занимающие промежуточное положение между декларативным МА и процедурным МА.

При процедурном МА в словаре системы хранятся основы слов. Процедурный МА выполняет следующие функции: выделяет в словоформе основу, идентифицирует ее (найдя в словаре основ и заменив на код, используемый этапами синтаксиса и семантики) и приписывает данной словоформе соответствующий ей комплекс МИ. Рассмотрим только один из возможных методов выполнения МА словоформ русского языка, так называемый «обратный» метод. При работе алгоритм процедурного МА использует информацию из морфологической зоны словаря и из таблиц аффиксов. Удобно разделить словарь на две части: словарь основ (СО) и словарь готовых словоформ (СГФ). Общая схема МА состоит из следующих блоков: 1) поиск словоформы в словаре СГФ; 2) выделение основы; 3) поиск основы в словаре основ; 4) обработка словосочетаний; 5) предсинтаксис.

В русском языке существует относительно небольшое количество неизменяемых слов и слов с нерегулярными формами изменения. Для этих слов МА не требуется вообще или не укладывается в стандартные правила. Примерами таких слов являются предлоги, наречия, неизменяемые существительные (например, пальто), знаки препинания, цифры, некоторые формы глаголов (идти — шел) и т. п. Указанные слова хранятся в так называемом словаре готовых форм.

В данной работе морфологический анализ может быть использован для приведения слов к стандартному виду, по которому будет осуществляться поиск его синонимов.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

9

Изм.

Лист

докум.

Подп.

Дата

1.2 Разработка технического задания

1.2.1 Цель и назначение разработки

Целью разработки является создание программы для генерации текстов на ограниченном естественном языке.

Программа предназначена для анализа корпусов текстов предметной области с последующим разбиением их на слова и созданием выходного переработанного текста с заданными свойствами.

1.2.2 Область применения

Область применения генераторов текста широка: от создания инструкций и описаний товаров до генерации содержимого целых сайтов и рерайта статей. Материалы, созданные при помощи генератора текстов используются в целях поисковой оптимизации, предварительно пройдя тщательную проверку на уникальность. При рерайте уникальных текстов (переписывании, тиражировании) использование качественного генератора коммерчески более выгодно, чем услуги живого специалиста, который будет работать в разы медленнее и возьмет за работу дороже. Генераторы текста успешно используются для выявления низкого качества, а иногда и полного отсутствия рецензирования в научных журналах.

Кроме того, создание программ генерации текстов представляет научно-технический интерес как ступень на пути к созданию искусственного интеллекта, виртуальных собеседников и преодолении языкового барьера между машиной и рядовым пользователем.

1.2.3 Функциональные требования

  1. система должна уметь запросить имя текстового файла, содержащего исходный текст, а затем открыть и прочитать этот файл;

  2. система должна учитывать особенности языка, на котором написаны тексты;

  3. система должна уметь создавать словарь, структура которого отражает смысловые и частотные зависимости между словами;

  4. результатом работы программы должен стать сгенерированный текст, отвечающий определенным правилам с возможностью его сохранения и последующего использования.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

10

Изм.

Лист

докум.

Подп.

Дата

1.2.4 Количественные требования

  1. количество рабочих мест – 1;

  2. максимальное время обработки файла размером 100 Кбайт на ЭВМ с минимальными аппаратными требованиями не должно превышать 5 мин.

1.2.5 Требования совместимости

  1. программа должна функционировать независимо от наличия в системе средств разработки, с помощью которых она была создана;

  2. программа должна быть реализована в виде исполняемого файла;

  3. программа должна работать под управлением операционной системы Microsoft Windows XP.

1.2.6 Аппаратные требования

  1. ПК с процессором Pentium IV, 1 ГГц или более поздняя версия;

  2. 1 Гбайт оперативной памяти;

  3. от 10 Мбайт пространства на жестком диске;

  4. видео адаптер VGA с разрешением экрана минимум 800x600 точек, рекомендовано 1024x768;

  5. операционная система Microsoft Windows XP с пакетом обновления 2 (SP2) или более поздняя версия;

  6. платформа Microsoft .NET Framework 2.0 или более поздняя версия;

  7. сервер MySQL 5.1.53 или более поздняя версия.

1.2.7 Требования к интерфейсу

Программа должна обладать интуитивно понятным Windows-совместимым графическим интерфейсом. Для обеспечения комфортного ввода необходимо предусмотреть навигацию по древу каталогов системы. Интерфейс должен содержать элементы управления, обеспечивающие удобный доступ ко всей функциональности приложения.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

11

Изм.

Лист

докум.

Подп.

Дата

1.3. Анализ технического задания

1.3.1 Анализ требований технического задания

Программа должна предоставлять пользователю возможность в режиме диалога получить уникальный текст. Анализируемые тексты должны обрабатываться в автоматическом режиме и должны не содержать орфографических и пунктуационных ошибок.

Приступая к созданию приложения, необходимо выбрать инструмент разработки - программные средства, с помощью которых будет создаваться программа. Выбор должен учитывать особенности платформы, на которой впоследствии будет эксплуатироваться приложение.

1.3.2 Метод порождения текста на основе цепей Маркова

Распространенным видом генераторов текста являются генераторы текста на основе цепей Маркова. С их помощью можно породить большое количество в целом бессмысленных, но локально связных текстов. Учитывая то, что в качестве исходных текстов часто берутся релевантные определенной тематике документы, то и результаты генерации текстов также отражают статистические тематические характеристики. В настоящее время не существует полной теории, описывающей законы порождения связных осмысленных текстов. Как следствие отсутствуют в общем случае методы порождения текстов, не отличимых от созданных человеком. Тем не менее, известны многие закономерности, характерные естественным текстам – единство стиля, следование законом жанра, локальная связность, глобальная тематическая связность и другие. Цепи Маркова позволяют моделировать локальную связность текста и общие тематические характеристики.

Цепью Маркова с дискретным временем называется последовательность случайных величин, для которой условное распределение каждой величины зависит только от значения предыдущих величин.

Цепь Маркова описывается множеством значений случайных величин, которое называется пространством состояний; а также матрицей переходных вероятностей между состояниями. Матрица переходных состояний определяет вероятность перехода в следующее состояние, с учетом текущего. В случае если матрица переходных вероятностей не зависит от шага, она называется однородной, именно однородные матрицы чаще всего применяются для порождения текстов.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

12

Изм.

Лист

докум.

Подп.

Дата

Когда цепи Маркова применяются для порождения искусственных текстов, пространством состояний становится множество всех слов и знаков препинания. Переходная матрица обычно формируется по некоторому множеству текстов-образцов. По образцу оценивается вероятность порождения нового слова после последовательности уже порожденных слов. Последовательность событий, произведенная такой цепью Маркова, представляет собой набор слов и знаков препинания, внешне напоминающий связный текст.

Важной характеристикой таких генераторов является порядок цепи Маркова – то есть количество слов, учитывающихся при порождении следующего слова. С ростом порядка цепи растет длина локально связных фрагментов текста, в то же время с ростом длины цепи генератор начинает повторять все большие куски исходного текста.

Тексты, созданные с помощью цепей Маркова, обладают рядом свойств, благодаря которым этот метод порождения текстов стал очень популярен. Во-первых, порожденный текст содержит ту же лексику, что и исходный образец. При создании контекста сайтов это позволяет использовать в качестве образца существующие тексты, которые высоко ранжируются поисковыми системами, например, брать образцы текстов из сниппетов поисковых систем, и получать на выходе тексты, оптимизированные под конкретные запросы. Во-вторых, порожденный текст является с высокой вероятностью уникальным, что затрудняет обнаружение таких текстов методами обнаружения дубликатов.

Подводя итог анализу возможностей метода синтеза текста на основе цепи Маркова, принимаем его за основу будущего алгоритма.