Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Бакалавр_Рамки_07.doc
Скачиваний:
10
Добавлен:
27.03.2015
Размер:
1.22 Mб
Скачать

1.3.3 Выбор средств реализации

Выбор системы и языка программирования осуществляется на основе технического задания. Разрабатываемое приложение должно иметь Windows-совместимый графический интерфейс пользователя – GUI.

На эту роль подходит множество современных языков программирования: Visual C++, Visual Basic, C# , Delphi.

В рамках данного проекта была выбрана интегрированная среда разработки Microsoft Visual Studio C#, которая в совокупности с платформой .NET Framework является мощным инструментом для создания приложений для операционных систем семейства Microsoft Windows. Выбранные средства разработки обеспечивают высокое качество кода на протяжении всего цикла разработки программы.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

13

Изм.

Лист

докум.

Подп.

Дата

2 Разработка программы

    1. Разработка алгоритма генерации текста

В основу алгоритма положен метод генерации текста на основе цепей Маркова уровня слов, то есть исследуются пары и тройки слов, стоящие рядом.

Применительно к тексту основная идея заключается в том, что каждое слово представляет собой состояние системы, между которыми система способна перемещаться. Выбор каждого следующего состояния осуществляется на основе текущего по вероятностному закону. Само распределение вероятностей получается в момент анализа входного текста: подсчитываются комбинации всех слов и оцениваются вероятности того, что за словом №1 следует слово №2, и так для всех слов обучающего текста - получаем таблицу вероятностей переходов между состояниями системы. В результате, обладая такой статистикой, можно сгенерировать новый произвольный текст на основе уже известных слов по простому алгоритму:

1) выбирается первое слово (им может быть просто любое слово из текста, а может быть слово из специально созданного списка возможных начальных слов - тех слов, с которых начинались предложения в исходном тексте - такой список задаёт вероятности начальных состояний модели);

2) просматривается таблица вероятностей переходов и случайным образом выбирается одно из допустимых следующих состояний (с учётом того, что вероятности перехода в разные состояния различны - какие-то слова встречались в обучающем тексте за текущим словом чаще, какие-то - реже);

3) шаг №2 повторяется пока алгоритм не пройдёт заданное количество шагов, или пока не встретится слово, для которого нет допустимых следующих состояний (например, слово, которое было в конце предложения).

На выходе алгоритма будет текст, не имеющий смысла (по крайней мере, смысл изначально туда не заложен), слова которого попарно сочетаются. По аналогичному принципу система расширена до использования триграмм (троек слов). Тогда текст ещё более напоминает составленный из шаблонов.

Преимущество данного метода в том, что недопустимые в языке сочетания слов, как правило, имеют крайне низкую вероятность в такой модели (в идеале нулевую) и, совершенно не думая о согласовании падежей соседних слов, можно получить вполне согласованный текст.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

14

Изм.

Лист

докум.

Подп.

Дата