Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Бакалавр_Рамки_07.doc
Скачиваний:
10
Добавлен:
27.03.2015
Размер:
1.22 Mб
Скачать

2.2 Разработка алгоритма морфологического разбора

Слово является объектом изучения морфологии. В изучении состава слова центральное место занимает понятие о морфеме. Морфемой называется минимальная единица языка, обладающая значением. Сегментные морфемы (части слова) разделяются на два больших класса: корни и аффиксы. Аффиксы, в отличие от корней, не несут самостоятельных лексических значений, а выполняют словообразовательные, словоизменительные функции. Аффиксы по их месту по отношению к корню разделяют на префиксы (приставки), стоящие перед корнем, постфиксы, стоящие после корня, и интерфиксы, стоящие между корнями (бурелом, лесоруб). В русском языке постфиксы делят на суффиксы и окончания (флексии). Окончанием называют постфикс, стоящий на самом конце слова, обычно не допускающий после себя других постфиксов и выражающий определенные синтаксические связи с другими словами. Все постфиксы, не попадающие в число окончаний, называют суффиксами, независимо от того, занимают ли они конечную или не конечную позицию в слове.

В современном русском языке существуют следующие способы словообразования:

1) Суффиксация – образование нового слова посредством суффикса, который выполняет классифицирующую функцию: относит слово к определенной части речи, определенному типу склонения или спряжения. Пример: смелый – смело, красный – краснеть.

2) Префиксация – способ словообразования, при котором новое слово образуется путем присоединения приставки. Присоединение происходит к целому слову, поэтому префиксация действует только в рамках одной части речи: правда – неправда, всегда – навсегда.

3) Постфиксация –  способ словообразования, при котором новое слово образуется путем присоединения постфикса: брать – браться.

4) Суффиксально-префиксальный способ – это способ словообразования, при котором слово образуется путем одновременного присоединения к основе суффикса и приставки, единых по значению. Такая связанная группа суффикса и приставки называется конфиксом: подстаканник, подземный.

5)  Префиксально-постфиксальный способ – способ словообразования, при котором слово образуется посредством одновременного присоединения к основе префикса и постфикса: разбежаться, нагуляться.

6) Сложение основ – способ словообразования от двух и более основ: лесопарк, засухоустойчивый.

7) Сращение (или слияние) – способ образования новых слов на базе бывшего словосочетания (на базе бывшей синтаксической единицы: умалишенный, сумасшедший). Отмечают

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

15

Изм.

Лист

докум.

Подп.

Дата

фиксированный порядок компонентов, который и позволяет отграничить сращение от сложения основ.

8) Аббревиация – способ образования новых слов путем сложения сокращенных частей слова: прораб, техред, АТС.

9) В ходе конверсии новое слово образуется путем перехода из одной части речи в другую, при этом меняется его лексическое значение и грамматические свойства: учительская.

Большинство слов русского языка имеет множество словоформ. Так, например, существительные изменяются по шести падежам и двум числам (всего 6x2 = 12 форм) (см. Табл.1); прилагательные - по падежам, числам и родам (6х2х3 = 36 форм) (см. Табл.2); глаголы - по числам, лицам, временам, наклонениям, видам, залогам (около сотни форм) (см. Табл.3); причастия - по числам, падежам, родам, временам, залогам, видам. Многообразие форм слов делает в ряде случаев нецелесообразным хранить в словаре все эти формы. В словаре уместно хранить только одну форму слова - его основу, т. е. слово с отсеченными словообразующими и словоизменительными аффиксами.

Таблица 1 – Падежные окончания существительных

Единственное число

падеж

1 склонение

2 склонение

3 скл.

мужской род

средний род

ж.р.

И.п.

а

я

Ø

ь

й

о

е

ь

Р.п.

ы, и

и

а, у

я, ю

я, ю

а

я

и

Д.п.

е

е, и

у

ю

ю

у

ю

и

В.п.

у

ю

см. И.п. или Р.п.

о

е

ь

Т.п.

ой(ою)

ей(ею)

ом, ем

ем

ем

ом

ем

ью

П.п.

е

и

у

ем

е, ю

е

е, и

и

Множественное число

И.п.

ы, и

и

ы, и, ья

и, я

е, ю

е

е, и

и

Р.п.

Ø

ь, й

ов, ьев

ей

ев

Ø

ей, ий

ей

Д.п.

ам

ям

ам, ьям

ям, ьям

ям, ьям

ам

ям

ям

В.п.

см. И.п. или Р.п.

см. И.п. или Р.п.

ам

ям

см. И.п.

Т.п.

ами

ями

ьями

ями

ьями

ами

ями

ями

П.п

ах

ях

ах, ьях

ях, ьях

ях, ьях

ах

ях

ях

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

16

Изм.

Лист

докум.

Подп.

Дата

Исключения:

1) после г, к, х, ж, ч, ш, щ везде вместо ы в окончаниях и; Р.п. ед.ч., И.п., В.п. мн.ч. 1 склонения: мухи, ноги, руки, каши; И.п. и В.п. мн.ч. 2 склонение: петухи, шалаши, врачи, клещи.

2) в Д.п. и П.п., ед.ч. слов на –ия (1 склонение) и в П.п. ед.ч. слов на –ий, -ие (2 склонение) вместо –ие применяется окончание –ии: состоять в партии, о знании.

3) от слов на –ье допускается в П.п. ед.ч. –ье, -ьи: о пенье и о пении.

4) буква ь появляется в словах на –я после согласной: пуля, пуль; й в словах на –я после гласной или после буквы ь: свинья – свиней.

Имена прилагательные и причастия склоняются по одному из трех образцов, называемых «твердым» и «мягким» склонением, причем мягкое имеет две разновидности.

Таблица 2 – Падежные окончания прилагательных и причастий

Твердое склонение

ед.ч.

муж.р.

ср.р.

жен.р.

мн.ч.

И.п.

ый, ой

ое

ая

ые

Р.п.

ого

ой

ых

Д.п.

ому

ой

ым

В.п.

см. И.п. или Р.п.

ое

ую

см. И.п.

Т.п.

ым

ой (ою)

ыми

П.п.

ому

ой

ых

Мягкое склонение

1 разновидность

И.п.

ий

ее

яя

ые

Р.п.

его

ей

их

Д.п.

ему

ей

им

В.п.

см. И.п. или Р.п.

ее

юю

см. И.п.

Т.п.

им

ей (ею)

ими

П.п.

ему

ей

их

2 разновидность

И.п.

йй

ье

ья

ьи

Р.п.

ьего

ьей

ьих

Д.п.

ьему

ьей

ьим

В.п.

см. И.п. или Р.п.

ье

ью

см. И.п.

Т.п.

им

ьей (ьею)

ьими

П.п.

ему

ьей

ьих

Краткие прилагательные

И.п.

Ø

о

а

ы

Р.п.

а

ой

ых

Д.п.

у

ой

ым

В.п.

см. И.п. или Р.п.

о

у

см. И.п.

Т.п.

ым

ой (ою)

ыми

П.п.

ом

ой

ых

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

17

Изм.

Лист

докум.

Подп.

Дата

По твердому склонению склоняются слова оканчивающиеся на –ый или –ой, –ая, –ое; по первой разновидности мягкого – оканчивающиеся на –ий, –яя, –ее и во второй разновидности – оканчивающиеся на –ий, –ья, –ье.

Окончания глаголов изменяются в зависимости от наклонения, спряжения и лица. К 1 спряжению относятся глаголы, инфинитив которых оканчивается на -еть, -ать, -оть, -уть, -ять, -ыть, -ть, а также несколько глаголов на -ить: брить, стелить, почить, бить, вить, лить, пить, шить, жить, зыбить, -шибить (ушибить, ошибиться) (и образованные от них). При спряжении такие глаголы имеют окончания -ешь, -ет, -ем, -ете, -ут, -ют. Глаголы 2 спряжения при спряжении имеют окончания -ишь, -ит, -им, -ите, -ат, -ят. К ним относятся:

  • глаголы, имеющие в начальной форме окончания на -ить (кроме брить, стелить, почить, брезжить, зиждиться, вить, бить, лить, пить, шить, жить, ошибиться и образованных от них);

  • некоторые глаголы на -еть: блестеть, болеть (о части тела), вертеть, видеть, висеть, галдеть, глядеть, гореть, греметь, гудеть, дудеть, зависеть, звенеть, зреть (смотреть), зудеть, кипеть, кишеть, коптеть, корпеть, кряхтеть, лететь, ненавидеть, обидеть, пыхтеть, свиристеть, свистеть, сидеть, сипеть, скорбеть, скрипеть, смердеть, смотреть, сопеть, тарахтеть, терпеть, храпеть, хрустеть, шелестеть, шипеть, шуметь (и образованные от них);

  • некоторые глаголы на -ать: бренчать, брюзжать, бурчать, верещать, визжать, ворчать, гнать, дребезжать, дышать, держать, дрожать, жужжать, журчать, звучать, кричать, лежать, молчать, мчать, мычать, пищать, рычать, слышать, спать, стучать, торчать, трещать, урчать, фырчать, шуршать, шкварчать (и образованные от них);

  • некоторые глаголы на -ять: стоять, бояться;

  • остальные глаголы с безударными личными окончаниями относятся к I спряжению.

Таблица 3 – Спряжения глаголов изъявительного наклонения

1 спряжение

2 спряжение

ед.ч.

мн.ч

ед.ч.

мн.ч.

1 лицо

у, ю

ем

ю, у

им

2 лицо

ешь

ете

ишь

ите

3 лицо

ет

ут, ют

ит

ят, ат

Исключения:

1) Прошедшее время:

  • ед.ч., м.р.: -л или без окончания, ж.р.: -ла, ср.р.: - ло;

  • мн.ч., для всех трех родов –ли.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

18

Изм.

Лист

докум.

Подп.

Дата

2) Будущее время: те же окончания, что и в настоящем времени.

Повелительное наклонение:

  • 2 лицо ед.ч.: -й, -и, -ь

  • 2 лицо мн.ч.: -ите, -йте, -ьте

  • 1 лицо мн.ч.: тоже что и в 1 лице мн.ч. настоящего вр.; тоже с прибавление окончания –те.

Условное наклонение: составляется из форм прошедшего времени. В данной работе морфологический анализ используется для приведения слов к стандартному виду, по которому будет осуществляться поиск его синонимов. Это обеспечит уменьшение общего объема базы данных, так как нужно будет хранить только основу слова.

2.3 Разработка архитектуры

Приложение строится на основе пяти блоков (рис.1): блок входных данных, модуль генерации текса, модуль морфологического анализа, словарь синонимов и блок выходных данных.

В качестве входных данных программа должна принимать текстовый файл, на основе которого будет строиться выходной текст. На основе анализа входного текста должен быть составлен внутренний словарь, отражающий смысловые и вероятностные зависимости между словами.

Блоки «Словарь синонимов» и «Модуль морфологического анализа» тесно связаны и служат для получения синонима из словаря в правильной форме с последующей передачей его в модуль генерации.

«Модуль генерации текста» будет синтезировать текст на основе внутреннего словаря смысловых вероятностных зависимостей с применением словаря синонимов.

Последний блок будет выводить сгенерированный текст на экран с целью ознакомления, а так же, по желанию пользователя, сохранять его в текстовый файл.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

19

Изм.

Лист

докум.

Подп.

Дата

Словарь

синонимов

Входные

данные

Добавление нужных синонимов

Выходной текст

Модуль

морфологического разбора

Получение

словоформы

Модуль генерации текста

Выбор исходного текста

Генерация текста

Рисунок 1 ― Архитектура системы

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

20

Изм.

Лист

докум.

Подп.

Дата

2.4 Реализация программы

2.4.1 Основной поток

Входными данными для программы служит текстовый файл, содержащий текст предметной области на русском языке размером не менее 1 000 000 байт и не более 50 000 000 байт в произвольной кодировке.

На следующем шаге создаются служебные словари словосочетаний и триграмм, реализованные на основе универсального класса Dictionary<TKey,TValue>, обеспечивающим отображение множества ключей во множество значений. Каждый элемент, добавляемый словарь, состоит из значения и связанного с ним ключа. Извлечение значения по ключу происходит очень быстро, поскольку класс реализован в виде хэш-таблицы.

На следующем этапе происходит опрос интерфейса и выявление условий и свойств порождаемого текста:

  • алгоритм построения текста (на основе случайных или частотных зависимостей);

  • построение текста на основе триграмм;

  • применение синонимов при генерации текста;

  • количество слов в синтезируемом тексте (минимальное значение – 1).

Генерация текста происходит в соответствии с выбранными опциями на основе служебных словарей.

Выходными данными являются:

  • выводимая на экран текстовая информация (результаты анализа исходного текста);

  • сгенерированный текст с возможностью сохранения в текстовый файл в кодировке UTF8 без BOM (англ. Byte Order Mark, BOM – это метка порядка байтов Юникода, также часто называемая сигнатурой).

Схема выполнения основного потока приведена на рис. 2.

ВКР-НГТУ-230200.62-(07-КТ-2)-28-2010 ПЗ

Лист

21

Изм.

Лист

докум.

Подп.

Дата