Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Молодежь и наука. Том 1, часть 1

.pdf
Скачиваний:
57
Добавлен:
10.06.2015
Размер:
14.77 Mб
Скачать

ПРИКЛАДНАЯ ЛИНГВИСТИКА

УДК 81’33

ОБЗОР ПРОГРАММНЫХ ПРОДУКТОВ, РАЗРАБОТАННЫХ ДЛЯ АТРИБУЦИИ ХУДОЖЕСТВЕННЫХ ТЕКСТОВ

Д.С. Мощенкова, Д.А. Кривицкая, Н.С. Амосова Научный руководитель Н.С. Амосова

Сибирский федеральный университет

Проблема установления авторства литературных произведений связана с огромным количеством псевдонимных и анонимных текстов и беспокоит многих филологов, юристов, историков и других специалистов уже сотни лет.

Актуальность работы состоит в том, что, не смотря на существование различных методов и способов атрибуции текста, установление авторства текста требует дополнительных исследований, поэтому необходимо выделить наиболее точные автоматические методы и системы атрибуции.

Атрибуция давно и широко исследуется различными филологами и литературоведами, в частности М.А.Марусенко, П.Н.Берковым, Л.В.Миловым, Е.С.Родионовой и многими другими.

Целью работы является обзор и сравнительный анализ программных систем, облегчающих работу экспертов в области атрибуции художественных текстов.

Данная работа является обзорной и кратко разъясняет суть и методы атрибуции, а также программные продукты, направленные на решение проблемы определения авторства художественных текстов.

Задачи работы:

1.Проведение краткого экскурса в историю атрибуции художественных

текстов.

2.Обзор последних программных продуктов, с помощью которых производится установление авторства в литературе.

3.Анализ программного обеспечения по критериям: средства анализа текстов, необходимый объем текста, точность.

Определение атрибуции текстов. Установление авторства текста является одной из древнейших филологических задач. Эксперты в этой области разрабатывали различные методы и способы на протяжении многих лет. Бесспорно, их работа является очень трудоемкой и для ее упрощения в последнее время были применены попытки автоматизировать процесс по определению авторства.

410

Долгое время для атрибуции текстов применялись в основном историкодокументальные и филологические методы исследования. Математические и статистические методы были применены лишь к концу XIX в.

Сам термин атрибуция (согласно Большой Советской Энциклопедии) происходит от лат. Attributio – приписывание и подразумевает собой установление авторства, подлинности, а также времени и места создания произведения.

Задачи и методы определения атрибуции текстов. Атрибуция художе-

ственного текста включает в себя следующие задачи.

1.Идентификационные:

подтверждение и исключение авторства определённого человека;

проверка текста на то, что написавший текст является его единственным и подлинным автором.

2.Диагностические (определение личностных характеристик автора):

уровень образованности;

познания в иностранных языках;

место рождения / проживания;

профессия, увлечения;

пол, возраст, национальность и т.п.;

навыки в определенных речевых стилях;

наличие сознательного искажения стиля и письменной речи;

атрибуция осуществляется в основном в трёх основных направлениях:

обнаружение документально-фактических доказательств;

раскрытие идейно-образного содержания текста;

анализ языка и стиля.

О последнем направлении расскажем подробнее. Анализ языка и стиля тек-

ста проводится в основном по следующим направлениям: пунктуация, орфография, синтаксис, лексика и фразеология, стилистика.

Анализ пунктуации подразумевает собой поиск характерных для автора ошибок, а также выявление особенностей и частоты употребления тех или иных пунктуационных знаков.

На орфографическом этапе проверки, соответственно, проверяется наличие свойственных автору ошибок в написании слов.

Анализ синтаксиса в тексте – это выявление особенностей построения предложений, наличие речевых оборотов, конструкций, частота употребления определенных слов.

Лексико-фразеологический этап также играет немаловажную роль: происходит установление частоты употребления автором фразеологизмов, неологизмов и прочих художественных средств выразительности, а также богатство словарного запаса.

Стилистический анализ помогает определить жанр произведения, сюжет и различные присущие автору речевые приемы.

Для атрибуции используются экспертные и формальные методы.

Экспертные методы производятся посредством обработки данных специально обученными профессионалами в сфере лингвистики.

411

Формальные же методы предназначены в основном для вычислительной техники. Появление возможности реализации методов, требующих огромных вычислений, значительно расширило границы в области атрибуции. Существующие программные продукты позволяют применять новейшие методы и способы, учитывают различные характеризующие текст параметры.

Далее рассмотрим доступные программные системы:

Система «Лингвоанализатор». Метод, применяемый в этой системе для определения авторства текста, основан на формальной математической модели.

Программа учитывает следующие характеристики языка автора:

число служебных слов;

используемые морфемы;

уровень сложности употребленных грамматических конструкций;

словарный запас.

Последние исследования, проведенные на механико-математическом фа-

культете МГУ им. М.В. Ломоносова показали, что совокупность вышеперечисленных характеристик очень хорошо выявляет авторский стиль.

Система «Атрибутор». Данная программа является он-лайн лингвистическим процессором для машинного сравнения текстов и их классификации по параметрам индивидуального авторского стиля. Произведения подбирались так, чтобы тексты разных писателей имели как можно больше различий, а тексты одного писателя имели максимальные сходства. На данный момент система обучена сравнивать только тексты романов. Для атрибуции достаточно примерно шесть печатных страниц.

Система «СМАЛТ». Система состоит из двух основных блоков: функционального (анализ, база данных) и аналитического (реализация методик статистического анализа текстов).

Проект еще не доработан до конца и предполагает разработку информационной системы, применяющую статистические методы анализа. В основе должна иметься база литературных произведений, состоящая из публицистики 60–70 гг. XIX в. Обработка текстов в данной системе производится поэтапно.

1.Выполнение автоматизированного разбиения исходного текста на: раздел, абзац, предложение, слово.

2.Осуществление автоматической обработки текста и его морфологический

разбор.

3.Синтаксический анализ.

4.Выполнение пользователем операций из базы данных по анализу текстов. Система «Авторовед». Программа, основанная на фоносемантическом ана-

лизе, составляет психологический портрет автора. Система содержит набор DLLбиблиотек, которые подключаются к текстовому процессору Word for Windows и в главном меню появляется новый пункт. Таким образом, данная программная система позволяет пользователю работать в привычной для него среде.

Ниже приведена таблице, сравнивающая основные характеристики вышеописанных программных средств.

412

Таблица. Некоторые системы автоматической атрибуции текстов

Название си-

Средства ана-

Необходимый

Точность

База

стемы

лиза текстов

объем текста

 

 

Лингвоанали-

Цепь Маркова,

400–100 000

84–89 %

132 автора

за-тор

энтропийный

символов

 

1357 произведе-

 

подход

 

 

ний

Атрибутор

Цепь Маркова

Более 20 000

48–56 %

103 автора

 

 

символов

 

~1287 произве-

 

 

 

 

дений

СМАЛТ

Кластерный

500 слов

Не указано

300произв. из

 

анализ, крите-

 

 

публицистики

 

рии Стьюдента

 

 

60–70гг. XIXв.

Авторовед

Метод опорных

20 000–25 000

95–98 %

Не указано

 

векторов, кла-

символов

 

 

 

стерный анализ

 

 

 

В работе были рассмотрены различные системы автоматического становления авторства художественного произведения и их характеристики, подчеркивается важность продолжения исследований, направленных на совершенствование имеющихся методов атрибуции художественных текстов, а также на создание новых и рационализацию уже созданных программных систем. Не менее важен поиск характеристик, позволяющий при малых объемах выборки четко разделить стили авторов.

УДК 004.9

К ПРОБЛЕМЕ РАЗРАБОТКИ ВАРИАНТОВ ОТВЕТОВ ДЛЯ СИСТЕМЫ ГЕНЕРАЦИИ ТЕСТОВЫХ ЗАДАНИЙ ПО ФОНЕТИКЕ ИНОСТРАННОГО ЯЗЫКА

А.И. Трушакова, Е.П. Бачурина, Д.В. Личаргин Научный руководитель Д.В. Личаргин

Сибирский федеральный университет

Проблема составления вариантов ответов к тестам является актуальной в связи с широким распространением проверки знаний учеников в электронной форме.

Проблема электронного обучения и создания автономных программ и курсов по иностранному языку давно и широко исследуется различными авторами, в частности, в работах В.В.Кручинина рассматривается вопрос о создании учебных компьютерных программ, современных методов контроля обучения, и предлагаются способы автоматической генерации тестовых заданий по иностранным языкам.

413

Задачи данной работы заключаются в:

1)разработке правил порождающих грамматик для генерации транскрипции иностранных языков;

2)разработке функций, реализующих генерацию верной и неверной транскрипций на основе порождающих грамматик;

3)разработке визуального интерфейса на основе данных функций, что позволяет пользователю сгенерировать транскрипцию любого слова на одном из иностранных языков, а также получить некорректную транскрипцию.

Предлагается модель программы генерации правильной и неправильной

транскрипции и создания на их основе заданий с верными и неверными вариантами ответов для учебных тестов. Данная модель программы позволяет выбирать язык генерации из предложенных, перевести введенное слово в корректную и некорректную транскрипцию, с помощью которых возможно составить тесты, что может значительно упростить процесс контроля успеваемости у студентов и школьников, изучающих иностранный язык, в частности, английский.

Рис. 1. Интерфейс программы для генерации вариантов транскрипции

На основе вариантов ответов, сгенерированных с помощью программы, можно составлять задания типа multiplechoice (выбор одного варианта ответа из многих), multipleselect (выбор нескольких правильных ответов из многих), rearrangement (задания на упорядочение), matching (задания на перекрестный выбор), multiplematching (задания на множественное соответствие) и др.

Программа-генератор вариантов транскрипций

Рассмотрим интерфейс программы, позволяющий генерировать корректные и некорректные транскрипции для тестов (рис. 1).

414

Предполагаемая модель программы должна содержать в себе поле для введения слова, нуждающееся в генерации, поле вывода правильной транскрипции и поле вывода нескольких вариантов неправильных транскрипций. Также программа должно содержать в себе форму выбора необходимого языка.

Ввод слова, необходимого текста для генерации

Выбор иностранного языка

Выбор режима генерации

Генерация коррект-

 

Генерация некор-

 

Генерация заданий

ной транскрипции

 

ректных тран-

 

с верными

 

 

скрипций

 

и неверными

 

 

 

 

вариантами

 

 

 

 

 

Вывод вариантов ответов на экран и печать

Рис. 2. Блок-схема алгоритма генерации транскрипции

Выше приводится общий алгоритм работы предлагаемой программы (рис. 2). При выводе правильной транскрипции, данные берутся из файла correct.txt.

Русская правильная транскрипция:

и 'i жи zhi же zhe жа zha жо zho жу zhu ши shi

В правилах порождающей грамматики слева стоит символ, который должен быть преобразован в символ стоящий справа.

415

Русская неправильная транскрипция:

и y

жи zhy же zhu жа zhe жо zha жу zho ши shy

Французская правильная транскрипция:

_je_ _жэ_ _ne_ _нэ_ _la_ _ля_ _le_ _лё_ lle_ й_ _de_ _дё_ _d' _д _les_ _ле_ ei^ э

i^ и e' э 'e э ss с

Французская неправильная транскрипция:

_je_ _жа_ _ne_ _нё_ _la_ _лё_ _le_ _ла_ lle_ ль_ _de_ _дэ_ _d' _ди _les_ _лес_ ei^ эи

i^ э(н) e' э(н) 'e а

ss з

При составлении неправильной транскрипции необходимо учитывать, что в одном варианте ответа требуется заменить не более двух звуков, иначе мы не получим корректного варианта ответа, так как можем получить транскрипцию другого слова.

Приведем примеры заданий, полученных в результате генерации при помощи данной программы.

416

Task 1. Find correct transcription of the German word “glaube”?

1.[`glaubәn];

2.[`glоbеn];

3.[`glʌbәn];

4.[`glεubәn].

Task 2. Find correct transcription of the French word “mange”?

1.[mã `Ʒе];

2.[man`gә];

3.[m`ãƷ];

4.[ma`Ʒә].

Task 3. Find correct transcription of the Spanish word “comida”?

1.[kоm’ida];

2.[kоm’iða];

3.[kоm’aida];

4.[kоm’ada].

Task 4. Find correct transcription of the Russian word «ещё»?

1.[eshe];

2.[ishe];

3.[yesh:’yo];

4.[yese].

По результатам вывода неправильной и правильной транскрипции их можно преобразовать в символы международной транскрипции, не столь удобной для набора и исправлений.

Рис. 3. Полученная транскрипция теста на немецком языке

417

В основе предложенной программы лежит программа «Генератор транскрипций». Преподаватель находит соответствующий текст на урок и помещает ее в программу. Программа получает на входе текст на иностранном языке и на выходе выдает обработанный текст с транскрипцией. В итоге студент получает учебный материал в виде таблицы, содержащей собственно текст и транскрипцию текста.

Например, результатом трансформаций является транскрипция теста на немецком языке. Пример представлен на рис. 3. При выборе французского языка программа настраивается на выбор генерации французской транскрипции. Так же для испанского, русского и английского языков.

Выводы

В работе выполнен анализ проблемы обеспечения качественной генерации транскрипций, как составляющих учебных заданий и тестов на основе составления неправильных вариантов ответов. Предложенная модель генерации позволяет автоматизировать процесс создания тестовых заданий. Делается вывод о необходимости учета количества изменяемых звуков в слове при генерации неверных вариантов ответов, чтобы предотвратить возможность генерации ошибки.

УДК 81'33

НАРУШЕНИЕ ГРАММАТИЧЕСКОЙ НОРМЫ В СОВРЕМЕННЫХ ТЕКСТАХ АНГЛОЯЗЫЧНЫХ ПЕСЕН

Д.В. Завальный, А.Т. Гордеева Научный руководитель А.Т. Гордеева

Сибирский федеральный университет

Речь является одним из важнейших показателей уровня развития человека: культуры, мышления, интеллекта. С самого раннего детства она проявляется в виде отдельных слов без достаточного грамматического оформления и развивается на протяжении всей нашей жизни, обогащается, усложняется.

В современном обществе особое место отводится соблюдению культуры речи в широком смысле этого слова. Культурная речь отличается смысловой точностью, богатством и разносторонностью словаря, грамматической правильностью, логической стройностью.

На состояние речевой культуры особо влияют средства массовой информации. Все мы каждый день вынуждены испытывать на себе воздействие речи, звучащей на телевидении / по радио, содержащейся в текстах газет и журналов. Стоит отметить, что именно СМИ для многих людей являются основным маяком представлений о языковой норме.

418

Особого внимания заслуживает и музыка, которая молниеносно реагирует на изменения в обществе, отражая все проблемы в своем звучании мелодий и текстов, изменяя правила языка, вводя новые слова и языковые обороты.

Практически все мы в той или иной степени владеем английским языком. Многие из нас любят слушать зарубежных исполнителей, что накладывает сильный отпечаток на наше восприятие иностранной речи. Хорошая песня помогает не только расслабиться и получить удовольствие, но и поддерживает интерес к изучению английского языка, а также помогает усвоить что-то новое для себя. Однако современные песни не самым лучшим образом влияют на восприятие нами языковых норм, так как в них часто встречается сленг, нарушение грамматических норм и даже ненормативная лексика. Это совсем не значит, что авторы песенных текстов не знают своего языка. Скорее всего, это желание приблизить слова песни к разговорной речи, где, конечно же, встречаются и неправильные обороты, и необычный порядок слов, и сокращения, и грамматические ошибки, т.е. то, что совершенно недопустимо в официальной письменной, да и просто в грамотной устной речи. Считается, что "неправильный язык" более характерен для разговорного американского английского и особенно часто встречается в афроамериканских диалектах. Многие люди не любят рэп именно из-за грубого неправильного языка. Но в последнее время наметилась опасная тенденция к безграмотному составлению текстов и в других, более популярных типах музыки.

Целью работы является выявление наиболее распространенных отклонений от нормы в текстах современных песен на английском языке.

В соответствие с целью выделим следующие задачи:

1.Изучить понятие «грамматическая норма».

2.Изучить примеры отклонения от нормы.

3.Проанализировать тексты современных песен на наличие примеров нарушения грамматических норм.

Рассмотрим понятие «грамматическая норма». Согласно толковому переводоведческому словарю Л.Л. Нелюбина грамматическая норма представляет собой

совокупности грамматических правил, практики, имеющая целью направлять и упорядочивать речевую деятельность говорящих на данном языке. Грамматические нормы включают в себя морфологические нормы и синтаксические:

морфологические нормы требуют правильного образования грамматических форм слов разных частей речи (род, число существительного, краткие формы и степени сравнения прилагательных и др.);

синтаксические нормы предписывают правильное построение основных синтаксических единиц – словосочетаний и предложений.

Нарушение грамматической нормы, как правила использования морфологи-

ческих форм разных частей речи и синтаксических конструкций, ведёт к двусмысленности, неправильному слово- и формоупотреблению. Степень правильности и уместности речи определяется языковой и стилистической нормами, находится в прямой зависимости от общепринятых в языке правил словоупотребления, грамматики, орфографии и пунктуации. Соблюдение грамматической нормы – один из основных критериев правильности речи, речевой культуры.

419