- •«Иркутский государственный лингвистический университет»
- •Инструментальные средства разработки учебного корпуса ошибок по русскому языку
- •Иркутск
- •Глава I Понятие корпусной лингвистики и учебного корпуса….………....4
- •Глава II Аналитический обзор средств разработки учебного корпуса...…15
- •Введение
- •Глава I. Понятие корпусной лингвистики и учебного корпуса
- •1.1. Краткий обзор разработок по созданию корпусов текстов
- •1.2 Учебные корпуса: определение и назначение
- •Глава II. Аналитический обзор средств разработки учебного корпуса
- •2.1. Аналитический обзор программных средств для аннотирования текста
- •2.2. Классификация ошибок
- •2.3 Примеры строения учебных корпусов
- •2.3.1 Корпус Текстов Петербургских Школьников
- •1. Разметка текста на ошибки
- •2. Синтаксическая разметка текста
- •3. Создание конкорданса
- •4. Наполнение сервиса
- •2.3. 2. Учебный многоязычный корпус MeLlange
- •2.4. Общие рекомендации по выбору инструментальных средств для создания корпуса по русскому языку
- •Заключение
- •Библиография
- •Приложение 1
1. Разметка текста на ошибки
Разметка ошибок в КТПШ была выполнена полуавтоматическим способом с помощью программ Microsoft Word и Advanced Auto Renamer.
Для того, чтобы разместить размеченный вариант текста нужно следовать предложенной в корпусе инструкции:
-
Загрузите на локальный компьютер предлагаемый ниже список ошибок.
-
Скопируйте текст, который будете размечать в отдельный файл редактора Microsoft Word 2007. (! в другом файле у Вас должен остаться текст без разметки!) Убедитесь, что в настройках "Правописание" - "Набор правил" выбран пункт "Строго (все правила)".
-
Кликните на ошибочном варианте слова правой кнопкой мыши, и в открывшемся меню выберите пункт "Грамматика"
-
Выделите слово с ошибкой цветом, соответствующим типу ошибки. Для этого воспользуйтесь инструментом "маркер".
-
Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках.
-
Пройдите по ссылке http://www.whitesmoke.com/online-writing-assistant, разместите в диалоговом окне сайта ваш неразмеченный текст
-
Осуществите разметку текста, нажав на кнопку "check spelling"
-
Выделите в вашем документе слово с ошибкой цветом, соответствующим типу ошибки (см. список ошибок).
-
Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках.
-
По окончании работы воспользуйтесь программой Advanced Auto Renamer, присвоив ошибкам соотвествующие названия.
-
Сохраните документ в формате HTML присовив ему имя типа «textcode»_error tagged.htm (веб-страница с фильтром);
-
Отправьте полученный документ на электронный адрес администрации сайта. Ваш текст будет добавлен в корпус после рассмотрения его администратором сайта.
Практически все уже существующие на данном сервисе тексты размечены на ошибки. На рисунках 8 и 9 показаны примеры размеченных на ошибки текстов.
Рисунок8. Пример размеченного на ошибки текста
Рисунок 9. Пример размеченного на ошибки текста
2. Синтаксическая разметка текста
Кроме разметки на ошибки, сервис предлагает пользователю разметить текст синтаксически. Для синтаксической разметки текстов корпуса предлагается использовать сервис Machinese Syntax © компании Connexor Oy. Для того, чтобы разместить размеченный вариант текста нужно также проследовать предложенной инструкции:
-
Добавьте текст в массив корпуса с помощью сервиса corpus builder;
-
Загрузите (пункт "Сохранить как") шаблон для синтаксической разметки текста на свой компьютер;
-
Перейдите на страницу сервиса Machinese Syntax ©;
-
Введите в текстовое поле текст. В выпадающем меню ниже выберите пункт "English text" и нажмите кнопку "Apply syntax";
-
Выделите сформированный текст таблицы, включая элементы шапки таблицы (#, Text, Basefor etc.). Откройте исходный HTML-код выделенного фрагмента и скопируйте код в буфер обмена;
-
Откройте сохранённый шаблон и вставьте код из буфера обмена в указанное в нем место;
-
Сохраните документ в формате HTML присовив ему имя типа _parsed.html;
-
Отправьте полученный документ на электронный адрес администрации сайта. Ваш текст будет добавлен в корпус после рассмотрения его администратором сайта.