Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

IT

.pdf
Скачиваний:
9
Добавлен:
08.06.2015
Размер:
754.92 Кб
Скачать

21

Вопрос 16.

Суть метода решения задач заключается в создании модели некоторого объекта, явления или процесса.

Модель – формализованное описание объекта, процесса или явления, выраженное конечным набором предложений какого-либо языка, математическими формулами, таблицами, графиками, специальными значками или схемами. Упрощенное представление реального устройства и\или протекающих в нем процессов\явлений.

Свойствамодели:

1)Модель выступает в качестве упрощѐнного аналога изучаемого объекта;

2)Модель не должна быть сложнее своего оригинала;

3)Способ моделирования должен быть самым экономичным методом изучения объекта;

4)Построенная модель должна быть предельно простой и не содержать противоречий;

5)Модель должна иметь общий (универсальный) характер, позволяющий использовать еѐ для изучения других, сходных объектов;

6)Модель должны отражать наиболее существенные черты реального мира.

Виды моделей:

1)Структурные (служат для изучения и описания внутреннего строения некоторого объекта);

2)Функциональные (позволяют изучать поведение объекта в процессах);

3)Динамические (позволяют объяснить процесс в динамическом развитии).

Влингвистике чаще всего используются функциональные модели.

Общий принцип решения лингвистической задачи методом моделирования:

1) Постановка задачи:

а) Описание решаемой задачи; б) Формулирование цели моделирования;

в) Анализ оригинала модели объекта, т.е. выделение наиболее важных (формальных) свойств, которые мог бы легко опознать ПК.

2) Разработка модели: построение модели в виде алгоритма.

Алгоритм – точное предписание по выполнению в определѐнном порядке некоторой последовательности действий (физических или умственных, приводящее к решению

некоторой

типовой задачи.

Свойства алгоритма:

 

а)

Дискретность (алгоритма разбивается на конечное число шагов, причѐм только после

 

выполнения предыдущего шага можно выполнить следующий);

 

б)

Результативность (при всех начальных условиях число шагов алгоритма конечно и он

 

приводит к решению задачи);

 

в)

Массовость (по данному алгоритму может быть решѐн целый ряд типовых задач, которые

 

отличаются лишь разными начальными условиями);

 

г)

Детерминированность (при многократном решении одной и той же задачи с одинаковыми

 

начальными условиями получается всегда один и тот же результат);

 

д)

Формализованность (выполняющий алгоритм может не вникать в смысл того, что он

 

делает, т.к. всѐ равно придѐт к верному результату);

 

Способы записи алгоритма:

 

а)

Словесный;

 

б)

Графическое представление (шаги изображаются геометрическими фигурами,

 

образующими блок-схему);

 

в)

Табличный;

 

г)

Словесно-графический (чаще всего используется при решении лингвистических задач);

3)Проведение компьютерного эксперимента: связано с созданием на основе алгоритма компьютерной программы на каком-либо алгоритмическом языке (каждый шаг алгоритма будет записан в виде команды алгоритмического языка);

4)Анализ результатов компьютерной модели: в процессе анализа результатов работы компьютерной модели выявляются логические ошибки в компьютерной программе и алгоритме.

22

Вопрос 17.

Системы автоматического чтения текстов

Для быстрого и качественного ввода текста в ПК используется сканер, работающий по принципу фотоаппарата. Чтобы «понять» текст, то бишь перевести графику в цифровой вид, нужна система автоматического распознавания текста.

OCR (OpticalCharesterRecognition) – компьютерная программа, позволяющая преобразовывать текст бумажного носителя в электронный текстовый файл.

Основные принципы работы системы:

1)Целостность (объект описывается как целое с помощью значимых элементов и отношений между ними);

2)Целенаправленность (распознавание строится как процесс выдвижения и целенаправленной проверки гипотез);

3)Адаптивность (способность компьютерной системы к самообучению).

Этапы работы системы FineReader:

1)Сканирование (получение графического образа документа;

2)Распознавание текста страницы:

а) Анализ графического макета страницы (выделение областей для распознавания, выделение в тексте строк и отдельных символов);

б) Распознавание каждого символа на основе различных алгоритмов распознавания;

3)Проверка орфографии;

4)Сохранение.

Алгоритмы распознавания (классификаторы):

1)Шаблонные (шрифтозависимые) – растровое изображение накладывается на шаблон, содержащийся в базе данных, наиболее подходящим является тот, у которого наименьшее количество точек отличается.

2)Шрифтонезависимые:

а) Признаковые (позволяют анализировать не всѐ изображение знака, а лишь некоторые признаки, вычисляется по формулам, не отвечает принципу целостности);

б) Структурные (содержат информацию не о точечном изображении символа, а о правилах начертания (или структуры).Структурными элементами являются составляющие символ линии, однако данный метод чувствителен к дефектам изображения).

В FineReader работают все алгоритмы, экспертная система, встроенная внутрь ядра, сама выбирает нужный алгоритм.

Возможности OCR:

1)Во время сканирования система автоматически подбирает яркость, фрагментирует каждую страницу, распознает символы текста;

2)Позволяет распознавать печатные символы ( 200 языков), рукопечатные и рукописные тексты.

3)Способность самообучаться и распознавать плохо пропечатанные символы.

4)Распознавание изображения, полученного с помощью цифрового фотоаппарата, а также файлы в формате PDF.

Развитие OCR идѐт в направлении повышения точности распознавания текстов низкого качества, распознавание рукописного текста, выделение текстовой информации на фоне шумов, а также интеграций OCR-систем с различными программами обработки информации.

23

Вопрос 18.

Системы автоматического аннотирования и реферирования текста Реферат – связный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследования или разработки.

Аннотация – краткое изложение содержания документа с общим представлением о его теме. Машинный реферат – последовательность предложений исходного текста либо таблица, в ячейках которой ключевые слова или словосочетания (первый машинный реферат был сделан в 1958 году).

Этапы построения реферата человеком:

1.1)Подготовительный (чтение текста и осмысление документа в целом);

2.Аналитический (референт выделяет основные смысловые единицы (предложения, слова, словосочетания), строит план реферата);

3.Этап непосредственного построения реферата (выделенные ранее единицы располагаются в единый вторичный текст в соответствии с планом).

Вкачестве смысловых единиц реферата могут быть:

1)Полное (без изменений) ключевое предложение исходного текста;

2)Перефразированное ключевое предложение;

3)Предложение из ключевых слов и словосочетаний;

4)Предложение, обобщающее несколько предложений исходного текста.

Смысловые единицы аннотации:

1)Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами – реляторами – заранее заготовленная фраза («тема состоит в том, что» и проч.);

2)Специальные предложения исходного текста, содержащие элементы («рассматривается важная проблема» и проч.)

ПК должен уметь:

1)Находить в тексте ключевые слова, словосочетания, предложения;

2)Находить в тексте менее значимые единицы;

3)Составлять из текстовых единиц смысловые единицы реферата\аннотации.

Методы автоматического реферирования:

1.Статистический:

2.Позиционные: основным критерием этих методов является место или позиция предложения в тексте:

a.Метод заглавия (основное содержание текста выражается текстом заголовка) – составляет словарь ключевых слов на основе заголовков\подзаголовков;

b.Метод локализации (работает на текстах узкой тематики) – идея в том, что в таких текстах предложения о цели и результатах занимают фиксированное место.

3.Логико-семантические: исследуют структуру и семантику текста.

a.Ключевое предложение – предложение с наибольшей функцией весомости влияют различные факторы:

b.Связь с левым и правым окружением;

c.Наличие в предложении семантически значимых слов;

d.Выделение текста шрифтом и т.д.

Каждый метод имеет достоинства и недостатки, используются комбинированно.

Данные методы относятся к направлению квазиреферирования, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путѐм соединения отрывочных фрагментов, лишѐн гладкости.

Сегодня появились методы второго направления на выделение из текстов наиболее информативной информации и создания с помощью неѐ новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео.

24

Вопрос 19.

Методы автоматического реферирования:

1)Статистический: в данном методе ключевое слово – это знаменательное слово текста, котороес учѐтом синонимов встретилось в тексте наибольшее число раз.

а) Задача: по формуле важн = где F – число повторений слова в тексте,

m – число абзацев, где есть это слово, N – количество слов в тексте,

n – количество абзацев в тексте

составить алгоритм, позволяющий получить:

аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста – ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями;

словесный реферат текста в виде последовательной цепочки ключевых предложений – предложений, содержащих три и более ключевых слова.

Словоупотребление – цепочка символов, заключѐнных между двумя пробелами.

Словоформа – словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово.

б) Алгоритм решения задачи:

ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;

Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;

Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:

a.Удаляется служебная и общепринятая лексика;

b.Объединяются грамматические формы одного и того же слова;

c.Объединяются синонимы;

d.Удаляются слова, встреченные только в одном абзаце;

Словарь потенциальных опорных слов делится (с помощью Кважн)на

a.Словарь главных опорных слов;

b.Словарь второстепенных опорных слов;

Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения.

25

Вопрос 20.

Системы машинного перевода Перевод – вид человеческой языковой деятельности, в результате которой текст на одном

языке ставится в соответствие тексту на другом языке при обеспечении их смысловыми эквивалентами.

Типы перевода по степени автоматизации:

1)Ручной

2)Автоматизированный

а) Перевод, выполняемый ПК с помощью человека (ПК обращается за справками к человеку);

б) Перевод, выполняемый человеком с помощью ПК:

В памяти ПК двуязычный словарь и текстовый редактор;

Системы ТМ ( TranslationMemory) – в их основе лежит принцип сбора и хранения фрагментов переведѐнных человеком текстов на 2 языках, они хранятся в специальном накопителе перевода и служат бесценным подспорьем при последующем выполнении переводов той же тематики.

3)Машинный (автоматический) – выполняемое ПК действие по преобразованию текста на одном языке в текст на другом языке при сохранении эквивалентности).

Традиционный (выполненный человеком)

Статистический (машинный)

Первые теоретические разработки по машинному переводу относятся к 30-40-м, но практическое применение идея машинного перевода нашла в 50-е. Первый машинный перевод был выполнен в Джорджстаунском университете в 1954. В Москве первый машинный перевод был выполнен в 1955. Так как большинство слов имеют несколько значений, то основная трудность заключается именно в выборе нужного варианта, для чего человек использует контекст, жизненный опыт, который фактически невозможно формализовать и загрузить в ПК, => идеального машинного перевода быть не может и человек постоянно участвует в редактировании текста.

26

Вопрос 21.

Типы систем МП:

1) На правилах языка (модель перевода человеком)

а) Структуры систем МП, основанных на первой системе:

 

 

Двуязычный словарь

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Текст для перевода

 

Морфологический анализ

 

Синтаксический анализ

 

 

 

исходного языка

 

исходного языка

 

 

 

 

 

 

 

Переведѐнный текст

 

Морфологический синтез

 

Синтаксический синтез

 

 

переводного языка

 

переводного языка

 

 

 

 

 

Синтаксические соответствия (структура)

В процессе морфологического анализа слов предложения исходного языка каждое слово получает наборы лексико-грамматических признаков ( часть речи, род и т.д.), ПК формирует эти наборы с опорой на специализированные двуязычные словари;

Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения;

Синтаксический синтез заключается:

a.В создании предложения переводного языка определѐнной синтаксической структуры, определяемой правилами языков;

b.Замена слов исходного языка на их переводные эквиваленты из словарей.

Морфологический синтез каждого слова предполагаемого родного языка сводится к постановкам каждого слова в нужную форму, для чего ПК использует

лексико-грамматические признаки слов переводного языка.

б) Успех СМП зависит от автоматических словарей. Для всех слов закодированного вида указываются грамматические признаки и лексико-семантическая информация.

в) Используются два типа представления лексических единиц в автоматическом словаре:

В виде словоформ (словарь включает всевозможные лексические единицы и подаѐтся гнѐздами);

В виде квазиосновы( числа, стоящие после, условно обозначают наборы суффиксов и окончаний, присоединяемых к основе для получения

соответствующей формы, эти числа называются типами формообразования, а сами суффиксы и окончания – машинными окончаниями.

г) Выбор типа лексической единицы зависит от:

Типа языка (для флективных рациональнее использовать квазиоснову, для языков аналитического типа - словоформу);

От объѐма словаря и вычислительных ресурсов ПК;

От типа системы СМП (для информативного перевода применяют квазиосноу, для профессионального – словоформу).

д) Преимущества систем первой технологии:

Синтаксическая и морфологическая точность;

Стабильность и предсказуемость результатов;

Возможность настройки на предметную область.

27

е) Недостатки:

Трудоѐмкость и длительность разработки;

Необходимость пополнения словарей;

«Машинный» акцент.

2)Системы второй технологии (основаны на поиске наиболее вероятного перевода с использованием данных из параллельных корпусов);

а) Преимущества:

Легко построить при наличии двуязычного корпуса;

Перенос технологии на любые пары языков

Лексическая гладкость.

б) Недостатки:

Ограниченность параллельных корпусов и их качество;

Плохаясправляемость с морфологией и синтаксисом;

Искажение информации.

Обе технологии обладают своими преимуществами и недостатками и не решили задачу по достижению качественного МП. Система Promt разработала «Гибридную технологию перевода». Такой перевод сохраняет преимущества традиционной технологии (формирование синтаксически связанного и грамматически правильного текста) и преимущества статистического метода (быстрое обучение, получение данных из параллельных корпусов в автоматическом режиме и гладкость текстов).

28

Вопрос 22.

Понимание и порождение устной и письменной речи с помощью ПК

Пока ПК, обладающие возможностью обрабатывать письменные тексты и устную речь, имеют в памяти ограниченные конкретной предметной областью базы знаний.

База знаний – определѐнным образом организованные лингвистические и нелингвистические данные и правила их обработки.

Речемыслительная деятельность человека – очень сложный и неизученный до конца процесс, поэтому сегодня нельзя говорить о его полном моделировании на ПК. Существующие экспериментальные промышленные системы обработки текста и речи созданы с учѐтом наложения определѐнных ограничений на их функционирование. Созданы для решения частных задач.

Компьютерные системы понимания связного текста:

Проблема понимания текста ПК находится на начальный стадии изучения. Разные точки зрения на эту проблему, разные уровни понимания, построены различные системы понимания текста. Наиболее сложным для понимания являются тексты, описывающие взаимоотношения и поступки действующих лиц, так как в ПК должны храниться большие базы данных об окружающем мире. Более простые – тексты с описанием объектов статического мира. Понимание в таких системах трактуется как извлечение из текста наиболее существенной информации. Полученная в результате информация может пополнить базу данных ПК или быть отправлена пользователю.

Под передачей пользователю понимают способность ПК отвечать на вопросы пользователя относительно событий в тексте не в виде слов иди предложений, а в виде связного текста.

Согласно современным теориям автоматического понимания текста ПК понял текст, если он может:

1)Кратко изложить его содержание;

2)Отвечать на вопросы к этому тексту;

3)На основе текста создать картинку\схему и т.д.;

4)Приведѐнные в тексте сведения представить в иной форме (таблицы, графика);

5)На основе анализа текста на одном языке выдать адекватную информацию на другом языке;

6)Сравнить содержание двух разных текстов и выдать информацию об их сходствах и различиях;

7)Путѐм анализа одного или нескольких текстов извлечь некие знания, которые можно было бы поместить в базу данных.

Уровни понимания письменного текста (выделяются при соотнесении с основными уровнями языка):

а) Морфологический – сводится к автоматическому приписыванию каждому слову его морфологических характеристик (наиболее освоенный вид понимания текста), в последние годы стал легко реализовываться в рамках лексико-грамматического анализа корпусов текстов;

б) Синтаксический – суть в автоматическом выделении в каждом предложении текста членов и установлении между ними различных типов связей;

в) Семантический – в процессе автоматически устанавливаются значения выделенных на синтаксическом уровне составляющих предложений. ПК определяет, выражаются ли подлежащее одуш.\неодущ. Существительным, сказуемое глаголом движения\чувств, обстоятельство времени/места. Подобные процедуры идут с опорой на окружение слова.

г) Гиперсинтаксический (прагматический) – выяснение семантических отношений между предложениями текста и выявлением соответствующей тексту ситуации реальной действительности.

29

Вопрос 23.

ПК, понимающий письменный текст, должен иметь в своей базе данных:

1)Знания о языке текста;

2)Правила использования этих знаний;

3)Знания о реальном мире (конкретной предметной области);

4)Правила использования знаний о фрагменте реального мира;

5)Знания о пользователе, желающем от ПК понимания текста.

Типы автоматического понимания:

1)Понимание-узнавание (в ПК есть лишь знания о языке) – суть в том, что ПК узнаѐт морфологическую структуру каждого слова, проводит синтаксический анализ каждого предложения, узнаѐт в исходном тексте ключевые слова, словосочетания и предложения);

2)Понимание уподобление (ПК имеет знания о языке и правила их использования, считается, что система поняла текст, если она может ответить на вопросы по нему) – суть в нахождении готового ответа своей базе данных, ранее данных человеком, так как она уподобляется человеку;

3)Понимание-прогнозирование (ПК ориентированы на понимание текстов узкой специальности, должны иметь знания о языке, правилах их использования и предметной области.)- считается, что система поняла текст, если может определить, какой объект или событие предметной области соответствует фрагментам текста. Однако одним и тем же фрагментам текста могут соответствовать разные объекты, поэтому их соотношение можно определить лишь с определѐнной долей вероятности. Отсюда и прогнозирование).

4)Понимание-объединение (в базе данных системы 4 вида вышеназванных знаний) – объединяя эти виды знаний, ПК должен уметь делать выводы, умозаключения по тексту, и объяснять, почему она сделала такой вывод (работа экспертных систем);

5)Понимание-объяснение (в ПК есть все 5 видов вышеназванных знаний) – ПК должен уметь

объяснить пользователю, как она поняла текст. Так как система должна дать ответ любому пользователю с учѐтом уровня его образования, используется диалог «ПК->пользователь».

Сегодня проблема автоматического понимания текста реализована в:

1)Автоматических системах реферирования и аннотирования и перевода текста;

2)Информационных и информационно-поисковых системах;

3)Экспертных системах.

30

Вопрос 24.

Системы автоматического порождения письменного текста:

Занимаются с 70-х, однако нет единой теории текстообразования, не может быть создана единая теория порождения текста из-за неоднозначного определения понятия «текст»:

1)Создатели диалоговых систем под текстом понимают любую реплику из нескольких слов;

2)Создатели систем генерации метеосводок или статистических отчѐтов понимают под текстом некоторую таблицу;

3)Создатели инструкций понимают под текстом цепочку несвязанных между собой предложений, относящихся к одному объекту.

Этапы порождения текста:

1)Стратегический (решение, что писать) – результат: семантическое представление будущего текста;

2)Тактический (решение, как писать) – результат: собственно текст в языковой форме.

Виды компьютерных систем порождения текста:

1)Системы, работающие на основе шаблонных технологий (строят будущий текст, манипулируя готовыми предложениями и словосочетаниями как строительными блоками; просты и надѐжны, находят широкое промышленное применение; содержание порождѐнного текста представляется в виде фрагментов текстов, созданных ранее людьми, поэтому выглядит естественно, однако работает только с жѐсткими типами текстов);

2)Системы, работающие на основе лингвистически мотивированных технологий (для создания текста системе нужны сложные знания структуры содержания создаваемого текста и сложные лингвистические знания, которые позволяют выразить содержание языковыми средствами; промышленных систем такого рода нет).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]