Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Konspekt_po_OIT.docx
Скачиваний:
32
Добавлен:
08.06.2015
Размер:
93.76 Кб
Скачать

Irc (chat) - обмен в реальном времени текстовыми сообщениями.

Интернет пейджинг - это система, позволяющая зарегистрироваться в своей системе серверов и получить уникальный пейджинговый номер. При каждом подключении к интернет программа ICQ определяет текущий IP адрес вашего ПК и отправляет его на центральный сервер и вы можете вызвать человека

Аудиоконференции.

Видиоконференции - это различные телемосты.

Ресурс - это телевещание.

Интернет-телефония. Программа Skype.

Тенденции развития глобальной сети интернет:

  • Упрощения процедуры подключения сети (доступ через сотовые телефоны)

  • Постоянное повышение скорости доступа в сети.

  • Увеличение количества IP адресов.

Введена шестая версия протокола IP? Которая поддерживает не четырехбайтовый, а шестнадцатибайтовый IP адрес

  • Предоставление пользователям все более широких возможностей (интернет-телефония, интернет магазины, веб-вещание…)

  • Создание сети интернет 2 - это компьютерная сеть нового поколения. Сеть строится на базе протокола IP 6 (шестнадцатибайтовый OP адрес) и позволяет беспрепятственно передавать потоковую видеоинформацию.

Пользователю интернет 2 есть доступ в интернет 2, а наоборот - нет.

  • К концу столетия территориальные компьютерные сети должны стать основной информационной средой, а интернет станет основным средством связи.

 

  • Современные информационные технологии в обработке текстов.

Система автоматического чтения текста.

Для быстрого ввода текстовой информации в ПК широко используется сканер, который работает по принципу фотоаппарата. Для того, чтобы преобразовать графическое изображение в цифровой вид используются системы автоматического чтения текста или OCR (Optical Character Recognition)

 

PCR система - это компьютерная программа, позволяющая преобразовать текст бумажного носителя в электронный текстовый файл.

Принципы работы системы PCR:

  • Целостность - объект описывается как целое с помощью значимых элементов и отношений между ними

  • Целенаправленность - распознавание стоится как целенаправленное выдвижение как процесс выдвижения и целенаправленной проверки гипотез

  • Адаптивность - это способность системы к самообучению.

 

Примеры:

FineReader

Cunei Form

 

Этапы работы FineReader .

  • Этап - сканирование. Получение графическое образа документа

  • Распознавание. а) анализ графического макета страницы. (выделение областей для распознавания и выделение в тексте строк и отдельных символов. б) распознавание каждого символа на основе различных алгоритмов распознавания

  • Проверка ошибок

  • Сохранение

 

Алгоритмы распознавания (классификаторы)

  • Шаблонные (шрифтозависимые) - растровое изображение накладывается на шаблон, содержащийся в базе данных, наиболее подходящим является тот шаблон у которого наименьшее количество точек отличается.

  • Шрифтонезависимые.

2.1 Признаковые анализируют не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. (не соответствует принципу целостности)

2.2 Структурные алгоритмы содержат информацию не о точечном изображении символа, а о правилах его начертания (структуре). Структурными элементам являются составляющие символы линии.

 

Возможности систем OCR:

  • Во время сканирования автоматически подбирается яркость, фрагментируется каждая страница, распознаются символы текста.

  • Позволяют распознавать печатные символы (около 200 языков) и рукописные тексты.

  • Способны самообучаться и распознавать плохопропечатанные символы (символы незнакомого языка).

  • Распознают изображение, полученные с цифрового фотоаппарата.

  • Работают с файлами PDF

  • Развитие ОСК систем сегодня идет в направлении повышения точности распознавания текстов низкого качества.

  • Распознавание рукописных текстов

  • Выделение текстовой информации на фоне шумов

  • А также интеграции (объединения) OCR систем с различными программами обработки информации

 

Системы автоматического аннотирования и реферирования текста

 

План:

  • Реферат. Аннотация. Общие понятия.

  • Методы автоматического реферирования (аннотирования) текстов.

  • Составление реферата (аннотации) компьютером на основе статистического метода.

 

Реферат - это связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результата описанного исследования или разработки.

Аннотация - это краткое изложение содержания документа, лающее общее представление о его теме.

Реферат - вторичные документы, которые составляются к научным статьям, книгам патентам на изобретение.

 

Составлении реферата (аннотации) с помощью ПК называется автоматическим реферированием (аннотированием)

Машинный реферат представляет собой либо последовательность предложений исходного текста, либо таблицу в ячейках которой располагаются ключевые слова или словосочетания .

 

Этапы построения реферата человеком.

  • Подготовительный этап. Референт читает текст и пытается осмыслить его в целом.

  • Аналитический референт выделяет в тексте основные смысловые единицы (слова словосочетания, предложения).

Строится план будущего реферата.

  • Этап непосредственного построения реферата, где выделенные ранее смысловые единицы (их комбинации) располагаются в единый вторичный текст в соответствии с планом.

 

Основные смысловые единицы реферата:

  • Полная (без изменения) ключевое предложение исходного текста.

  • Перефразированное ключевое предложение.

  • Предложение, состоящее из ключевых слов и словосочетаний с использованием связующих элементов.

  • Предложения, обобщающие несколько предложений исходного текста.

 

Смысловые единицы аннотации:

  • Ключевые слова или словосочетания исходного текста с предшествующим им специальными словами - реляторами. Типа "основная тема состоит".

  • Специальные предложения исходного текста содержащие оценочные элементы. "В статье рассматриваются следующие вопросы" "Ставится задача" "Недостатком является"

 

Компьютер должен уметь:

  • Находить в тексте основные смысловые единицы.(ключевые слова, словосочетания, предложения)

  • Находить в тексте менее значимые смысловые единицы.

  • Составлять из смысловых единиц текст реферата и аннотации.

 

Метода автоматического реферирования:

Выделяют следующие методы:

  • Статистические

  • Позиционные

  • Логико-семантические

 

  • В статистическом методе ключевое слово - это знаменательное слово исходного текста, которое встретилось наибольшее число раз с учетом всех его синонимов.

Задача:

Используя один из вариантов статистического метода, а именно Коэффициент Важности (К) рассчитывается по формуле = F*m

N*n

 

F - частота употребления слова в тексте

m - число абзацев, где встретилось слово

N - число слов в тексте

n - число абзацев в тексте

 

Составить алгоритм, позволяющий получить : а) аннотацию текста в виде слов-реляторов, со следующими за ними ключевыми словосочетаниями (это ключевое существительное со стоящим перед ним определением, выраженным прилагательным или причастием); б) словесный реферат текста в виде последовательной цепочки ключевых предложений и (содержащих три и более ключевых слова)

 

Словоупотребление - это цепочка символов, находящаяся между двумя знаками пробелов.

Словоупотребление вне текста или предложения называется словоформой.

Словоформой, имеющее одинаковое лексическое значение образуют слово (лексему).

 

Скоро придет зима. Зимой легко дышится. Приходи, зима!

 

Зима - 2р.

Зимой - 1 р.

Дышится - 1 р.

Придет - 1 р.

Приходи - 1 р.

Легко - 1 р.

Скоро - 1р.

 

Алгоритм решения задачи:

  • Для каждого абзаца текста ПК создает алфавитно-частотный словарь словоформ.

  • Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста.

  • ПК производит чистку словаря, сжимая его до словаря потенциальных ключевых (опорных)слов.

  • удаляется служебная и общеупотребительная лексика

  • объединяет словоформы одного и того же слова

  • объединяет синонимы

  • из словаря удаляются слова (словоформы), которые встретились только в одном абзаце

  • Использую формулу К важности слова делятся на две части: а) словарь главных опорных слов; б) словарь второстепенных опорных слов.

  • троится аннотация, которая составляется из слов- реляторов со следующими за ними ключевым словосочетаниями. Ключевое словосочетание состоит из главного опорного (ключевого) слова с предшествующим ему определением.

  • стоится реферат из главных и второстепенных опорных слов.

Просматривая исходных текст, ПК извлекает предложения, содержащие три и более опорных слов.

 

  • Позиционные методы.

 

Основным критерием является место или позиция предложения в исходном тесте.

Выделяют:

а) метод заглавия (считается, что основное содержание текста выражается текстом заголовков, подзаголовков, поэтому составляется словарь ключевых слов на основе знаменательных слов заголовков, подзаголовков и система выделяет в реферат предложения, содержащие эти слова.

б) метод локализации (местонахождения) работает на текстах узкой тематики. Пример: патенты на изобретение.

Идея метода: в таких текстах предложения по цели результатов исследования занимают фиксированное место (пример. первое-второе предложение второго абзаца)

 

Эти методы работают комплексно.

75%

 

  • Логико-семантические методы

 

Исследуют структуру и семантику текста.

 

Ключевое предложение - это предложение с набольшим функциональным весом, на величину которого влияют разные факторы (связь с левым и правым окружением, наличие в предложении семантически значимых слов, анализируется выделение шрифтом..)

 

Все перечисленные методы относятся к направлению квазиреферирования. Они основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл текста. Такой текст лишен гладкости.

 

Сегодня появились методы второго направления , основанные на выделении из текстов наиболее информативной информации и генерирования с помощью его новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Они позволяют работать сразу с несколькими источниками и с видеоинформацией.

 

Системы машинного перевода

 

План:

  • Типы перевода по степени автоматизации.

  • Структура системы машинного перевода и назначение ее основных блоков

 

Перевод - это вид человеческой и языковой деятельности в результате которой тексту на одном языке ставится в соответствии текст на другом языке при этом сохраняется их эквивалентность содержания .

 

Типы переводы по степени автоматизации:

  • Традиционный (ручной) перевод, выполняемый человеком.

  • Автоматизированный перевод

  • ПК выполняет перевод с помощью человека.

  • Человек выполняет перевод с помощью ПК.

а) с памяти ПК электронный словарь и текстовый редактор.

б) системы TM (Translation Memory) - ассоциативная память.

В основе этих программ лежит принцип сбора и хранения фрагментов переведенных человеком текстов на двух языках. Он хранятся в специальном накопителе переводов и служат бесценным подспорьем при последующем выполнении переводов этой же тематики. Для каждой тематики создается новый накопитель. Ими можно обмениваться. Лидер среди программ этой технологии является Trados.

  • Машинный (автоматический) перевод. Выполняемое компьютером действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалентности содержания, а также результат этого действия.

 

Первый машинный перевод был продемонстрирован в США в 1954 году.

В Москве первый перевод был продемонстрирован в 1955 г.

 

Так как большинство слов имеют несколько значений, то основная трудность при переводе заключается именно в выборе нужного значения. Для чего человек использует контекст, свой жизненный опыт, который невозможно формализовать и загрузить в ПК. Поэтому человек участвует в переводе (постредактирует текст).

 

На сегодняшний день машинный перевод представлен двумя технологий

 

  • Машинный перевод, основанный на правилах языка (модель перевода человеком).

  • Статистический машинный перевод. Он основан на сопоставлении параллельных текстов больших объемов и вычисления наиболее вероятного перевода.

 

Структуры системы машинного перевода по первой технологии:

 

 

 

 

Текст Исходного Языка

 

 

 

 

 

 

 

  • В процессе морфологического анализа слов исходного языка каждое слово получает наборы лексико-грамматических признаков, ПК формирует эти наборы с опорой на двуязычный автоматический словарь.

  • Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения т.е. в структуре предложения. O P S D

  • Синтаксический синтез переводного языка заключается в :

  • Создании предложения переводного языка определенной синтаксической структуры, которую система выбирает из синтаксических соответствий. P S D O

  • Замена слов переводного исходного языка на их переводные элементы, которые берет из автоматического словаря.

  • Морфологический синтез переводного языка каждого слова предложения переводного языка сводится к постановке слов переводного языка в нужном числе, роде, падеже и т.д.

 

Эффективность систем машинного перевода зависит от автоматического словаря.

Для всех единиц словаря в закодированном виде указываются грамматические признаки и лексико-семантическая информация.

Используется два способа представления лексических единиц в автоматическом словаре:

а) в виде словоформ, когда в словарь заносится всевозможные формы каждого слова и они подаются гнездами.

б) в виде квазиосновы. Числа, стоящие после решетки условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе, чтобы получить соответствующую форму слова.

 

Выбор типа лексической единицы зависит от:

  • От типа языка. (для флективных и агглютинативных языков: русский, немецких. Используется квазиоснова; для языков аналитического типа: английский, французский - словоформа)

  • От объема словаря.

  • От типа машинного перевода. Для "информативного" перевода (общее представление) - квазиоснову, для профессионального перевода - словоформа.

 

Системы первой технологии опираются на готовые словари. Чтобы эти системы можно было применять профессионально, необходимо потратить много времени на настройку системы для каждой тематики перевода:

  • Подключить специализированные словари

  • Зарезервировать имена собственные

  • Подключить базы TM (Translation Memory)

  • Выбрать правильные переводные эквиваленты для многозначных слов

  • Отредактировать

 

Использование программ дает выигрыш только при переводе огромных массивов однородной документации с большим количеством повторений.

 

Преимущества:

  • Синтаксическая и морфологическая точность

  • Стабильность и предсказуемость результата

  • Возможность настройки на предметную область

 

Недостатки:

  • Трудоемкость

  • Необходимость добавлять лингвистическую базу данных

  • "машинный акцент" при переводе

 

  • Статистический машинный перевод

 

Статистический метод - поиск наиболее вероятного перевода предложения с использованием данных полученных из параллельных корпусов.

 

Преимущества:

  • Легко построить, если есть двуязычных корпус

  • Переносимость технологий на любые пары языков

  • Лексическая гладкость

 

Ограничения и недостатки:

  • Ограниченность параллельных корпусов в природе и их качества

  • Плохо справляется с морфологией и синтаксисом

  • Искажение информации

 

Обе технологии имеют свои достоинства и недостатки.

Последнее время наметилась тенденция объединять оба метода.

В этом году Promt разработала Гибридную технологию перевода, которая позволит сохранить преимущества традиционной технологии (формирование синтаксически связного и грамматически правильного текста) и получить преимущества статистического метода (быстрая обучаемость и получение данных из параллельных корпусов в автоматическом режиме, гладкость текстов)

 

Понимание и порождение письменной и устной речи с помощью компьютера

План:

  • Особенности компьютерных систем, понимание и порождение текста и речи

  • Компьютерные системы, понимание связного текста

  • Порождение связного текста с помощью ПК

  • Автоматическое распознавание устной речи

  • Синтез устной речи с помощью компьютера

 

  • Пока компьютеры, обладающие возможностью обрабатывать письменные тексты и устную речь имеют в своей памяти ограниченное конкретной предметной областью базу знаний.

База знаний - это определенном образом организованные лингвистические и нелингвистические знания данные, а так же правила их обработки.

Личемыслительная деятельность человека - это очень сложный и до конца не изученный вид деятельности.

Поэтому сегодня невозможно говорить о его полном моделировании на ПК. Существующие в разных странах экспериментальные и промышленные системы обработки текста и речи созданы с учетом наложения ограничений на их функционирование. Такие системы решают не общие, а частные задачи понимания и порождения текста и речи.

Особенности:

  • Невозможно смоделировать потому что невозможно заложить огромную базу знаний в памяти ПК

 

  • Компьютерные системы, понимание связного текста

Проблема понимания текста компьютером еще находится на начальной стадии изучения. Существуют разные точки зрения на эту проблему, выделяют разные уровни понимания построены различные системы способные понимать текст. Наиболее сложные для понимания являются тексты, описывающие взаимоотношения и поступки действующих лиц.

Более простыми являются тексты, содержащие описания фрагментов статического мира.

Понимание в таких системах трактуется как извлечение из текста наиболее существенной с точки зрения компьютера информации. Полученные в результате понимания информация может пополнить базу знаний некоторой системы или может быть передана пользователю.

Под передачей понятого пользователю имею в виду способность компьютера отвечать на вопросы пользователя не в виде отдельных слов или предложений, а в виде связного текста.

Компьютер понял текст, если он может:

  • Кратко изложить его содержание

  • Ответить на вопросы к этому тексту

  • На основе текста создать схему-картинку

  • Приведенные в тексте сведения представить в иной форме (таблица, график)

  • На основе анализа текста написанного на одном языке выдать адекватную информацию на другом языке (создать перевод текста на какой-то другой язык)

  • Сравнить содержание двух различных текстов и выдать информацию о том, что в них общего и в чем различие

  • Путем анализа одного или нескольких текстов извлечь такие знания, которые можно поместить в некоторую базу знаний

 

Уровни автоматического понимания текста:

Соотнося уровни понимания текста компьютером с основными уровнями языка, выделяют следующие уровни автоматического понимания текста

  • Морфологический

  • Синтаксический

  • Семантический

  • Гиперсинтаксический или прагматический

 

Морфологическое понимание сводится к автоматическому приписыванию к каждому слову текста его морфологических характеристик. Это наиболее освоенный вид компьютерного понимания текста. Такие операции легко реализуются в рамках автоматического лексико-грамматического анализа корпусов текстов.

Суть синтаксического понимания текста заключается в автоматическом выделении в каждом предложении главных и второстепенных членов и установления между ними различных типов связей.

П процессе семантического понимания текста автоматически устанавливаются значения выделенных на синтаксическом уровне составляющих предложения. Компьютер определяет нап.ример выражено ли подлежащие одушевленным или неодушевленным существительным, сказуемое выражено глаголом чувствования или движения, обстоятельство является обстоятельством времени, места, действия и т. д. Подобные процедуры проводятся с опорой на необходимое окружение.

Гиперсинтаксическое или прагматическое понимание текста связано с выяснением семантических отношений между предложениями и с выявлениям соответствующей тексту ситуации реальной действительности.

 

Типы автоматического понимания текстов:

Компьютерная система понимающая письменный текст должна иметь в своей базе знаний следующую информацию:

  • Знания о языке на котором написал текст

  • Правила использования этих знаний

  • Знания о реальном мире (предметной области) о физике, математике, компьютерным сетям

  • Правила использования знаний о фрагменте реального мира

  • Знания о пользователе системы, желающим получить от ПК некоторое понимание текста

 

В зависимости от видов знаний различают следующие типы понимания текстов:

  • "понимание-узнавание" в системе лишь знания о языке. Суть понимания сводится к тому, что компьютер (система) узнает морфологическую структуру каждого слова, проводит синтаксический анализ каждого предложения, узнает в исходном тексте ключевые слова, словосочетания, предложения

  • Понимание уподобления система должна иметь знания о языке и правилах использования этих знаний. Считается, что система понимает текст, если она может ответить на вопросы по этому тексту. При таком понимании ПК просто находит готовые ответы в своей базе знаний ранее занесенные человеком (таким образом он уподобляется человеку)

  • Понимание прогнозирование эти системы ориентированы на понимание текстов достаточно узкой предметной области. В базе знаний знание о языке, правилах их использования и знание о предметной области. Считается, что система понимает текст если она может определить какой объект предметной области соответствует отдельным фрагментам этого текста. Однако, одним и тем же фрагментом могут соответствовать разные объекты поэтому соотносить их можно лишь с определенной степенью вероятности (отсюда термин: прогнозирование)

  • Понимание-объединение в базе знаний системы представлены четыре вида знаний. Объединяя эти видит знаний компьютерная система должна уметь делать выводы по тексту, а также объяснять почему она сформулировала тот иной вывод (это работа экспертных систем)

  • Понимание-объяснение система имеет в своей базе знаний все пять видов знаний включая знания о целях профессиональной компетенции пользователя системы. Компьютер (ПК) должен уметь объяснить пользователю каким образом он понял текст так как система должна давать объяснение любому конкретному пользователю с учетом уровня его образования, опыта, в таких системах используется диалог (компьютер - пользователь)

 

Сегодня проблема автоматического понимания текста реализована в следующих компьютерных системах:

  • Системы автоматического индексирования, реферирования, аннотирования и перевода текста

  • Информационно-поисковые системы

  • Экспертные системы

 

  • Системы автоматического порождения (генерации, синтеза) письменного текста

 

Проблемами порождения текста с помощью ПК исследователи занимаются с начала 70-х годов 20 столетия, но до сих пор нет единой теории текстообразования.

Не может быть создана единая теория порождения текста. Основная причина неоднозначное определение понятия "текст".

Создатели диалоговых систем под текстом понимают любую реплику, состоящую из нескольких слов или предложений.

Создатели систем генерации статотчетов или метосводов под текстом понимают некоторую таблицу.

Для создающих инструкции текст - это цепочка не связанных между собой предложений относящихся к одному объекту.

Художественные, научно-популярные тексты здесь необходимы законы построения текстов разных стилей и жанров.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]