Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 22.doc
Скачиваний:
39
Добавлен:
08.06.2015
Размер:
1 Mб
Скачать

Новые информационные технологии

Лекция № 2.2. Основные классы естественно-языковых систем. Интеллектуальные вопросно-ответные системы

  1. Новые информационные технологии (3)

1.1. Основные классы естественно-языковых систем

      1. Функциональные компоненты естественно-языковых систем

      2. Сравнительная характеристика основных классов ЕЯ-систем

        1. Интеллектуальные вопросно-ответные системы

          1. Информационно-поисковые системы

          2. Системы общения с базами данных

          3. Экспертные системы

          4. Диалоговые системы решения задач

          5. Интеллектуальные хранилища и цифровые библиотеки

        2. Системы распознавания речи

          1. Системы распознавания изолированно произносимых команд

          2. Системы распознавания ключевых слов в потоке слитной речи

          3. Системы распознавания слитной речи

          4. Подход «анализ-через-синтез»

          5. Системы чтения по губам

        3. Системы обработки связных текстов

          1. Системы реферирования текстов

          2. Системы сравнения и классификации текстов

          3. Системы кластеризации текстов

        4. Системы синтеза

          1. Системы синтеза речи

          2. Системы клонирования голоса

          3. Системы синтеза видеоряда по тексту

        5. Системы машинного перевода. Системы понимания речи (текстов)

          1. Системы фразового перевода

          2. Системы контекстного перевода

          3. Системы понимания речи (текстов)

        6. Онтологии и тезаурусы

        7. Речевые и текстовые базы

        8. Компоненты интеллектуальных систем

      3. Сравнительная характеристика естественно-языковых систем

      1. Интеллектуальные вопросно-ответные системы

В настоящее время наиболее массовым продуктом, подпадающим под категорию интеллектуальных вопросно-ответных систем, являются (57) информационно поисковые системы.

2.2.1.1. Информационно-поисковые системы

Наиболее известные информационно-поисковые системы GOOGLE, Yandex, Rambler, имеют приблизительно одинаковые возможности и функциональность. Единственное (58) отличие системы GOOGLE от остальных носит скорее технический характер: эта система реализована как параллельная распределенная система с использованием большого количества процессоров с памятью собственного производства. Возможно, именно это отличие сыграло решающую роль в несомненном превосходстве этой системы перед всеми остальными, хотя и имеющими более интеллектуальные функции. (59) Обработка естественного языка в этой и других информационно-поисковых системах играет не очень большую роль, но зато объем их использования в системах человеко-машинного общения очень велик.

Рис. 2.2. Типичная информационно-поисковая система.

(60) Основные функции информационно-поисковой системы сводятся к парсингу источников, индексированию текстов, извлеченных из источников, обработке запроса пользователя, сравнению проиндексированных текстов базы с запросом пользователя, выдаче результатов. Недавно в системе GOOGLE появился речевой ввод, позволяющий вводить в систему ограниченный по объему запрос голосом. Еще одной функцией, используемой в информационно-поисковых системах, является функция представления структуры модели мира системы, являющейся средством навигации по ресурсам системы.

Таким образом, стандартная (61) информационно-поисковая система содержит семь основных компонентов (см. рис. 2.2): блок ввода информации, блок парсинга, блок индексирования источников, блок обработки запросов пользователя, блок сравнения текстов источников с запросом пользователя, представленным на естественном языке, блок вывода результатов, и блок структурирования предметных областей и навигации.

Основной задачей реализации ввода является представление исходного множества текстов и запроса пользователя в виде, удобном компьютеру. Дело в том, что в силу большого объема обрабатываемой информационно-поисковыми системами информации (62) тексты обрабатываемых документов обычно не хранятся в системе.Хранятся только их представления. Тексты берутся из хранилища (хранилищ) и обрабатываются, время от времени (обычно циклически).

(63) Таким представлением текста может быть, например, список ключевых слов, извлеченных из текста (представленный векторно-пространственной, или n-граммной моделями), но может быть и сеть совместной встречаемости слов в фрагментах текста.

Основная идея (64) векторно-пространственной моделипроста:текст описывается лексическим векторомв евклидовом пространстве,каждому компоненту вектора соответствует некоторый объект, содержащийся в тексте(слово, словосочетание, названия фирм, должности, имена и т.п.), который называется термом.Каждому используемому в текстетерму ставится в соответствие его вес (значимость), определяемый на основе статистической информации о его встречаемости в отдельном тексте.Размерность вектора – это количество термов, которые встречаются в текстах.

(65) В полиграммной модели текст представляется вектором, где элементы вектора – все комбинации символов длины n из алфавита M (для русского языка M = 33).Каждому элементу вектора ставится в соответствие частота встречаемости соответствующей n-граммы в тексте.Размерность вектора для произвольного текста жестко фиксирована и составляет 333= 35937 элемента. Однако, как показывает практика, в реальных текстах реализуется не более 25-30 процентов n-грамм от общего допустимого их числа, т.е. для русского языка их не более 7000.

(66) Сеть совместной встречаемости слов в фрагментах текста. Текст представляется множеством понятий в их взаимосвязях. И понятия и связи оцениваются их весом.

(67) Запрос пользователя, представленный на естественном языке, обрабатывается способом, аналогичным обработке информации при индексации текстов источников, чтобы упростить сравнение этих естественно-языковых текстов. На этапе сравнения, собственно, и реализуются стратегии поиска

Таким образом, помимо способов внутреннего представления текста, в информационно-поисковых системах существенную роль играет способ классификации (сравнения) текстов. (68) В настоящее время практическое применение получили классификаторы следующие типов:

      1. (69) Статистические классификаторына основе вероятностных методов. Наиболее известным в данной группе является семейство Байесовых классификаторов. Их общей чертой являетсяпроцедура классификации, в основе которой лежит формула Байеса для условной вероятности.

Классический метод классификации текстов делает очень сильные предположения о независимости участвующих событий (появления слов в документах), но практика показывает, что наивный байесовский классификатор оказывается весьма эффективен.

2. (70) Классификаторы, основанные на функциях подобия. Наиболее характерными для таких классификаторов является использование лексических векторов модели терм-документ, которые так же применяются и в нейронных классификаторах. В качествемеры подобия обычно берется косинус угла между векторами, вычисляемый через скалярное произведение.

В свете выше описанного (72) в системах информационного поиска используются следующие стратегии.

1. (73) На основе ключевых слов. Ключевые слова обычно снабжаются весовыми характеристиками, которые определяют вес слова в тексте. В основе числовой характеристики лежит частота встречаемости слов в тексте. Однако смысловой вес слова отличается от частоты его появления в тексте.

2. Очень важна (74) информация опорядке следования ключевых слов в фрагментах текста. Для увеличения эффективности поиска в этом случае вместо ключевых понятий используютсяn-граммы ключевых понятий.

3. При поиске используется также частота совместной встречаемости ключевых слов в фрагментах текста. Внутренняя структура текста (75) в терминах ключевых слов в их взаимосвязях – смысловой портрет текста – является основой представления текста в информационно-поисковых системах. Смысловой портрет текста позволяет выявитьлогическую структурутекста (и логическую структуру всего корпуса текстов), которые улучшают качество поиска и ускоряют его.

4. В последнее время при поиске начали использовать так называемое (76) нечеткое сравнение.

Для улучшения результатов поиска пользователь может изменить запрос. Для этого существует обратная связь. (77) Обработка информации в информационно-поисковой системе включает структуризацию информации с целью последующей навигации, в том числе, ее кластеризацию.

Под (76) выводом результатов надо понимать те ссылки на исходный текст (тексты), которые система выдает пользователю. Это может быть система цитат, номера документов, хранящие анализируемые тексты.

(77) Поиск нужной информации в сети с помощью поисковой системы обычно осуществляется следующим образом. Пользователь вводит в диалоговое окно поисковой системы один или более поисковых терминов. Поисковая система возвращает результаты поиска, отвечающие этим поисковым терминам. Например, поисковая система может возвратить список адресов в сети (URL-адресов), которые указывают документы, содержащие один или более поисковых слов запроса.

Классы ЕЯ систем

Уровни представления информации (функции)

Акустико-фонети-ческий

Морфоло-гический

Лекси-ческий

Синтакси-ческий

Модель мира

Прагма-тический

Сравнение (классификация)

Вопросно-ответные системы

Информационно-поисковые системы

-(+)

+

+

- (+)

- (+)

-

+

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]