Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 25.doc
Скачиваний:
57
Добавлен:
08.06.2015
Размер:
535.55 Кб
Скачать

2.1.2.3.2. Статистический анализ текстов. Системы классификации и кластеризации текстов

До того, как начать обработку текста, его необходимо (2) подготовить к виду, удобному для обработки. Изначально входная информация представлена в виде плейнтекста. Поэтому, для представления ее в виде, удобном для дальнейшей обработки, она должны быть обработана вручную, или автоматически. Мы будем говорить исключительно об автоматической обработке.

Реализуются (3) различные способы представления текстов. Может быть представлен реферат текста, или список слов, содержащихся в тексте. В настоящий момент используются статистические и лингвистические способы представления и обработки текстовой информации.

Простые (4) способы статистической обработки текстовбазируются на частоте встречаемости слов в тексте. Пустьf– частота встречаемости слова в тексте, аr– ранг этого слова (степень важности слова в тексте). Тогда кривая (см. Рис. 2.1), связывающая ранг слова с частотой его встречаемости (так называемый закон Ципфа) имеет вид гиперболы, что означает, что произведение частоты встречаемости на его ранг есть константа. Нижняя и верхняя границы исключают слова, не играющие существенной роли в тексте. Верхняя граница отсекает наиболее употребимые слова. Нижняя – редкие.

(5) Закон Ципфа (Зипфа)эмпирическая закономерностьраспределениячастотысловестественного языка: если все словаязыка(или просто достаточно длинноготекста) упорядочить по убыванию частоты их использования, то частотаn-го слова в таком списке окажется приблизительнообратно пропорциональнойего порядковому номеруn(так называемомурангуэтого слова, см.шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.

Закон носит имя своего первооткрывателя — американского лингвистаДжорджа Ципфа(George Kingsley Zipf) изГарвардского университета.

(6) Первичная обработка текста

Для анализа текста необходимо произвести некоторые манипуляции над словами текста. Надо удалить общеупотребимые слова, ипровести морфологический анализоставшихся слов.

Удаляются наиболее часто встречающиеся слова: они не несут смысла в предметной области текста. Это можно сделать на основе частотного анализа, пользуясь верхней границей на рис. 2.1. Но более точно это можно сделать, используя вручную заранее сформированные перечни общеупотребимых слов в предметных областях анализируемых текстов на всех используемых для анализа языках. Кроме того, удаляются рабочие слова: предлоги, артикли, местоимения. В результате объем исходного текста уменьшается на 30-50%.

Рис. 2.1.

Следующим шагом является морфологический анализ оставшихся слов. В результате морфологического анализа от слов отсекаются окончания и слова заменяются их корневыми основами, которые могут содержать помимо корня еще и суффикс (суффиксы).

(7) Индексирование текста

Язык индексов используется для описания текстов документов и запросов к системе. Элементами языка индексов являются индексные понятия. Они могут быть извлечены из текста, но могут быть сформированы и независимо. В процессе индексирования могут быть выделеныустойчивые словосочетания, которые также могут служить индексами-понятиями. Эти устойчивые словосочетания могут включать помимо ключевых слов и другие слова текста, которые были исключены в процессе первичной обработки. В процессе индексирования могут быть использованы дополнительные правила, или эмпирики на входящие в язык индексов индексы-понятия. Например, иерархические связи между ними. Одной из таких эмпирик являетсяручное уточнениеранее сформированного языка индексов экспертом. Необходимо заметить (это следует из опыта работы разработчиков систем для автоматического анализа текстов), что эффективны языки индексов, которые получаются из текстов, объем которых не меньше, чем объем стандартного реферата текста [2]. В случае обработки меньших по объему текстов их (тексты) либо надо объединять, либо обрабатывать лингвистическими методами.

(8) Взвешивание слов словаря индексов

Два фактора определяют (9) эффективность использования языка индексов: полнота и специфичность языка индексов. Подполнотойможно понимать количество понятий, извлекаемых из текста при формировании языка индексов. Подспецифичностью– способность точно описать текст. И полнота и специфичность языка индексов влияют, в конечном итоге, на результаты обработки (например, поиска): высокий уровень полноты ухудшает точность поиска и увеличивает полноту поиска. Поэтому, необходимо выбиратьоптимальный уровень полноты индексациидля решения конкретной задачи.

Взвешивание касается отношения этих же понятий – полноты и специфичности языка индексов. Наиболее простой способ взвешивания (см. рис. 2.1) – выявление на частотной гиперболе слов в соответствие с мысленной гауссианой: цент гауссианы приходится на наиболее весомые слова текста.

(10) Другой способ взвешивания связан с частотным распределением слов в коллекции документов(корпусе текстов заданной предметной области). Если мы имеемNтекстов в корпусе, и индекс-понятие встречается вnиз этих текстов, тогда вес этого понятия будет. И информационный поиск будет более эффективным, чем в случае не взвешенных индексов-понятий. В этом случае если специфичность индекса обратно пропорциональна числу текстов, в которых встречается понятие, видно, что при взвешивании увеличивается вес более специфичных понятий.

Оба способа – интер- и интра-взвешивания – можно резюмировать так: (11) частотное взвешивание подчеркивает описание содержания, а специфическое взвешивание – способность понятий разделять тексты. (12) Еще один способ взвешивания –перенормировка в соответствие со структурой текста. Чем с большим числом понятий связано слово, тем имеет больший вес. Совершенно очевидный способ оценки результата индексирования: индексы, хорошо разделяющие тексты – хорошие, индексы, делающие тексты более похожими, - плохие.

Вероятностное индексирование

Вероятностное распределение разных слов в тексте имеет различную природу. Слова, которые отражают смысловую структуру текста, в отличие от других слов, которые имеют распределение такое же, как и в большом корпусе текстов – Пуассоновское , имеют другое распределение. Здесьn – число появлений этого слова w. Этот факт позволяет отличить важные для смысла текста слова. Эти слова позволяют разбить корпус текстов на подмножества текстов, группирующиеся вокруг этих слов. Основная гипотеза такова: важные для смысла текста слова связаны с контекстом текста, таким образом можно механически вычислить смысловую значимость слова, определив отличие его распределения в тексте от Пуассоновского распределения. Причем эти слова имеют Пуассоновское распределение во всех других подмножествах кроме своего подмножества. Тогда функция взвешивания может быть вычислена на основе анализа смешанной Пуассоновской модели для этого слова:

, (2.1)

где - вероятность случайного документа принадлежать к одному из подмножеств, аиколичество появлений слова в каждом классе. Мы можем вычислить степень релевантности к запросу, содержащему упомянутое словоw, документов, принадлежащих одному из классов. Это есть отношение:

. (2.2)

Это отношение есть вероятность того, что некоторый документ принадлежит к классу, в котором слово w появляется раз, содержитk появлений слова w.

(13) Полное или исключающее представление

Есть два способа представления текста языком индексов: полное представление и представление, отличающее текст от других текстов. Обычно предпочтение отдается одному или другому способу представления, в зависимости от задачи. В простейшем случае удаление высокочастотных слов (стоп-слов) используется для улучшения степени разделения классов слов друг от друга. Однакосверхмерное удаление слов может привести к стиранию границ между классами слов.

Подчеркивание различий увеличивает ориентацию на запросы пользователя (в случае решения задачи поиска текстов). (14) Эффективно использование этой границы путем учета множества запросов конкретного пользователя. Сохранение слов, содержащихся в множестве запросов может увеличить релевантность поиска.

Автоматическая классификация ключевых слов

Для увеличения релевантности поиска используют расширение запроса на основе тезауруса. Большинство тезаурусов формируется вручную. Есть два пути формирования тезаурусов. На основе связанности слов, содержащихся в текстах, относящихся к одной теме, в том числе текстов запросов. И на основе связанности слов, относящихся к одному предмету.

Первый способ позволяет включить в тезаурус слова, относящиеся к одному классу текстов. Второй способ позволяет объединить слова семантическими связями, например, расположить их в иерархическом порядке. Этот способ формирования тезаурусов исключительно вручную (с учетом синонимов, более общих, или более специфических отношений). Первый способ позволяет формировать тезаурусы автоматически на основе синтаксиса или статистики текста. Использование синтаксиса дает мало информации, поэтому большинство статистически формируемых тезаурусов строится на основе статистических методов. Они используют частоту совместной встречаемости слов в текстах. В качестве таких слов иногда используют дескрипторы, которыми являются выявленные заранее понятия или ключевые слова.

Имеется два способа использования тезауруса. В первом случае используется замена всех ключевых слов текста на название класса. Во втором – все ключевые слова текста заменяются на все слова, содержащиеся в классе. В первом случае происходит большее число сравнений с дескрипторами запроса и увеличивается полнота поиска. Во втором случае увеличивается точность поиска.

(15) Нормализация

Рассмотрим, как нормализация текста увеличивает общность представления текста. Возможно несколько уровней нормализации. Вначале текст представляется строками слов. На первом этапе мы удаляем слова, которые не несут смысла в предметной области. Далее, ключевые слова разбиваются на классы, а тексты описываются этими классами. Взвешивание также можно считать частью процесса нормализации.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]