Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
bilety.doc
Скачиваний:
11
Добавлен:
25.09.2019
Размер:
492.54 Кб
Скачать

11Квантитативная лингвистика: дешифровка текста, авторизация текста.

Статистическая обработка экспериментальных данных

Совр. л-ка становится все более экспериментальной. Требование корректности применения статистич. процедур заставляется отбрасывать часть материала, искажая структуру объекта. Статистика изучает варьирующийся признак, напр, длину предложения: одно, два, три и т.д. слов в предложении – градации признака «длина». Лингв. признаки могут быть

  • количественные, т.е. сопоставляться с опр. мерой: число морфем в слове, высота основного тона)

  • качественные: напр, актив/пассив залога; ударность(можно задать 3 градации – ударный, безударный, полуударный), можно исследовать т. одну хар-ку – частоту встречаемости градаций этих признаков

  • ветвящиеся – с ними возникает проблема, напр, признак «ритмич. структура слова» - ветвящийся признака, потому что прежде всего это длина слова, а потом – место ударного слога.

Если мы хотим по наблюдениям над выборкой сделать какое-то заключение о генеральной совокупности, то выборка должна достаточно четко представлять генеральную совокупность. В случае количественной выборки, она должна позволять сделать какое-то заключение о генеральных параметрах с заданной точностью. Качественная достоверность выборки устанавливается, если структура выборки повторяет структуру генеральной совокупности. Когда структура известна, точнее известны факторы, влияющие на изучаемый параметр, выборку строят в соответствии с этими распределениями. Если генер. структура выборки неизвестна, то выборку строят по случайному закону, т.е. с пом. любого датчика случайных чисел.

Построение распределения необходимо для выявления его формы, напр. определения типы языка при дешифровке. Генер. совокупность в статистике – множ-во объектов, организованных не просто по изучаемому признаку, а обязательно по однородному признаку.

Дешифровка - это исследование сообщений или текстов для обнаружения информации, представленной способом, не известным исследователю. Объектами лингв. Д. являются тексты на языках каких-л. народов или записи иных знаковых систем: ноты, картографич. док-ты, матем. формулы. Но ни изучение нуклеотидных цепей, ни мед. диагностика, ни работа детектива не являются лингв. Д-кой. Лингв. Д. вкл. в себя исследование историч. письмен и чтение тайнописи (криптограмм). В первом случае непонятность текста исследователю обусловлена разрывом традиции, во 2 – специальными усилиями, предпринятыми автором или шифровальщиком, чтобы сузить круг адресатов. В текстах, записанных шифрами и кодами, основанными на замене элементов текста другими, заранее обусловленными, сохраняются естеств. закономерности построения я.

Шифр имеет в качестве «означаемого», или номинанта, звук или элемент письменности данного языка. Напр, простейшим шифром явл. обозначение каж. буквы алфавита ее порядковым номером. обозначающее в это шифре – двузначное число, номинант – буква рус. алфавита, порядковый номер кот. обозначен этим числом: а-01, б-02…В отличие от шифра код имеет обозначаемое в прямом смысле, т.е. представляет собой условное означаемое для существующего в кодируемом языке значения. Примером может служит «офенский язык», жаргон бродячих торговцев центр. России 19-20 вв: «Обтыривай маз! Дулец-то яманный!» - говорил коробейник своему напарнику и тот понимал: «Обвешивай, приятель! Мужик-то простоват!» Этот код развился как социал. диалект рус.я. Кодированию, замене подверглись только элементы, несущие лекс. значение, а грам. и словообразовательные морфемы остались русские.

Задачи, решаемые криптографией и дешифровкой исторических систем письма, почти противоположны, и методы первой могут весьма ограниченно применяться во второй. В криптографии предполагается, что исходный, незакодированный текст написан на известном языке, причем обычно либо этот язык хорошо известен, либо круг кандидатов на эту роль из числа хорошо известных языков весьма невелик. Цель криптографии состоит в восстановлении исходного текста по зашифрованному тексту, в котором всякого рода статические распределения элементов текста могут очень сильно отличаться от соответствующих распределений элементов в исходном тексте.

При дешифровке исторических систем письма неизвестен язык, на котором написан текст, но сам текст не подвергался специальной обработке, имеющей целью затруднить чтение текста; текст записан в соответствии с нормами орфографии данного языка. В конце 50-х годов специалисты в области дешифровки исторических систем письма стали придавать большое значение машинной обработке изучаемых текстов - "машинная дешифровка". Использование вычислительной техники при дешифровке позволяет осуществить очень громоздкую обработку: Разбивка нерасчлененного текста на блоки, составление прямых и обратных словарей, выявление формальной грамматики. Неизвестный текст вводится в вычислительную машину в цифровой транскрипции, которая составляется вручную.

Основным методом изучения неизвестных текстов считают позиционную статистику. Обычно при дешифровке широко используются такие простые статистические методы, как составление частот знаков алфавита, частотные словари и т. п., т. е. такие приемы, которые дают частотные характеристики знаков, морфем, словоформ в тексте, не связывая частотные характеристики со структурой текста. Под позиционной статистикой текста понимают частотные характеристики, которые связывают единицы текста с некоторой структурой текста, с положением, занимаемым этими единицами в тексте. Такого рода частотные характеристики позволяют выяснить закономерности, имеющиеся между различными элементами текста. Например, на основе частот знаков текста в зависимости от положения можно выявить характерные позиции знака внутри слова (инициальная, медиальная, финальная) и наметить подходы для выявления морфологии. Можно аналогичным образом исследовать сочетаемость морфем между собой, выявить закономерности сочетания слов внутри предложения. Это возможно потому, что текст рассматривается как структура связей, действующих для близких элементов. Для текстов малых объемов позиционная статистика становится единственным способом получения надежной информации о структуре текста.

Согласно методике дешифровки, предложенной Ю.В. Кнорозовым, предполагается, что неизвестный текст записан на некотором, пока для нас неизвестном, но естественном языке, не подвергался специальным преобразованиям типа зашифровки с целью затруднить чтение этого текста. Предполагается, что в тексте существует определенная структура связей, причем для большинства случаев связи в тексте проявляются на небольшом расстоянии и близкие по тексту элементы находятся в некотором соотношении. Поэтому основной метод - позиционная статистика. Описание этапов:Разбиение непрерывного текста (написанного без пробелов) на отдельные блоки, соответствующие в основном словоформа на основе выделения в тексте устойчивые знакосочетаний. Если знаешь направление письма, а его часто подсказывает ориентация знаков, и видишь, что он разделен на блоки, можно ввести своего рода систему координат. Это значит, что позицию каждого блока можно определить по отношению к началу текста, а позицию отдельного знака в блоке - по отношению к началу и концу данного блока.Следующая задача - анализ морфологии слова. В эту задачу входят разбиение каждого блока на отдельные части и классификация их с целью выделения постоянных и переменных частей, соответствующих корневым и служебным морфемам. Важной и необходимой задачей, сходной с предыдущей, является выяснение структуры предложения. На основе полученных данных можно ставить задачу о выявлении классов блоков как по морфологической, так и по синтаксической структуре. Затем, используя и факты сравнительного языкознания, и дополнительные внетекстовые данные (археологических, исторических, филологических и иных сведений), нужно конкретизировать грамматику неизвестного языка и только затем переходить к изучению смысла текста.

При исследовании как структуры словоформы, применяется прием "окружения": для каждого элемента текста указываются группы из n элементов текста, которые "окружают" в тексте слева и справа исследуемый элемент. Такие окружения позволяют выявить связи между исследуемым элементом и другими "близкими к нему" частями текста. Комбинаторный метод вкл. как дешифровку изнутри (анализ комбинаций яз. эл-в), так и дешифровку «извне» (привлечение данных разного хар-ра: место находки надписи, предмет, на кот. она нанесена, сопровождающие изображения, сведения о народе и их соседях)

Атрибуция, то же, что авторизация – установление принадлежности анонимного произведения или в случае мистификации. В широком смысле А. – соотнесение тексту соотв. атрибутов, к кот. причисляются имя создателя, жанр, время и место создания. Текст, авторство кот. подлежит определению наз. анонимным. Если автор ставит свое имя под чужим произведением, говорят о плагиате. Иногда автор выпускает произ-ние под псевдонимом.Проблема установления авторства (атрибуции) анонимных и псевдонимных статей давно перестала быть задачей филологии. В настоящее время решение этой задачи связано со многими как прикладными историко-филологическими дисциплинами, так и с широким кругом естественно-технических наук, таких как статистика и теория вероятностей, теория коммуникаций и др. Естественно, что с развитием вычислительной техники, появилась возможность использовать более эффективные методы для решения этой проблемы, учитывая различные лингвостатистические параметры. Основная цель формально-количественных методов – придать процессу атрибуции более объективный хар-р.

Формально-количественные методы связаны с анализом синт. структур, сочетаний грам. классов, длины предложения, насыщенности словаря. Например, задачей исследования является установление авторства Пряникова некоторых статей или же наоборот, отклонение гипотезы о том, что автором спорных статей является Пряников. Для этого необходимо, во-первых, определить формально-грамматические признаки стиля Пряникова; во-вторых, сравнить установленный инвариант с грамматическими параметрами исследуемых анонимных статей. Методики проведения анализа могут строиться, например, на основе распределения частей речи на первых трех и последних трех позициях предложений. При помощи специальных программ из базы данных произведений для каждой статьи получают частотные таблицы частей речи для указанных позиций предложения. Однако прежде чем использовать те или иные формальные характеристики для атрибуции текста, необходимо выявить подсознательные особенности языка автора, т. е. элементы авторской манеры, присутствующие непременно в его любом тексте. Причем желательно найти такие характеристики, которые можно выделить у любого автора, но значения этих характеристик отличались бы у разных авторов. Также следует определить инварианты для всех текстов конкретного жанра, независимо от авторства.

Области применения:В последнее время задача установления авторства текста приобретает все большее значение и для криминалистики. Типичная задача - идентификация автора анонимного текста по его языковым параметрам (определение авторства различных анонимных писем, содержащих угрозы, шантаж).

Лингвистическая экспертиза важна при решении споров, связанных с политическими проблемами. Анонимная или псевдоанонимная информация все чаще распространяется во время предвыборных кампаний с целью дискредитации конкурентов. В связи с развитием электронных сетей и увеличением информации, распространяемой с их помощью, обостряется проблема соблюдения авторских прав.

В юридической психолингвистике сложилось направление, связанное с лингвистическими методами идентификации личности по анонимному тексту. Общий метод заключается в том, чтобы на основе исследования формальных (лингвистических, текстовых) и неформальных (содержательных, смысловых) характеристик текста определить отдельные психологические черты человека, если возможно, то его полный психологический портрет. Конкр. разработки:

К настоящему времени существует программный комплекс «Атрибуция» для лингвистического анализа, позволяющий в диалоговом режиме проводить грамматический и синтаксический разборы литературных текстов, используя многочисленные лингвистические характеристики, например, такие как часть речи, падеж, род, число, тип предложения и т.д. Программный комплекс состоит из двух частей: модуль «Грамматический анализ» и модуль «Синтаксический анализ». Они позволяют формализовать 69 лингвистических параметров. Принципы работы обоих модулей одинаковы: входной информацией является литературный текст в электронном виде. Каждый модуль первоначально выделяет целое предложение, а затем позволяет работать с каждым словом предложения, предлагая в простых ситуациях (например, союзы) свой вариант значений, но решающим правом на принятие решения обладает пользователь, который, несомненно, должен являться специалистом-филологом. На выходе получается структурированный в виде таблицы, файл с полным синтаксическим или грамматическим разбором. Модуль «Грамматический анализ» ориентирован на выделение таких лингвистических параметров как, например: часть речи, падеж, число, род и т.п. Общее число параметров равно 46.

В модуле «Синтаксический анализ» анализируется структура и грамматическое значение синтаксических единиц и определяется тип конструкции. Список параметров содержит: Тип предложения (повествовательное, восклицательное, вопросительное), Часть речи для подлежащего, Количество членов для сказуемого

При помощи этого программного комплекса обработана 31 статья Ф.М. Достоевского.

5Представление знаний в системах искусственного интеллекта

Комп. Л как особая прикл. дисциплина выделяется по инструменту — по исп-нию комп. ср-тв обработки яз. данных. Общего метаяз. нет — комп. проги, крые моделируют т/иные аспекты ф-ния яз., и. исп-ть самые разные ср-ва программирования. Э-ют ощие принципы комп. моделирования мышления, крые так/иначе реализ-ся в люб. комп. модели.

В основе — т. знаний, разраб-ная в ИИ; явл. важным разделом когнит. науки.

Гл. тезис: мышление — процесс обработки и порождения знаний. При этом «знание» — неопределяемая кат. «Процессор» — когнит. система чка.

В когнит. науке — 2 вида знаний: деклар. («знание что?») и процед. («знание как?»)

Деклар. знания. Совок-ть утверждений. Прим: толкование слов в толк. словаре. Поддаются верификации в терминах «истина - ложь».

Процед. знания. Список действий. Прим: иснтрукции по исп-нию быт. приборов. Нельзя верифицировать. Можно оценить по успешности – неуспешности алгоритма.

Деклар. знания м. представить как процедурные. Прим: инструкция по изготовлению стола — креативный аспетр процед. знания. Прим: алгоритм исп-ния стола — ф-ный аспект процед. знания. Но процед. представление деклар. знаний неэкономно.

Деклар. знание более эксплицитно, легче осознается чком. Процед. — эксплицитно. Прим: яз. спос-ность (процед. знание) скрыта от чка. =>не всякое процед. знание м. представить как деклар. (Как можно описать процесс ходьбы?) Экспликация имплиц. процед. знания часто приводит к его разрушению.

Структуры знаний

Фрейм. (М. Минский): стр-ра данных, предназначенная для представления стереотип. ситуации. Концепт. стр-ра для деклар. представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные м/у собой опред. семант. отношениями.

Ф. представляют в виде таблицы, строки крой образуют слоты. Или в виде кортежа: {<имя фрейма> <имя слота1> <значение слота1>,…,<имя слотаn> <значение слотаn>}

Ф. — часть когнит. системы чка = гештальт, протопит, стереотип, схема. В системах ИИ ф. образуют сложные стр-ры знаний, м. б. иерархичными.

По содержанию ф. близок кат. толкования. Слот — аналог валентности, заполнение слота — аналог актанта.

Сценарий. Концепт. стр-ра для представления процед. знания о стереотип. ситуации или стереотип. поведении. Прим: сценарий посещения ресторана, сценарий покупки… Сценарные (процед.) знания тесно связаны с опред. культурой, нежели деклар. Потому что описывает поведение, крое б. социологизировано, чем представление об абстр. кат. типа движения, времени, пространства…

Сц. м. представить не только в виде алноритма, но и в виде сети: вершины — нек. ситуации, дуги — связи м/у ситуациями.

Нек. иссл-ли исп-ют понятие скрипта — общепринятая посл-ть причинных связей.

План. Применение сценария к конкр. проблемной ситуации. План исп-ся для процед. представления знаний о возм. действиях, ведущих к достижению опред. цели. План соотносит цель с посл-тью действий. Связан с конкр. ситуацией, конкр. исп-лем и преследует достижение опред. цели. Выполнимость плана — обязат. условие его порождения в когнит. системе. К сценарию хар-ка выполнимости неприложима.

Модель мира. Совок-ть опред. образом организованных знаний о мире, св-ных когнит. системе или ее комп. модели. Связывается в пониманием текста или дискурса. Мент. модель, края строится в процессе понимания текста. В системах ИИ модель мира — особ. блок, в крый входят общие знания о мире, нек. специф. факты, ценности и иерархии. В модели диалога происходит многоэтапная рефлексия моделей мира участников ситуации общения. В различных формализмах — разл. стр-ра модели мира: предикатная, сетевая, фреймовая…

Сцена. Концепт. стр-ра для деклар. представления актуализ. в реч. акте и выделенных яз. ср-вами ситуаций. В ИИ сцены — в системах распознавания образов, в прогах, ориентированных на иссл-ние проблемных ситуаций.Модели представления знаний.

Логич. модель. В основе — форм. система. М = <Т, Р, А, В> где Т — мн-во базовых эл-тов разл. природы (слов из нек. ограниченного словаря); Р — мн-во синт. правил. С их пом. из Т. образ-ся синт-ки правильные совок-ти; А — аксиомы; В — правила вывода. Применяя их к А, м. получать новые синт. правильные совок-ти, к крым снова м. применить правила В. Так формируется мн-во выводимых совок-тей.

Сетевые модели. Формально — в виде Н = <I, C1, … Cn, Г>, где I — мн-во инф. единиц; C1… Cn — мн-во типов связи м/у I; Г — задает м/у I связи из заданного набора (из С). В завис-ти от типов связи различают: 1) классиф. сети, 2) ф-ные сети (вычислит. модели), 3) сценарии.

  1. — отношения структуризации. Позволяет вводить иерарх. отношения.

2) наличие ф-ных отношений

3) каузальные отношения «ср-во — рез-т».

4) когда отношения разных типов — семант. сети.

Продукционная модель. Эл-ты логич. и сет. моделей.Из логич. — правила вывода (продукции), из сетевых — описание знаний в виде сем. сети.

Ленема. Предназначена для структ. – комплексного описания понятий предметной области. В яз. программирования выводят 3 типа Л.: для описания ф-ий, для описания отношений, для описания классов объектов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]