Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4 Анализ документа

.pdf
Скачиваний:
7
Добавлен:
28.03.2016
Размер:
394.58 Кб
Скачать

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 966

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

Вероятностно-статистическая модель анализа текста правового документа

Мячина Е.В. ( mvad@tula.net )

Российская академия государственной службы при Президенте РФ

Несмотря на богатую историю и научный опыт, проблемы порождения, восприятия

илингвистического анализа текста (не обязательно нормативного) не решены окончательно. Их направленность изменяется в онтогенезе научного знания и привлекает внимание различных специалистов: лингвистов, психологов, социологов и т.д. В частности, социаль- но-психологический подход к анализу текстов сложился в результате исследований их социального значения в процессах коммуникации, протекающих в общественной жизни. Психолингвистический – рассматривает механизмы грамматического следования лексических единиц в тексте. Основу последнего составляют исследования психологии и психолингвистики, использующие, по крайней мере, две принципиально различные модели порождения и анализа текста – стохастическую модель языка с конечным числом состояний

итрансформационную модель. Но, как отмечает А.А. Леонтьев, ни одна из моделей не доказала своего превосходства. Все существующие опыты лишь указывают, что и данная модель верна, но не доказывают, что только она верна. [1]

Алгоритмические реализации психолингвистического подхода нашли воплощение в различных программно-технических методах. В автоматизированных системах различной целевой направленности успешно работают алгоритмы реализации контекстно-свободных грамматик [2]. Имеют место менее «лингвистичные», но более эффективные в плане практической реализации методы распознавания образов [3]. Весьма оригинальными являются появившиеся в последнее время метод генетических алгоритмов [4,5] и метод автоматического анализа текста на основе ассоциативной семантической сети [6].

Вцелом же можно отметить, что формально-грамматические методы, направленные на воссоздание сложных правил русского языка постепенно вытесняются методами, в той или иной форме использующими вероятностные оценки. Алгоритмы, рассчитанные на сбор и обработку статистики встречаемости различных синтаксических структур в тексте,

внастоящее время считается наиболее практичным в задачах автоматической классификации и интеллектуального поиска в полнотекстовых базах данных, поскольку не требуют привлечения высококвалифицированных специалистов в области лингвистики. Именно такой подход лежит в основе предлагаемой ниже модели анализа нормативного документа, используемой в автоматизированной системе, обеспечивающей качество регионального законотворчества [7].

Формальное описание модели

В свете современных тенденций в психолингвистике пересмотрено понятие «восприятие текста». Теперь оно связано с так называемой «психологией образа» и имеет ряд особенностей.

Первой особенностью нового взгляда на проблему восприятия текста является предметность любого восприятия. Психологами экспериментально доказано, что при чтении воспринимаются не отдельные свойства предметов, описанные лексическими единицами, синтезируемые в образ, а затем относимые к тому или иному предмету, а сам образ предмета как часть предметного мира. Образа предмета нет вне образа других предметов, вне целостности нашего представления о мире.

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 967

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

Второй особенностью является изменяющийся характер образа, обусловленный образом изменяющегося мира. Статичность образа временна и диктуется конкретной задачей на момент чтения, а динамичность постоянна, независима от задачи восприятия текста, хотя пути осуществления этой динамики могут быть различны.

Итретьей особенностью является то, что в образе отображены не внешние признаки предметов, а их значение. Иными словами, образы предметов несут в себе их значения, закрепленные в языковых формах, но не с прагматической точки зрения, а с точки зрения социальной природы [8, 9].

Применительно к анализу текста правового документа, в частности, законопроекта эти положения психолингвистики выглядят следующим образом.

Предметность восприятия текста означает воссоздание образа предмета правового регулирования в сознании субъекта коммуникативной деятельности. Этот образ формируется как часть предметной области права, занимающей ту нишу правового пространства, которая требует юридической регламентации. Ее границы определяются предметами ведения Российской Федерации и ее субъектов и предметами совместного ведения. Они со-

ставляют основу механизма установления предметного соответствия рассматриваемого законопроекта другим источникам законодательства как части юридической экспертизы правового акта.

Динамический характер образа правового регулирования обусловлен теми явления-

ми социальной жизни, которые имели место до подготовки законопроекта, и будут иметь место после реализации его основных положений. Они выражены в накопленном правовом опыте и представлены правовыми актами. Анализ законности документа направлен на воссоздание динамики формирования этого правового образа и прогнозирование даль-

нейших изменений, поскольку развитие общества обязательно приведет к изменению восприятия данного документа и отношения к выраженным в нем положениям.

Ипоследнее. Те социально значимые признаки, которые позволяют идентифициро-

вать предметный образ, закреплены в правовых штампах и клише, правилах и приемах законодательного стиля. Определение их выразительности составляет суть лингвистиче-

ской экспертизы.

Образное восприятие текста нормативного документа субъектом правовой деятельности можно описать следующим образом (см. рис.1). В результате перцептивного анализа, который носит избирательный эвристический характер, происходит опознание и удержание в оперативной (кратковременной) памяти образов отдельных лингвистических единиц. Далее происходит одновременный (параллельный) процесс выделения в содержании образа-слова значимых для предметной области и ситуации семантических компонентов

ωk и синтеза, имеющего также эвристический характер, этих компонентов в некие обобщенные предметные образы n, которые затем формируют глобальный образ содержания текста Tj, являющийся элементом образа предметной области [1].

Электронный журнал «ИССЛЕДОВАНО В РОССИИ»

968

 

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ОБРАЗ ПРЕДМЕТНОЙОБЛАСТИ

 

 

 

 

 

 

 

 

 

СУБЪЕКТА ПРАВООЙДЕЯТЕЛЬНОСТИ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T2

 

 

 

 

 

TJ – ОБРАЗТЕКСТА

 

 

 

 

 

 

 

 

 

 

 

В СОЗНАНИИ СУБЪЕКТА

 

 

 

 

 

T1

 

 

 

 

Tj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

Tl

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n – ОБРАЗ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ТЕМООБРАЗУЮЩЕГО

n

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

КОНТЕКСТА

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ωi – ОБРАЗЫ ЗНАЧИМЫХ ЯЗЫКОВЫХЕДИНИЦ

 

 

ТЕКСТА

ω1

ωi

ωk

ОБРАЗЫ ЛЕКСИЧЕСКИХ ЕДИНИЦТЕКСТА

Рис.1 Образное восприятие текста правового документа

Экспериментально установленный эвристический характер восприятия текста определяет необходимость использования аппарата теории вероятностей для формального описания модели. При этом ее основной задачей является формирование наиболее вероятного для документа тематического образа d : P(d ,Td ) = max P .

Определим основные понятия, используемые при описании. Тематическим образом документа (образом текста в сознании субъекта правовой деятельности) будем считать структурно упорядоченный набор темообразующих понятий, выражающий целевое назначение текста в терминах предметной области.

Под темообразующим понятием (значимой лексической единицей) понимается слово, часть слова или словосочетание, состоящее из двух и более терминов предметной области, включенных в словарь автоматизированной системы. Будем также считать, что темообразующий контекст – это законченный смысловой фрагмент текста документа, порождающий не более одной темы. В свою очередь, документ представлен терминологическим портретом, исключающим стоп-слова (предлоги, союзы и т.д.), появление которых обусловлено не учитываемой моделью грамматикой языка.

Определим вероятность формирования тематического образа документа P(d ,Td ) .

Пусть документ D состоит из N тематических контекстов dn, n={1, ..., N}, представленных тематическими образами:

n (t) ={ωi (t)},

(1)

 

если ωi dn ;

1,

где ωi (t) =

 

 

если ωi dn

0,

t={1, ...,T} – индекс темы;

i={1, ..., It} – номер темообразующего понятия.

Тогда каждый контекст dn образован In количеством темообразующих понятий. При фиксированном значении темы t , в пределах одного контекста значения ωi ( t ) являются

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 969

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

независимыми в совокупности, поэтому вероятность формирования тематического образа контекста dn определяется выражением:

P(n ,tn ) = ∏ p(ωi ) .

t=const

i

n=const

 

(2)

Тематический образ n контекста dn достоверно не известен. Его появление обу-

словлено наличием и содержанием предыдущего тематического образа, находящегося с ним в ассоциативной связи. Тогда вероятность его появления вычисляется по формуле условной вероятности:

P(n ,tn n1 ,tn1 ) = p(n ,tn ;n1,tn1 ) p( n ,tn )

(3)

при условии, что p(n ,tn ) > 0 , где

p(n ,tn ;n1 ,tn1 ) – вероятность совместной встречаемости двух тематических об-

разов;

p(n ,tn ) – вероятность формирования тематического образа контекста.

Если же допустить, что p(n ,tn ) = 0 , тогда вероятность совместной встречаемости двух тематических образов p(n ,tn ;n1 ,tn1 ) тоже равна 0, следовательно, тематические

образы взаимно независимы, что противоречит исходному условию.

Из формулы (3) и предположения, что тематические образы связаны ассоциативной связью, вероятность появления любого тематического образа в одном контексте dn определяется по формуле Байеса [10]:

P(j ,t j ) = P(j ,t j

 

n ,tn ) =

P(j ,t j ;n ,tn )

=

P(j ,t j ) P(n ,tn

j ,t j )

 

 

 

 

 

 

 

P(n ,tn )

P(j ,t j ) P(n ,tn

 

j ,t j )

 

 

n=const

 

 

(4)

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

где j {1, ...,T}

 

 

 

 

 

 

при условии: t P((t)) > 0

и P(n ) > 0 .

 

 

 

 

 

Тогда, появление любого тематического образа документа на упорядоченном множестве темообразующих контекстов ( D = ∑dn ) зависит от вероятности формирования

n

всех входящих в документ тематических образов и определяется:

n и t , P(n ,tn ) = P(n ,tn 1 ,t1;2 ,t2 ;K;n1 ,tn1 ) ,

(5)

где P(n ,tn 1 ,t1;2 ,t2 ;K;n1 ,tn1 ) – условная вероятность появления тематического образа документа.

При этом, тематический образ tn, имеющий максимальную вероятность появления P(n ,tn ) на множестве темообразующих контекстов будет считаться наиболее вероятным

для документа D.

На основании формального описания модели (5) и, из уравнения Колмогорова–Чеп- мена [11], определяющего свойства случайного процесса, вероятность формирования тематического образа документа определяется как условная:

P(n ,tn ) = P(n ,tn n1 ,tn1 ) = ∑ p(n+1 ,tn+1 n ,tn ) p(n ,tn n1 ,tn1 )

n

(6)

при истинности следующих выражений:

1. P(n ,tn ) > 0 – тематический образ сформирован;

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 970 http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

2.

p(n ,tn ) =1

– сумма вероятностей формирования тематических контекстов в до-

 

n

 

 

 

 

 

кументе равна 1;

 

 

 

 

 

если n n

+1;

 

3.

Pn,n+1

0,

– вероятность порождения одного и того же тематиче-

(t,t) =

 

 

 

 

 

если n = n;

 

 

 

 

1,

 

 

ского образа от следующих друг за другом контекстов равна нулю, и равна единице в рамках одного контекста.

Выражение (6) с учетом (3) определяется собственной вероятностью формирования тематического образа контекста p(,t) и силой ассоциативных связей между тематиче-

скими образами p(n ,tn n1 ,tn1 ) . Здесь вероятность перехода есть не что иное, как ус-

ловная вероятность возникновения n-го тематического образа при наличии предыдущего (за один шаг).

Параметры модели

Определим параметры модели, которые позволят сформировать тематический образ правового документа. Но прежде, отметим особенности текста закона, на примере которого рассмотрим одно из возможных применений модели.

При анализе законов и других нормативных документов необходимо учитывать требования правовой лингвистики. Например, правильнее было бы вычислять условную вероятность p(i j) с учетом возможно встретившегося не наблюдаемого, но «подразумеваемо-

го» автором некоторого понятия q по формуле p(i q) p(q j) . Однако, правила правовой

лингвистики требуют использования таких лингвистических конструкций, которые бы обеспечивали однозначное толкование текста. Поэтому в предложенной модели принято следующее ограничение: в темообразующих контекстах нормативного документа не учитываются ассоциативные связи, выраженные неявно.

Еще одной особенностью текста закона является его структура. Закон состоит из отдельной статьи, указывающей на цели, содержательной части и дополнительных – преамбулы и дефинитивной статьи, посвященной описанию используемой в документе терминологии. Понятно, что наличие дефинитивной статьи оправдано в случае высокой специфичности используемой лексики, но не оказывает влияния на формирование тематического образа документа. Для тематического анализа и информативно-целевой интерпретации содержания важно функциональное назначение каждого раздела текста, включая заголовки статей. Следовательно, параметры модели должны содержать коэффициент тематической силы контекста rn.

Дополнительно введем следующие обозначения. Пусть ω′ – количество темообразующих понятий документа, относящихся к T количеству тем, которые, в свою очередь, представляют L – отраслей законодательства. И пусть ωtl означает число темообразующих

понятий; ∑∑ωtl =ω, t={1, ..., T}; l={1, ..., L};

l t

Семантический вес темообразующего понятия ωtl в контексте документа определяет

коэффициент тематической силы контекста rn:

qtl = rn ωtl , где

n {1, 2, 3} – номер контекста, соответствующий целевой статье, заголовку содержательной статьи или содержательной статье.

Пороговым значением, определяющим принадлежность отрасли законодательства предметной составляющей тематического образа, будем считать величину σпор:

 

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 971

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

 

σпор

 

L T

 

 

=

∑∑(qtl −Ω)2 p(qtl ) , где

 

 

 

 

l=1t=1

 

(7)

 

 

 

 

L T

p(qtl ) – среднее значение ωtl ;

 

Ω = ∑∑qtl

 

 

l=1t=1

 

 

 

p(ωtl ) = ωqtl– собственная вероятность формирования тематического образа на множест-

ве темообразующих понятий документа.

Из выражения (7) следует, что параметрами модели являются: t – номер темы, l – номер отрасли законодательства; ωtl – частота встречаемости темообразующего понятия в тексте, rn – коэффициент тематической силы контекста.

Классификация закона по отраслям законодательства

Одно из возможных применений предложенной модели – автоматическая классификация закона по отраслям законодательства, рекомендованным Указом Президента РФ

[12].

В этом случае процесс анализа, отражающий первую особенность предлагаемой модели, связан с выделением в содержании образа-слова или понятия значимых для предметной области и ситуации, семантических компонентов ωk (понятий) и синтеза их в некую обобщенную предметную составляющую, состоящую из одного или нескольких независимых, логически объединенных, тематических компонентов. Здесь частотные характеристики встречаемости темообразующих понятий являются в совокупности независимыми случайными величинами, такими, что pi (ωtl ) =1. Согласно теории вероятностей, мерой от-

i

клонения случайной величины от центра распределения спектра темообразующих понятий является ее среднеквадратичное отклонение. Оно и определяет принадлежность отрасли законодательства предметной составляющей тематического образа документа.

На примере текста закона Тульской области «О начальном профессиональном образовании» № 233-ЗТО от 15 февраля 2001 г. (Текст) покажем выполнение автоматизированной системой поддержки законотворческой деятельности [7] процедуры предметного анализа и классификации, по отраслям законодательства. Классификатор правовых актов, в этом случае, исполняет роль интерпретатора предмета правового регулирования. Он имеет трехуровневую иерархическую структуру – <l, N>, где l ={Kl, Kt, Ktc} – код записи классификатора, Kl – код отрасли законодательства, Kt – код темы, Ktc – код тематической составляющей, N – обозначение отрасли.

Первым этапом формирования предметной составляющей тематического образа документа является формирование вектора-описания (дескриптора) документа: D(t) = {t, q(t), p(t)}, где t={1, ..., T} – номер темы в анализируемом документе, соответствующий классификатору отраслей законодательства [12];

I

q(t) = ∑rn ωi (t) – семантический вес темообразующих понятий документа, определяемый

i=1

коэффициентом тематической силы контекста rn и частотой встречаемости понятия ωi ( t ),

где i={1, , I} – количество темообразующих понятий, относящихся к одной теме;

p(t) = q(t)ω– собственная вероятность формирования тематического образа на множестве темообразующих понятий документа;

иопределение порога значимости по формуле (7).

Втаблице 1 представлен вектор описания текста. Последовательность формирования тематических образов на этом этапе не оказывает влияния на результат, поэтому для

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 972

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

удобства пояснения данные таблиц упорядочены по значениям p(t) и t. Для текста получено значение σпор=21,659.

 

 

 

Вектор тематического описания Текста

Таблица 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

130.010.040

130.010.030

130.010.020

130.010.000

130.030.020

080.060.000

 

 

 

q(t)

57

32

22

2

1

7

 

 

 

p(t)

0,3373

0,1893

0,1302

0,01183

0,0059

0,0414

 

 

 

t

080.010.000

080.080.010

080.070.000

080.080.020

080.000.000

080.100.060

 

 

 

q(t)

5

3

2

1

1

1

 

 

 

p(t)

0,0296

0,0178

0,0118

0,0059

0,0059

0,0059

 

 

 

t

070.080.010

070.010.000

090.000.000

020.030.020

020.010.050

010.140.030

 

 

 

q(t)

11

1

6

4

3

4

 

 

 

p(t)

0.0651

0,0059

0,0355

0,0237

0,0178

0,0237

 

 

 

t

010.140.030

010.150.010

010.110.000

030.090.080

030.120.120

 

 

 

 

q(t)

4

2

1

2

1

 

 

 

 

p(t)

0,0237

0,01183

0,0059

0,01183

0,0059

 

 

 

Следующим шагом является группировка составляющих q(t) по семантическим компонентам полного тематического образа. При этом учитываются следующие правила.

1.Тематическая составляющая является значимой компонентой тематического образа документа, если ее семантический вес превышает или равен суммарному семантическому

весу всех прочих составляющих данной отрасли (например, для t = «130.010.040», q(t1)

5

= 57, что равно q(ti ) для всех остальных t = «130.ХХХ.ХХХ»).

i=2

2. Тема отрасли считается значимой компонентой, если ее семантический вес превышает или равен суммарному семантическому весу каждой тематической составляющей отрасли (например, для t = «080.060.000», q(t) = 7, что больше чем суммарный вес для t = «080.010.000», равный 5, и для t = «080.070.000», равный 2).

3. Отрасль законодательства считается значимой компонентой, если ее семантический вес превышает или равен суммарному семантическому весу каждой составляющей отрасли или не выполняются условия 1 и 2.

Сформированный таким образом обобщенный тематический образ представлен в таблице 2. Далее вычисляется среднеквадратичное отклонение (7) для каждой темообразующей компоненты (значения σ(l) таблицы 2).

Решающим правилом для классификации регионального закона является следующее. Компоненты тематического образа документа определяют предмет правового регулирования в том случае, если мера их рассеяния по тексту не меньше среднеквадратичного отклонения от центра распределения спектра темообразующих понятий: σ(l) σпор .

На основании этого правила для текста, взятого в качестве примера, предмет правового регулирования представляют следующие разделы классификатора (табл.2): «Образовательные учреждения и иные образовательные организации», «Бюджеты субъектов Российской Федерации».

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 973 http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

 

 

«Тематический образ» Текста

Таблица 2

 

 

 

 

 

 

 

 

 

l

 

N(l)

σ(l)

 

130.010.040

Образовательные учреждения и иные образовательные организации

26,543

 

080.060.000

Бюджеты субъектов Российской Федерации

21,927

 

070.080.010

Социальное обслуживание. Общие положения

17,815

 

020.030.020

Государственные программы. Концепции

14,955

 

090.000.000

Хозяйственная деятельность

14,955

 

030.090.080

Право собственности и другие вещные права на землю и

14,097

 

 

иные природные ресурсы

 

 

010.140.030

Порядок опубликования и вступления в силу нормативных право-

10,353

 

 

вых актов

 

 

 

 

σпор =

21,659

Для сравнения результатов в таблице 3 представлены сведения о том, каким образом данный закон классифицирован в правовых информационных системах, функционирующих на территории Тульской области и содержащих региональное законодательство.

Таблица 3

Классификация по отраслям законодательства закона «О начальном профессиональном образовании» №233-ЗТО от 27.02.2001 г.

 

 

 

 

Наименование

 

 

правовой

Тематика

 

системы

 

 

Банк правовых

130.010.040.060 Учреждения начального профессионального образования

 

актов НТЦ

 

 

«Система»

 

 

«Эталон»

190.000.000.000.000.000 Законодательство об образовании

 

 

190.030.000.000.000.000 Образовательные учреждения

 

 

190.030.050.000.000.000 Учреждения начального профессионального

 

 

образования

 

 

190.010.000.000.000.000 Общие вопросы образования

 

 

090.000.000.000.000.000 Законодательство о финансах и кредите

 

 

090.040.000.000.000.000 Государственные расходы РФ, субъектов РФ и

 

 

расходы местных бюджетов

 

 

090.040.050.000.000.000 Финансирование социальной сферы

 

 

090.020.000.000.000.000 Основы бюджетного устройства и бюджетного процесса

 

 

090.020.020.000.000.000 Бюджеты субъектов РФ

 

 

090.020.030.000.000.000 Местный бюджет

 

 

090.020.040.000.000.000 Иные виды бюджетов

 

«Консультант

«Законодательство о научной деятельности и образовании»

 

Плюс»

 

Формирование поискового запроса, содержательно ориентированного относительно законопроекта

Еще одно применение предложенной модели – автоматическое формирование поискового запроса для правовой информационно-справочной системы. Такой запрос обеспечивает подбор электронных копий документов по содержательному критерию и предназначен для содержательной экспертизы правового акта – установления соответствия его

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 974

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

концепции уже существующим механизмам правового регулирования. Здесь отражена вторая особенность модели – динамический характер правового образа.

Если рассматривать нормативный документ как прообраз деятельности, то иерархия мотивов и задач деятельности сводится в тексте к иерархической смысловой структуре, выраженной через тематические образы контекстов. Иерархическую смысловую структуру, состоящую из тематических образов контекстов и построенную относительно «точки отсчета», определяющей целевое назначение документа, будем логико-фактологической структурой.

В процессе чтения документа в сознании субъекта формируется набор взаимозависимых тематических образов различной ассоциативной силы. Он может быть представлен в виде матрицы переходов от одного тематического образа к другому, элементами которой являются вероятности переходов:

p

K p

 

 

 

11

1n

 

, и pij =1, где i = 1, 2,

, n, j = 1, 2, , n.

P = K

K K

 

 

 

 

 

 

pn1

K pnn

 

 

(8)

Каждый вектор матрицы P определяет одну, предложенную к решению проблему, задачу или подзадачу. При этом вектор-строка указывает на «родительские» отношения логико-фактологической структуры, а вектор-столбец – на «дочерние».

В общем же случае матрица переходов описывает n-мерное векторное пространство U, координатным базисом которого t1, t2, , tn являются тематические образы контекстов документа (рис.2а). В нем каждый вектор x описывает способ решения проблемы, представленной тематическим образом ti при условиях, выраженных тематическими образами t1, t2, , tk, где k N. Он может быть описан через координаты ξ1, ξ2, , ξn , относительно системы ti:

 

 

n

 

 

 

x =ξ1t1 +ξ2t2 +K+ξntn = ξiti

 

 

 

(9)

 

i=1

 

 

 

 

 

 

 

 

 

 

tc

 

 

 

 

xn

 

 

tj

 

tn-1

x2

x1

 

[Xj]

 

 

 

tk+1

 

tk+1

 

 

 

tk

tn-1

tn

tk

 

 

 

tn-2

 

 

 

 

 

 

U

 

t1 t2

U

t1

[Xk]

 

 

 

t2

 

 

 

 

 

 

а)

 

 

б)

 

Рис.2 Содержательная структура текста как прообраз деятельности

 

а) – метрическое представление;

б) – пространственное представление целевого вектора j]

Реконструируя «деятельностную» сущность нормативного документа, можно сказать, что решение любой из описанных в документе проблем (Ti) представляется некото-

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 975

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

рым целевым вектором j] и связано с решением части других. Факт зависимости от каждой ti определяется значением координаты ξ (рис.2б).

Заменив обозначения метрического представления вероятностными, имеем: Pij ξi –вероятность перехода от i –го тематического образа к j-му;

P(max ,tc i , ti ) – tj – условная вероятность появления целевого тематического об-

раза max при наличии j -го;

PRj() xj вероятность совместной встречаемости целевого и j-го тематического образа.

PR1 (1 ) P11PR2 (2 ) = P21

M M

PRn ( n ) Pn1

(10)

P12

P22

Pn2

KP1n

KP2n

Pnn

P(maxP(maxMP(max

,tc 1 ,t1 )

,tc 2 ,t2 )

,tc n ,tn )

В применении к процессу анализа текста нормативного документа выражение (10) можно интерпретировать следующим образом (рис.3). Деятельность, направленная на реализацию цели правового регулирования, представленной тематическим образом с максимальной вероятностью P(max,tc), может быть описана целевым вектором PR в координатном базисе ее мотивов и задач, выраженных в документе опорными смысловыми узлами tn.

max

PRn

n

PR1

2

[PR] 1

Рис.3 Иерархическая смысловая структура текста – вероятностное представление целевого вектора

Таким образом, вектор PR , полученный для тематической компоненты, имеющей наибольшую вероятность появления в тексте, описывает элементы логикофактологической структуры в вероятностных значениях.

В выражении (10) каждая вектор-строка соответствует выражению (3) формального описания модели и означает вероятность совместного возникновения двух тематических образов. Тогда по правилу совмещения случайных событий:

 

 

 

 

 

 

 

 

 

 

 

 

q(t

)

q(t

max

)

P

(

) = P(t

;t

 

) = P(t

 

It

 

) = P(t

) P(t

 

) =

i

 

 

 

 

 

, где

 

 

 

 

ω

 

ω

 

Ri

i

i

 

max

 

i

 

max

i

 

max

 

 

 

 

 

 

I

q(t) = ∑rn ωi (t) – семантический вес темообразующих понятий t темы документа,

i=1

определяемый коэффициентом тематической силы контекста rn и частотой встречаемости понятия ωi (t) , где i={1, , I} – количество темообразующих понятий.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]