4 Анализ документа
.pdfЭлектронный журнал «ИССЛЕДОВАНО В РОССИИ» 966 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
Вероятностно-статистическая модель анализа текста правового документа
Мячина Е.В. ( mvad@tula.net )
Российская академия государственной службы при Президенте РФ
Несмотря на богатую историю и научный опыт, проблемы порождения, восприятия
илингвистического анализа текста (не обязательно нормативного) не решены окончательно. Их направленность изменяется в онтогенезе научного знания и привлекает внимание различных специалистов: лингвистов, психологов, социологов и т.д. В частности, социаль- но-психологический подход к анализу текстов сложился в результате исследований их социального значения в процессах коммуникации, протекающих в общественной жизни. Психолингвистический – рассматривает механизмы грамматического следования лексических единиц в тексте. Основу последнего составляют исследования психологии и психолингвистики, использующие, по крайней мере, две принципиально различные модели порождения и анализа текста – стохастическую модель языка с конечным числом состояний
итрансформационную модель. Но, как отмечает А.А. Леонтьев, ни одна из моделей не доказала своего превосходства. Все существующие опыты лишь указывают, что и данная модель верна, но не доказывают, что только она верна. [1]
Алгоритмические реализации психолингвистического подхода нашли воплощение в различных программно-технических методах. В автоматизированных системах различной целевой направленности успешно работают алгоритмы реализации контекстно-свободных грамматик [2]. Имеют место менее «лингвистичные», но более эффективные в плане практической реализации методы распознавания образов [3]. Весьма оригинальными являются появившиеся в последнее время метод генетических алгоритмов [4,5] и метод автоматического анализа текста на основе ассоциативной семантической сети [6].
Вцелом же можно отметить, что формально-грамматические методы, направленные на воссоздание сложных правил русского языка постепенно вытесняются методами, в той или иной форме использующими вероятностные оценки. Алгоритмы, рассчитанные на сбор и обработку статистики встречаемости различных синтаксических структур в тексте,
внастоящее время считается наиболее практичным в задачах автоматической классификации и интеллектуального поиска в полнотекстовых базах данных, поскольку не требуют привлечения высококвалифицированных специалистов в области лингвистики. Именно такой подход лежит в основе предлагаемой ниже модели анализа нормативного документа, используемой в автоматизированной системе, обеспечивающей качество регионального законотворчества [7].
Формальное описание модели
В свете современных тенденций в психолингвистике пересмотрено понятие «восприятие текста». Теперь оно связано с так называемой «психологией образа» и имеет ряд особенностей.
Первой особенностью нового взгляда на проблему восприятия текста является предметность любого восприятия. Психологами экспериментально доказано, что при чтении воспринимаются не отдельные свойства предметов, описанные лексическими единицами, синтезируемые в образ, а затем относимые к тому или иному предмету, а сам образ предмета как часть предметного мира. Образа предмета нет вне образа других предметов, вне целостности нашего представления о мире.
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 967 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
Второй особенностью является изменяющийся характер образа, обусловленный образом изменяющегося мира. Статичность образа временна и диктуется конкретной задачей на момент чтения, а динамичность постоянна, независима от задачи восприятия текста, хотя пути осуществления этой динамики могут быть различны.
Итретьей особенностью является то, что в образе отображены не внешние признаки предметов, а их значение. Иными словами, образы предметов несут в себе их значения, закрепленные в языковых формах, но не с прагматической точки зрения, а с точки зрения социальной природы [8, 9].
Применительно к анализу текста правового документа, в частности, законопроекта эти положения психолингвистики выглядят следующим образом.
Предметность восприятия текста означает воссоздание образа предмета правового регулирования в сознании субъекта коммуникативной деятельности. Этот образ формируется как часть предметной области права, занимающей ту нишу правового пространства, которая требует юридической регламентации. Ее границы определяются предметами ведения Российской Федерации и ее субъектов и предметами совместного ведения. Они со-
ставляют основу механизма установления предметного соответствия рассматриваемого законопроекта другим источникам законодательства как части юридической экспертизы правового акта.
Динамический характер образа правового регулирования обусловлен теми явления-
ми социальной жизни, которые имели место до подготовки законопроекта, и будут иметь место после реализации его основных положений. Они выражены в накопленном правовом опыте и представлены правовыми актами. Анализ законности документа направлен на воссоздание динамики формирования этого правового образа и прогнозирование даль-
нейших изменений, поскольку развитие общества обязательно приведет к изменению восприятия данного документа и отношения к выраженным в нем положениям.
Ипоследнее. Те социально значимые признаки, которые позволяют идентифициро-
вать предметный образ, закреплены в правовых штампах и клише, правилах и приемах законодательного стиля. Определение их выразительности составляет суть лингвистиче-
ской экспертизы.
Образное восприятие текста нормативного документа субъектом правовой деятельности можно описать следующим образом (см. рис.1). В результате перцептивного анализа, который носит избирательный эвристический характер, происходит опознание и удержание в оперативной (кратковременной) памяти образов отдельных лингвистических единиц. Далее происходит одновременный (параллельный) процесс выделения в содержании образа-слова значимых для предметной области и ситуации семантических компонентов
ωk и синтеза, имеющего также эвристический характер, этих компонентов в некие обобщенные предметные образы Ωn, которые затем формируют глобальный образ содержания текста Tj, являющийся элементом образа предметной области [1].
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» |
968 |
|
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
ОБРАЗ ПРЕДМЕТНОЙОБЛАСТИ |
|
|
|
|
|
|
|
|
|||
|
СУБЪЕКТА ПРАВООЙДЕЯТЕЛЬНОСТИ |
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
T2 |
|
|
|
|
|
TJ – ОБРАЗТЕКСТА |
|
|
|
|
|
|
|
|
|
|
|
|
В СОЗНАНИИ СУБЪЕКТА |
|
||
|
|
|
|
T1 |
|
|
|
|
Tj |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
Ω1 |
|
|
|
Tl |
|||||
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ωn – ОБРАЗ |
|
|
|
Ω |
|
|
|
||||
|
|
|
|
|
|
|
|
|
|||||
|
|
ТЕМООБРАЗУЮЩЕГО |
Ωn |
|
|
|
j |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
||||
|
|
КОНТЕКСТА |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ωi – ОБРАЗЫ ЗНАЧИМЫХ ЯЗЫКОВЫХЕДИНИЦ
|
|
ТЕКСТА |
ω1 |
ωi |
ωk |
ОБРАЗЫ ЛЕКСИЧЕСКИХ ЕДИНИЦТЕКСТА
Рис.1 Образное восприятие текста правового документа
Экспериментально установленный эвристический характер восприятия текста определяет необходимость использования аппарата теории вероятностей для формального описания модели. При этом ее основной задачей является формирование наиболее вероятного для документа тематического образа Ωd : P(Ωd ,Td ) = max P .
Определим основные понятия, используемые при описании. Тематическим образом документа (образом текста в сознании субъекта правовой деятельности) будем считать структурно упорядоченный набор темообразующих понятий, выражающий целевое назначение текста в терминах предметной области.
Под темообразующим понятием (значимой лексической единицей) понимается слово, часть слова или словосочетание, состоящее из двух и более терминов предметной области, включенных в словарь автоматизированной системы. Будем также считать, что темообразующий контекст – это законченный смысловой фрагмент текста документа, порождающий не более одной темы. В свою очередь, документ представлен терминологическим портретом, исключающим стоп-слова (предлоги, союзы и т.д.), появление которых обусловлено не учитываемой моделью грамматикой языка.
Определим вероятность формирования тематического образа документа P(Ωd ,Td ) .
Пусть документ D состоит из N тематических контекстов dn, n={1, ..., N}, представленных тематическими образами:
Ωn (t) ={ωi (t)},
(1)
|
если ωi dn ; |
1, |
|
где ωi (t) = |
|
|
если ωi dn |
0, |
t={1, ...,T} – индекс темы;
i={1, ..., It} – номер темообразующего понятия.
Тогда каждый контекст dn образован In количеством темообразующих понятий. При фиксированном значении темы t , в пределах одного контекста значения ωi ( t ) являются
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 969 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
независимыми в совокупности, поэтому вероятность формирования тематического образа контекста dn определяется выражением:
P(Ωn ,tn ) = ∏ p(ωi ) . |
|
t=const |
i |
n=const |
|
(2)
Тематический образ Ωn контекста dn достоверно не известен. Его появление обу-
словлено наличием и содержанием предыдущего тематического образа, находящегося с ним в ассоциативной связи. Тогда вероятность его появления вычисляется по формуле условной вероятности:
P(Ωn ,tn Ωn−1 ,tn−1 ) = p(Ωn ,tΩn ;Ωn−1,tn−1 ) p( n ,tn )
(3)
при условии, что p(Ωn ,tn ) > 0 , где
p(Ωn ,tn ;Ωn−1 ,tn−1 ) – вероятность совместной встречаемости двух тематических об-
разов;
p(Ωn ,tn ) – вероятность формирования тематического образа контекста.
Если же допустить, что p(Ωn ,tn ) = 0 , тогда вероятность совместной встречаемости двух тематических образов p(Ωn ,tn ;Ωn−1 ,tn−1 ) тоже равна 0, следовательно, тематические
образы взаимно независимы, что противоречит исходному условию.
Из формулы (3) и предположения, что тематические образы связаны ассоциативной связью, вероятность появления любого тематического образа в одном контексте dn определяется по формуле Байеса [10]:
P(Ωj ,t j ) = P(Ωj ,t j |
|
Ωn ,tn ) = |
P(Ωj ,t j ;Ωn ,tn ) |
= |
P(Ωj ,t j ) P(Ωn ,tn |
Ωj ,t j ) |
||
|
||||||||
|
|
|
|
|
|
|||
P(Ωn ,tn ) |
∑P(Ωj ,t j ) P(Ωn ,tn |
|
Ωj ,t j ) |
|||||
|
|
|||||||
n=const |
|
|
||||||
(4) |
|
|
|
|
t |
|
|
|
|
|
|
|
|
|
|
|
|
где j {1, ...,T} |
|
|
|
|
|
|
||
при условии: t P(Ω(t)) > 0 |
и P(Ωn ) > 0 . |
|
|
|
|
|
Тогда, появление любого тематического образа документа на упорядоченном множестве темообразующих контекстов ( D = ∑dn ) зависит от вероятности формирования
n
всех входящих в документ тематических образов и определяется:
n и t , P(Ωn ,tn ) = P(Ωn ,tn Ω1 ,t1;Ω2 ,t2 ;K;Ωn−1 ,tn−1 ) ,
(5)
где P(Ωn ,tn Ω1 ,t1;Ω2 ,t2 ;K;Ωn−1 ,tn−1 ) – условная вероятность появления тематического образа документа.
При этом, тематический образ tn, имеющий максимальную вероятность появления P(Ωn ,tn ) на множестве темообразующих контекстов будет считаться наиболее вероятным
для документа D.
На основании формального описания модели (5) и, из уравнения Колмогорова–Чеп- мена [11], определяющего свойства случайного процесса, вероятность формирования тематического образа документа определяется как условная:
P(Ωn ,tn ) = P(Ωn ,tn Ωn−1 ,tn−1 ) = ∑ p(Ωn+1 ,tn+1 Ωn ,tn ) p(Ωn ,tn Ωn−1 ,tn−1 )
n
(6)
при истинности следующих выражений:
1. P(Ωn ,tn ) > 0 – тематический образ сформирован;
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 970 http://zhurnal.ape.relarn.ru/articles/2002/088.pdf
2. |
∑ p(Ωn ,tn ) =1 |
– сумма вероятностей формирования тематических контекстов в до- |
|||
|
n |
|
|
|
|
|
кументе равна 1; |
|
|
||
|
|
|
если n ≠ n |
+1; |
|
3. |
Pn,n+1 |
0, |
– вероятность порождения одного и того же тематиче- |
||
(t,t) = |
|
|
|||
|
|
|
если n = n; |
|
|
|
|
1, |
|
|
ского образа от следующих друг за другом контекстов равна нулю, и равна единице в рамках одного контекста.
Выражение (6) с учетом (3) определяется собственной вероятностью формирования тематического образа контекста p(Ω,t) и силой ассоциативных связей между тематиче-
скими образами p(Ωn ,tn Ωn−1 ,tn−1 ) . Здесь вероятность перехода есть не что иное, как ус-
ловная вероятность возникновения n-го тематического образа при наличии предыдущего (за один шаг).
Параметры модели
Определим параметры модели, которые позволят сформировать тематический образ правового документа. Но прежде, отметим особенности текста закона, на примере которого рассмотрим одно из возможных применений модели.
При анализе законов и других нормативных документов необходимо учитывать требования правовой лингвистики. Например, правильнее было бы вычислять условную вероятность p(i j) с учетом возможно встретившегося не наблюдаемого, но «подразумеваемо-
го» автором некоторого понятия q по формуле p(i q) p(q j) . Однако, правила правовой
лингвистики требуют использования таких лингвистических конструкций, которые бы обеспечивали однозначное толкование текста. Поэтому в предложенной модели принято следующее ограничение: в темообразующих контекстах нормативного документа не учитываются ассоциативные связи, выраженные неявно.
Еще одной особенностью текста закона является его структура. Закон состоит из отдельной статьи, указывающей на цели, содержательной части и дополнительных – преамбулы и дефинитивной статьи, посвященной описанию используемой в документе терминологии. Понятно, что наличие дефинитивной статьи оправдано в случае высокой специфичности используемой лексики, но не оказывает влияния на формирование тематического образа документа. Для тематического анализа и информативно-целевой интерпретации содержания важно функциональное назначение каждого раздела текста, включая заголовки статей. Следовательно, параметры модели должны содержать коэффициент тематической силы контекста rn.
Дополнительно введем следующие обозначения. Пусть ω′ – количество темообразующих понятий документа, относящихся к T количеству тем, которые, в свою очередь, представляют L – отраслей законодательства. И пусть ωtl означает число темообразующих
понятий; ∑∑ωtl =ω′, t={1, ..., T}; l={1, ..., L};
l t
Семантический вес темообразующего понятия ωtl в контексте документа определяет
коэффициент тематической силы контекста rn:
qtl = rn ωtl , где
n {1, 2, 3} – номер контекста, соответствующий целевой статье, заголовку содержательной статьи или содержательной статье.
Пороговым значением, определяющим принадлежность отрасли законодательства предметной составляющей тематического образа, будем считать величину σпор:
|
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 971 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
||
|
σпор |
|
L T |
|
|
= |
∑∑(qtl −Ω)2 p(qtl ) , где |
|
|
|
|
|
l=1t=1 |
|
(7) |
|
|
|
|
|
L T |
p(qtl ) – среднее значение ωtl ; |
|
|
Ω = ∑∑qtl |
|
|||
|
l=1t=1 |
|
|
|
p(ωtl ) = ωqtl′ – собственная вероятность формирования тематического образа на множест-
ве темообразующих понятий документа.
Из выражения (7) следует, что параметрами модели являются: t – номер темы, l – номер отрасли законодательства; ωtl – частота встречаемости темообразующего понятия в тексте, rn – коэффициент тематической силы контекста.
Классификация закона по отраслям законодательства
Одно из возможных применений предложенной модели – автоматическая классификация закона по отраслям законодательства, рекомендованным Указом Президента РФ
[12].
В этом случае процесс анализа, отражающий первую особенность предлагаемой модели, связан с выделением в содержании образа-слова или понятия значимых для предметной области и ситуации, семантических компонентов ωk (понятий) и синтеза их в некую обобщенную предметную составляющую, состоящую из одного или нескольких независимых, логически объединенных, тематических компонентов. Здесь частотные характеристики встречаемости темообразующих понятий являются в совокупности независимыми случайными величинами, такими, что ∑ pi (ωtl ) =1. Согласно теории вероятностей, мерой от-
i
клонения случайной величины от центра распределения спектра темообразующих понятий является ее среднеквадратичное отклонение. Оно и определяет принадлежность отрасли законодательства предметной составляющей тематического образа документа.
На примере текста закона Тульской области «О начальном профессиональном образовании» № 233-ЗТО от 15 февраля 2001 г. (Текст) покажем выполнение автоматизированной системой поддержки законотворческой деятельности [7] процедуры предметного анализа и классификации, по отраслям законодательства. Классификатор правовых актов, в этом случае, исполняет роль интерпретатора предмета правового регулирования. Он имеет трехуровневую иерархическую структуру – <l, N>, где l ={Kl, Kt, Ktc} – код записи классификатора, Kl – код отрасли законодательства, Kt – код темы, Ktc – код тематической составляющей, N – обозначение отрасли.
Первым этапом формирования предметной составляющей тематического образа документа является формирование вектора-описания (дескриптора) документа: D(t) = {t, q(t), p(t)}, где t={1, ..., T} – номер темы в анализируемом документе, соответствующий классификатору отраслей законодательства [12];
I
q(t) = ∑rn ωi (t) – семантический вес темообразующих понятий документа, определяемый
i=1
коэффициентом тематической силы контекста rn и частотой встречаемости понятия ωi ( t ),
где i={1, …, I} – количество темообразующих понятий, относящихся к одной теме;
p(t) = q(t)ω′ – собственная вероятность формирования тематического образа на множестве темообразующих понятий документа;
иопределение порога значимости по формуле (7).
Втаблице 1 представлен вектор описания текста. Последовательность формирования тематических образов на этом этапе не оказывает влияния на результат, поэтому для
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 972 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
удобства пояснения данные таблиц упорядочены по значениям p(t) и t. Для текста получено значение σпор=21,659.
|
|
|
Вектор тематического описания Текста |
Таблица 1 |
|||||
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
t |
130.010.040 |
130.010.030 |
130.010.020 |
130.010.000 |
130.030.020 |
080.060.000 |
|
|
|
q(t) |
57 |
32 |
22 |
2 |
1 |
7 |
|
|
|
p(t) |
0,3373 |
0,1893 |
0,1302 |
0,01183 |
0,0059 |
0,0414 |
|
|
|
t |
080.010.000 |
080.080.010 |
080.070.000 |
080.080.020 |
080.000.000 |
080.100.060 |
|
|
|
q(t) |
5 |
3 |
2 |
1 |
1 |
1 |
|
|
|
p(t) |
0,0296 |
0,0178 |
0,0118 |
0,0059 |
0,0059 |
0,0059 |
|
|
|
t |
070.080.010 |
070.010.000 |
090.000.000 |
020.030.020 |
020.010.050 |
010.140.030 |
|
|
|
q(t) |
11 |
1 |
6 |
4 |
3 |
4 |
|
|
|
p(t) |
0.0651 |
0,0059 |
0,0355 |
0,0237 |
0,0178 |
0,0237 |
|
|
|
t |
010.140.030 |
010.150.010 |
010.110.000 |
030.090.080 |
030.120.120 |
|
|
|
|
q(t) |
4 |
2 |
1 |
2 |
1 |
|
|
|
|
p(t) |
0,0237 |
0,01183 |
0,0059 |
0,01183 |
0,0059 |
|
|
|
Следующим шагом является группировка составляющих q(t) по семантическим компонентам полного тематического образа. При этом учитываются следующие правила.
1.Тематическая составляющая является значимой компонентой тематического образа документа, если ее семантический вес превышает или равен суммарному семантическому
весу всех прочих составляющих данной отрасли (например, для t = «130.010.040», q(t1)
5
= 57, что равно ∑q(ti ) для всех остальных t = «130.ХХХ.ХХХ»).
i=2
2. Тема отрасли считается значимой компонентой, если ее семантический вес превышает или равен суммарному семантическому весу каждой тематической составляющей отрасли (например, для t = «080.060.000», q(t) = 7, что больше чем суммарный вес для t = «080.010.000», равный 5, и для t = «080.070.000», равный 2).
3. Отрасль законодательства считается значимой компонентой, если ее семантический вес превышает или равен суммарному семантическому весу каждой составляющей отрасли или не выполняются условия 1 и 2.
Сформированный таким образом обобщенный тематический образ представлен в таблице 2. Далее вычисляется среднеквадратичное отклонение (7) для каждой темообразующей компоненты (значения σ(l) таблицы 2).
Решающим правилом для классификации регионального закона является следующее. Компоненты тематического образа документа определяют предмет правового регулирования в том случае, если мера их рассеяния по тексту не меньше среднеквадратичного отклонения от центра распределения спектра темообразующих понятий: σ(l) ≥σпор .
На основании этого правила для текста, взятого в качестве примера, предмет правового регулирования представляют следующие разделы классификатора (табл.2): «Образовательные учреждения и иные образовательные организации», «Бюджеты субъектов Российской Федерации».
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 973 http://zhurnal.ape.relarn.ru/articles/2002/088.pdf
|
|
«Тематический образ» Текста |
Таблица 2 |
|
|
|
|
||
|
|
|
|
|
|
l |
|
N(l) |
σ(l) |
|
130.010.040 |
Образовательные учреждения и иные образовательные организации |
26,543 |
|
|
080.060.000 |
Бюджеты субъектов Российской Федерации |
21,927 |
|
|
070.080.010 |
Социальное обслуживание. Общие положения |
17,815 |
|
|
020.030.020 |
Государственные программы. Концепции |
14,955 |
|
|
090.000.000 |
Хозяйственная деятельность |
14,955 |
|
|
030.090.080 |
Право собственности и другие вещные права на землю и |
14,097 |
|
|
|
иные природные ресурсы |
|
|
|
010.140.030 |
Порядок опубликования и вступления в силу нормативных право- |
10,353 |
|
|
|
вых актов |
|
|
|
|
|
σпор = |
21,659 |
Для сравнения результатов в таблице 3 представлены сведения о том, каким образом данный закон классифицирован в правовых информационных системах, функционирующих на территории Тульской области и содержащих региональное законодательство.
Таблица 3
Классификация по отраслям законодательства закона «О начальном профессиональном образовании» №233-ЗТО от 27.02.2001 г.
|
|
|
|
Наименование |
|
|
правовой |
Тематика |
|
системы |
|
|
Банк правовых |
130.010.040.060 Учреждения начального профессионального образования |
|
актов НТЦ |
|
|
«Система» |
|
|
«Эталон» |
190.000.000.000.000.000 Законодательство об образовании |
|
|
190.030.000.000.000.000 Образовательные учреждения |
|
|
190.030.050.000.000.000 Учреждения начального профессионального |
|
|
образования |
|
|
190.010.000.000.000.000 Общие вопросы образования |
|
|
090.000.000.000.000.000 Законодательство о финансах и кредите |
|
|
090.040.000.000.000.000 Государственные расходы РФ, субъектов РФ и |
|
|
расходы местных бюджетов |
|
|
090.040.050.000.000.000 Финансирование социальной сферы |
|
|
090.020.000.000.000.000 Основы бюджетного устройства и бюджетного процесса |
|
|
090.020.020.000.000.000 Бюджеты субъектов РФ |
|
|
090.020.030.000.000.000 Местный бюджет |
|
|
090.020.040.000.000.000 Иные виды бюджетов |
|
«Консультант |
«Законодательство о научной деятельности и образовании» |
|
Плюс» |
|
Формирование поискового запроса, содержательно ориентированного относительно законопроекта
Еще одно применение предложенной модели – автоматическое формирование поискового запроса для правовой информационно-справочной системы. Такой запрос обеспечивает подбор электронных копий документов по содержательному критерию и предназначен для содержательной экспертизы правового акта – установления соответствия его
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 974 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
концепции уже существующим механизмам правового регулирования. Здесь отражена вторая особенность модели – динамический характер правового образа.
Если рассматривать нормативный документ как прообраз деятельности, то иерархия мотивов и задач деятельности сводится в тексте к иерархической смысловой структуре, выраженной через тематические образы контекстов. Иерархическую смысловую структуру, состоящую из тематических образов контекстов и построенную относительно «точки отсчета», определяющей целевое назначение документа, будем логико-фактологической структурой.
В процессе чтения документа в сознании субъекта формируется набор взаимозависимых тематических образов различной ассоциативной силы. Он может быть представлен в виде матрицы переходов от одного тематического образа к другому, элементами которой являются вероятности переходов:
p |
K p |
|
|
|
11 |
1n |
|
, и ∑ pij =1, где i = 1, 2, |
…, n, j = 1, 2, …, n. |
P = K |
K K |
|
||
|
|
|
|
|
pn1 |
K pnn |
|
|
(8)
Каждый вектор матрицы P определяет одну, предложенную к решению проблему, задачу или подзадачу. При этом вектор-строка указывает на «родительские» отношения логико-фактологической структуры, а вектор-столбец – на «дочерние».
В общем же случае матрица переходов описывает n-мерное векторное пространство U, координатным базисом которого t1, t2, …, tn являются тематические образы контекстов документа (рис.2а). В нем каждый вектор x описывает способ решения проблемы, представленной тематическим образом ti при условиях, выраженных тематическими образами t1, t2, …, tk, где k N. Он может быть описан через координаты ξ1, ξ2, …, ξn , относительно системы ti:
|
|
n |
|
|
|
x =ξ1t1 +ξ2t2 +K+ξntn = ∑ξiti |
|
|
|
||
(9) |
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
tc |
|
|
|
|
xn |
|
|
tj |
|
tn-1 |
x2 |
x1 |
|
[Xj] |
|
|
|
tk+1 |
|
tk+1 |
|
|
|
tk |
tn-1 |
tn |
tk |
|
|
|
tn-2 |
|
|
|
|
|
|
|
|
U |
|
t1 t2 |
U |
t1 |
[Xk] |
|
|
|
t2 |
||
|
|
|
|
|
|
|
а) |
|
|
б) |
|
Рис.2 Содержательная структура текста как прообраз деятельности |
|
а) – метрическое представление;
б) – пространственное представление целевого вектора [Хj]
Реконструируя «деятельностную» сущность нормативного документа, можно сказать, что решение любой из описанных в документе проблем (Ti) представляется некото-
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 975 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
рым целевым вектором [Хj] и связано с решением части других. Факт зависимости от каждой ti определяется значением координаты ξ (рис.2б).
Заменив обозначения метрического представления вероятностными, имеем: Pij – ξi –вероятность перехода от i –го тематического образа к j-му;
P(Ωmax ,tc Ωi , ti ) – tj – условная вероятность появления целевого тематического об-
раза Ωmax при наличии Ωj -го;
PRj(Ω) – xj – вероятность совместной встречаемости целевого и j-го тематического образа.
PR1 (Ω1 ) P11PR2 (Ω2 ) = P21
M MΩ
PRn ( n ) Pn1
(10)
P12
P22
Pn2
KP1n
KP2n
Pnn
P(ΩmaxP(ΩmaxMP(Ωmax
,tc Ω1 ,t1 )
,tc Ω2 ,t2 )
,tc Ωn ,tn )
В применении к процессу анализа текста нормативного документа выражение (10) можно интерпретировать следующим образом (рис.3). Деятельность, направленная на реализацию цели правового регулирования, представленной тематическим образом с максимальной вероятностью P(Ωmax,tc), может быть описана целевым вектором PR в координатном базисе ее мотивов и задач, выраженных в документе опорными смысловыми узлами tn.
Ωmax
PRn
Ωn
PR1
Ω2
[PR] Ω1
Рис.3 Иерархическая смысловая структура текста – вероятностное представление целевого вектора
Таким образом, вектор PR , полученный для тематической компоненты, имеющей наибольшую вероятность появления в тексте, описывает элементы логикофактологической структуры в вероятностных значениях.
В выражении (10) каждая вектор-строка соответствует выражению (3) формального описания модели и означает вероятность совместного возникновения двух тематических образов. Тогда по правилу совмещения случайных событий:
|
|
|
|
|
|
|
|
|
|
|
|
q(t |
) |
q(t |
max |
) |
||||
P |
(Ω |
) = P(t |
;t |
|
) = P(t |
|
It |
|
) = P(t |
) P(t |
|
) = |
i |
|
|
|
|
|
, где |
|
|
|
|
|
ω′ |
|
ω′ |
|
|||||||||||||
Ri |
i |
i |
|
max |
|
i |
|
max |
i |
|
max |
|
|
|
|
|
|
I
q(t) = ∑rn ωi (t) – семантический вес темообразующих понятий t темы документа,
i=1
определяемый коэффициентом тематической силы контекста rn и частотой встречаемости понятия ωi (t) , где i={1, …, I} – количество темообразующих понятий.