Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Антонов. Системный анализ. Учебник для вузов.doc
Скачиваний:
450
Добавлен:
19.02.2016
Размер:
3.82 Mб
Скачать

Глава 9

НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ АНАЛИЗА СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ

  1. Общие замечания

Рассмотренные ранее параметрические методы анализа статисти­ческой информации в последнее время подвергаются критике специа­листов по математической статистике. Дело в том, что применение параметрических методов требует предположений о виде закона рас­пределения наблюдаемых случайных величин. Как правило, нельзя ука­зать какие-либо веские причины, по которым конкретное распределе­ние результатов наблюдений должно входить в то или иное параметри­ческое семейство. Известны результаты, согласно которым сумма не­зависимых случайных величин описывается нормальным законом рас­пределения; произведение таких величин приближается логарифмически нормальным распределением. В теории надежности доказано, что на­работки до отказа однотипных элементов подчиняются экспоненциаль­ному закону распределения, при этом характер отказов предполагает­ся внезапным. Далее известно, что сумма случайных величин, подчи­няющихся экспоненциальному закону распределения, распределена по гамма-закону. Пожалуй, этими фактами и исчерпываются все обосно­вания в поддержку того или иного семейства законов распределения. В подавляющем большинстве реальных ситуаций подобных обоснований для использования конкретного вида закона распределения нет, и при­ближение реального распределения с помощью параметрических се­мейств становится чисто формальной процедурой.

Первые публикации, в которых развивался непараметрический под­ход, относятся к первой половине 20-го столетия. В это время появи­лись работы Кендалла и Спирмена, в которых исследовались критерии проверки гипотез, основанные на коэффициентах ранговой корреляции. В настоящее время эти критерии носят название авторов, разработав­ших и исследовавших их (см. [35, с. 77-82]). В 30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, в которых были предло- 282 жены и изучены статистические критерии, основанные на использова­нии эмпирического процесса. Ho непараметрические методы, в кото­рых не делается никаких нереалистических предположений о том, что функция распределения результатов наблюдений принадлежит тем или иным параметрическим семействам распределений, стали заметной частью статистического анализа только во второй трети XX в.

После Второй мировой войны развитие непараметрических стати­стических моделей пошло быстрыми темпами. Большую роль в разви­тии этих методов сыграли работы Вилкоксона и его школы. К настоя­щему времени с помощью непараметрических методов можно решать тот же круг задач, что и с помощью параметрических. Все большую роль играют непараметрические методы оценки плотности, непарамет­рические подходы в решении задач регрессионного анализа и теории распознавания образов. В настоящем разделе рассмотрим непарамет­рические методы оценки плотности распределения. Построив плотность распределения, можно далее переходить к определению широкого кру­га статистических показателей. Поэтому задача оценки плотности рас­пределения наблюдаемой случайной величины является одной из клю­чевых задач статистического анализа.

  1. Гистограммный метод восстановления плотности распределения

Для придания наглядности статистическому материалу его необхо­димо подвергнуть дополнительной обработке. С этой целью строится статистический ряд. Покажем, как осуществляется его построение.

Пусть имеются результаты наблюдения над непрерывной случай­ной величиной X, оформленные в виде простой статистической совокуп­ности. Рассмотрим весь диапазон зафиксированных значений величи­ны X и разделим его на интервалы. Диапазон зафиксированных значе­ний случайной величины представляет собой область определения дан­ной величины. Далее подсчитаем количество значений реализовавшейся случайной величины, попавших в каждый интервал, обозначим эти зна­чения через т.. Каждое из полученных значений разделим на общее число наблюдений п и определим частоту попадания случайной вели­чины в z-й интервал наблюдения:

Сумма частот всех интервалов должна быть равна единице. Пред­ставив полученные результаты расчетов в виде таблицы, получим ста­тистический ряд (см. табл. 9.1).

Таблица 9.1

Il

Xi; *2

х2; хг

Xit Xl+1

xi;

Pt

Р\

Pt

Pi

Pt

Здесь I1 - обозначение г-го интервала; Xi; х.+] - границы данного интервала; Pi - соответствующая частота; к - количество интервалов.

При построении статистического ряда возникает вопрос о рекомен­дуемом количестве интервалов разбиения области определения наблю­даемой случайной величины. С одной стороны, количество интервалов не должно быть слишком большим, в этом случае ряд распределения становится невыразительным и частоты в нем обнаруживают незако­номерные колебания; с другой стороны, оно не должно быть слишком малым, при малом числе интервалов свойства распределения описы­ваются статистически слишком грубо. Чем богаче и однороднее ста­тистический материал, тем большее число интервалов можно выбирать при составлении статистического ряда. В математической статистике известна формула Стаджесса, с помощью которой вычисляется коли­чество интервалов разбиения области определения случайной величи­ны. Согласно этой формуле количество интервалов определяется сле­дующим образом:

к =l+3,31gw.

При построении статистического ряда возможны различные способы выбора длины интервалов; они могут быть как равными, так и различны­ми. Однако следует отметить, что в практике построения статистическо­го ряда наибольшее применение нашли два: метод равных интервалов и равночастотный метод. В первом методе, естественно, длины интервалов выбираются одинаковыми. Во втором методе длины интервалов различ­ные. Они выбираются таким образом, чтобы количество попаданий слу­чайной величины в каждый из интервалов было одним и тем же.

Графическое представление статистического ряда называется ги­стограммой. Гистограмма строится следующим образом. По оси абс­цисс откладываются интервалы и на каждом из них строится прямоу­гольник, площадь которого равна частоте данного интервала. Для по­строения гистограммы необходимо частоту каждого интервала разде­лить на его длину и полученное значение взять в качестве высоты пря­моугольника. В случае равных интервалов высоты прямоугольников пропорциональны соответствующим частотам. Из правила построения гистограммы следует, что полная площадь под гистограммой равна единице. Формулу построения гистограммы можно представить в сле­дующем виде:

  1. " /ГXi є А Л И I-1 MAnj)

где / [я, є An- J — индикатор, равный единице, если условие в скобках вы­полняется, и нулю - в противном случае; An. - интервалы, на которые де­лится область определения наблюдаемой случайной величины; X(Anj) - ширина интервала An..

Гистограмма является простейшей оценкой плотности распределе­ния, не обладающей свойством несмещенности. Гистограммная оцен­ка обладает рядом недостатков. В первую очередь, необходимо отме­тить значительную потерю информации, связанную с тем, что иссле­дователю для построения гистограммы необходимо знать, сколько на­блюдений попало в выбранный интервал разбиения и абсолютно не важ­ны при этом значения наблюдений. Во-вторых, принцип разбиения (рав­ных интервалов или равных частот), а также число разбиений, являют­ся некоторыми «степенями свободы». Как исследователь выполнит раз­биение, воспользовавшись такой свободой, зависит только от него. В-третьих, скорость сходимости гистограммной оценки к плотности крайне низкая.

Рассмотрим пример построения гистограммы по результатам на­блюдения за случайной величиной, характеризующей наработки до от­каза группы однотипных объектов. Пусть результаты функционирова­ния группы однотипных объектов представлены в виде статистическо­го ряда, приведенного в табл.9.2.

Таблица 9.2

/,

х,; X2

х>;*з

Xi, Xj+ J

Xk-U Xt

Xk', Xjc+1

Ш/

2

1

N1

0

1

Pi

2In

Un

Niln

0

1 In

На основании данной таблицы построим гистограмму (рис.9.1).

/

NlIn

2/л

1/л

т/л

X1 JCj X3 ... X., X, ... Xm Xt Xtfl

Рис. 9.1. Пример построения гистограммы

3/л 2 In Mn

Пользуясь результатами построения статистического ряда,можно построить также эмпирическую функцию распределения наблюдаемой случайной величины. Для этого необходимо определить значения фун­кции распределения на границах интервалов, по которым построена ги­стограмма, тогда получим

F (Х|, X2) — Pj»

Hx2tXi)=P1+P2;

F(Xk^xk) = J P1; *

1*1

F(Xk^) = YdPi =1- 1*1

Эмпирическая функция распределения будет представлять собой ступенчатую функцию, изображенную на рис. 9.2. Построение эмпири­ческой функции распределения решает задачу описания статистичес­кого материала. На основании данной функции можно производить оце­нивание вероятностных характеристик объектов, для которых ведется обработка статистического материала.

Рис. 9.2. Эмпирическая функция распределения

  1. Построение эмпирической функции распределения по цензурированной выборке

Анализ работ по непараметрическим методам оценивания харак­теристик сложных систем на основании цензурированных данных по­казывает, что достаточно полно разработаны и исследованы методы получения точечных и интервальных оценок для случаев, когда у ис­следователя имеются большие объемы статистических данных.

В [38] изложены методы построения оценки функции F(t), исследо­ваны свойства этой оценки, рассмотрены методы оценивания некото­рых показателей надежности на основании цензурированных данных незначительного объема. При оценивании характеристик объектов на основании информации, полученной на этапе их эксплуатации в составе штатного оборудования сложных систем, возникают ситуации, анало­гичные рассмотренным в [38], а именно, распространенной является ситуация, когда информация представлена в виде цензурированных дан­ных весьма ограниченного объема. Поэтому методы, изложенные в [38], можно эффективно применять при проведении экспресс-анализа харак­теристик объектов сложных систем на этапе проведения системных ис­следований. Рассмотрим метод построения эмпирической функции распре­деления, изложенный в [38].

Пусть имеется функция распределения F(t), тогда вероятность по­падания наблюдаемой случайной величины в интервал (0, 7) будет рав­на F(T). Разобьем интервал наблюдения на к равных частей. Опреде­лим вероятность попадания наблюдаемой случайной величины в интер­вал (0, £,у] для любого j = l, к.

Попадание случайной величины на некоторый интервал (0, Ely] есть событие, которое можно представить как сумму событий, состоящих в том, что случайная величина попадет либо в интервал (0, Eiyi], либо в интервал (£ Slj.]. Следовательно, для вероятности попадания случай­ной величины в интервал (0, £.] можно записать выражение

1-й интервал; 2-й интервал

TT' T T

fTl/ гтт/ fp/ fp/

> V, +1 *' “> V|

V,+V2

ЄЙР = Р{Т<^} = Р{Т<I;,..,}+Pfty., <Т<^}, (9.1)

где T - значение наблюдаемой случайной величины. Вероятность по­падания случайной величины на интервал (Ely,, £ ] можно определить в виде

Р&1-, <r<4J} = (1-F..l)(2ftJ,1^,/^1), (9.2)

где Fja - значение функции F{t) в точке ^l, Fj x = Q(Z3ja); Q(\a, £Дч)

  • условная вероятность попадания случайной величины в интервал (E^1, Е,у] при условии, что на интервале (0, Iij,] случайная величина T не реализовалась.

Подставляя выражение (9.2) в (9.1), получаем формулу для опре­деления вероятности попадания случайной величины T в интервал

(О, у

Qfei)= QaH)+a-Q^M))Q(^Aj feH), (9.3)

где Qfe,,) - вероятность попадания случайной величины в интервал (О, ^1]. Расписывая аналогичным образом вероятность попадания слу­чайной величины в интервал (0, ^ l] через вероятности попадания в ин­тервалы (О, и (^y.2, ^1], получаем

Q(^1) = Q(^2) + a-Q(^-2))Q(^AM/^) .

Повторяя данную процедуру для интервалов (0, £.], где 1< і < j, можно в конечном счете получить выражение для вероятности попадания на­блюдаемой случайной величины в интервал (О, Т) в виде

F(T) = 2(l-<2(V>))e(WA-i) • (9.4)

Оценим функцию распределения для многократно цензурированной справа выборки следующего вида:Г,, T2,..., Тц, T'+l,... T'+v, где Г.,/= ITjx

  • значения наблюдаемой случайной величины с реализовавшимся при­знаком; Tj, j = n + l,p.+v - значения наблюдаемой случайной величины с нереализовавшимся признаком, т.е. цензурированные данные.

Разобьем результаты наблюдения на к интервалов:

it-й интервал; T

ґ

iV »

где - количество наблюдений случайной величины с реализовавшимся признаком, попавших в j-й интервал; Vj - количество наблюдений слу­чайной величины с нереализовавшимся признаком, попавших вJ-й ин­тервал,

Xnj=Ii;Ivj=V.

J=I J=I

Для определения оценки функции распределения в точке t необхо­димо вместо значений величин QfejA), QfeJA, в (9.4) подставить их оценки. В качестве условных вероятностей используют отношение количества реализаций |Д.у, попавших на интервал fejV Ely], к общему числу объектов, находящихся под наблюдением в начале этого интер­вала при условии, что в начале интервала под наблюдением находится хотя бы один объект. Если в начале интервала под наблюдением отсут­ствует хотя бы один объект, то условная вероятность наблюдения слу­чайной величины на этом интервале равна нулю. Поэтому оценку ус­ловной вероятности на интервале полагают также равной нулю. С уче­том этого выражение для оценки функции распределения в точке t бу­дет иметь вид

О при Nyj <О,

где Fj x - оценка функции распределения в точке Е,у ];

(9.6)

(—і

Если в первом интервале одна или несколько случайных величин с нереализовавшимся признаком меньше первой случайной величины с реализовавшимся признаком, то V0^ 0, в противном случае V0= 0. Если в последнем интервале значение последней случайной величины с реа­лизовавшимся признаком больше всех значений случайных величин с нереализовавшимся признаком, то Vt= 0, в противном случае \кФ 0.

Величина Ny., входящая в выражение (9.5), называется условным

объемом цензурированной выборки на интервале (£ , £.]. Она равна

числу объектов, за которыми ведется наблюдение на указанном интер­вале.

Выражение (9.5) можно переписать, несколько детализировав пред­ставление функции распределения на каждом интервале:

О при t < 0;

N

Fi+G- Fi>77“ приNy2 > 0

j- при 0S/<£,, J1 =0, 1,..., щ;

N

/К*) =

Для4, </<42; J2=O, 1,..., р2;

Fi при Ny2 £ 0

(9.7)

Дта^., =Q, I,..., Lii.

Ft-i +(2- Ft-і )тр при Nyt >0

*t

Ft-i nPH Wy2 <0

В [3 8] даются рекомендации для разбиения области, на которой про­водится оценивание функции распределения, на интервалы. В частно­сти, указано, что для повышения точности оценки F(t) необходимо весь отрезок наблюдения [0, 7], где T= Zsk = шах[Гц ,T'], разбить на интервалы, границы которых совпадают со значениями случайных величин с нере- ализовавшимся признаком. Например, если выборку наблюдений, состо­ящую из случайных величин с нереализовавшимся признаком и случай­ных величин с реализовавшимся признаком записать в порядке возрас­тания ее членов в виде

T1, T2, T1', T3, T2,..., Tv', Гм> T11 , (9.8)

то интервалы наблюдений будут равны

to, T1Kt1: т'1,...,(т;_„ г;],(г;,гц],

а (1, у^соответственно будут равны

р, = 2, V1 = 1; р2 = I, V2 = I;...; H1 =2, Vk=O.

Если в выборке наблюдений окажется, что отдельные значения случайных величин с реализовавшимся признаком будут равны некото- 290 рым значениям случайных величин с нереализовавшимся признаком, то в вариационном ряду (9.8) сначала указывают значения случайных ве­личин с реализовавшимся признаком, затем значения случайных вели­чин с нереализовавшимся признаком.

Таким образом, используя правило (9.7), можно строить эмпиричес­кую функцию распределения случайной величины при многократно цен­зурированных выборках.