Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Введем понятие обобщенной средней (средней по Коши). Это такая статистика, значения которой лежат в границах от минимального до максимального шкального значения. Данное определение покрывает такие средние как: среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее квадратическое, а также моду и медиану. Оказывается, что для шкал порядка из всех средних по Коши допустимыми являются только члены вариационного ряда, т. е. одно из шкальных значений, в частности, медиана.

Вернемся к среднему армфметическому. Показано [24], что если число измерений достаточно велико и сравниваются выборки из двух распределений F(x) и Y(x), причем для всех х F(x) ≤ Y(x) , то сохранение соотношения между средними выборок практически достоверное событие, если монотонное преобразование g(x) удо-

влетворяет условию lim g(x) x при x→ ∞.

1.5. Модели представления данных

Исходные данные для анализа могут быть представлены несколькими способами. Наиболее естественный и широко распространенный – двумерная таблица «объект-признак». Строки такой таблицы соответствуют объектам, столбцы – признакам. Объект обычно задается своим номером i (i=1,2,…,N); значения признаков х12,…,хn, измеренные в той или иной шкале, – суть столбцы таблицы. В качестве объекта могут выступать моменты времени либо последовательные номера наблюдений над тем же объектом. В

этом случае говорят об изолированном (один признак) либо о многомерных временных рядах (time-series data). Если наблюдения

производятся над различными объектами (респонденты, предприятия, страны) в некоторый момент времени либо за промежуток

времени, но при неизменных условиях, то говорят о данных про-

странственного типа (cross-sectional data).

Если одни признаки измерены в качественных шкалах, а другие

– в количественных, то возникают проблемы их одновременной обработки. Их приходится анализировать либо по отдельности для одного типа шкалы, либо сводить измерения к одному типу шкалы.

21

Наиболее простой путь – перейти к наименее информативной шкале из набора, что приводит, естественно, к определенной потере информации. Имеются подходы, предполагающие переход к более информативной шкале как результат решения некой оптимизационной задачи на массиве результатов наблюдений (так называемое дуальное шкалирование).

Второй способ задания исходных данных – таблица «объектобъект». Математическое представление такой таблицы – квадратная матрица N×N связей между рассматриваемыми объектами. Подобные таблицы могут отражать потоки продукции между отраслями, транспортные потоки между регионами, либо быть результатом социологических или психологических исследований в виде социометрических матриц взаимоотношений в группе, экспертных оценок близости тех или иных стимулов.

1.6. Неопределенность данных и способы описания

Первичные данные, понимаемые как отображение уровня проявления свойства в числовую шкалу, несут в себе элемент неопределенности. Это может быть следствием неполноты состава отношений, определяющих структуру измеряемого свойства, ошибок измерения из-за ограниченной точности аппаратуры, ошибок округления данных. Неопределенность будет присутствовать и во вторичных данных. Она будет обусловлена как неопределенностью первичных данных, так и неадекватностью используемых методов их обработки. Для данных, используемых в задачах прогнозирования, источником неопределенности могут быть неполнота сведений о будущих значениях параметров, субъективность привлекаемых экспертных оценок.

В описании неопределенности уместны так называемые неопределенные числа. Для представления таких чисел могут использоваться вероятностные, нечеткие и интервальные модели. Вероятностная и нечеткая модели предполагают, что есть априорная информация о законе распределения либо о функции принадлежности. В отсутствие такой информации используется модель интер-

вальных чисел.

22

Интервальные числа

Под интервальным числом (ИЧ), которое будем обозначать [х], понимается числовой интервал [хmin;хmax], определяющий границы возможных значений х. Предполагается, что х может принимать любые значения из данного интервала, при этом никакая вероятностная мера не предусматривается. На множестве ИЧ могут су-

ществовать отношения порядка. Так, [a]<[b], если amax<bmin. Поскольку любое интервальное число (ИЧ) равно только самому себе,

то оно должно сопровождаться уникальным именем. Ясно поэтому, что два ИЧ [a] и [b] с одинаковыми диапазонами не обязаны быть равными. Отсюда [a]-[b]≠0, тогда как [a]-[а]=0. Для ИЧ предложена интервальная арифметика, базирующаяся на процедурах поиска экстремума функций двух переменных. Операции сложения, вычитания, умножения и деления двух интервальных чисел [a] и [b] обозначим как обобщенную операцию ¤. Результат этой операции определяется следующей формулой

[z]=[a]¤[b]=[zmin=min(a¤b); zmax=max(a¤b)].

В приведенном выражении минимум и максимум ищутся в прямоугольной области, задаваемой неравенствами аminaamax; bminbbmax. Ниже приводятся примеры арифметических операций над интервальными числами:

[a]

[b]

[a]+[b]

[a]-[b]

[a]∙[b]

[a]/[b]

[2;5]

[3;7]

[5;12]

[-5;2]

[6;35]

[2/7;5/3]

Интервальные данные являются типичными в естественнонаучных измерениях, когда результаты фиксируются с точностью, заданной в техническом паспорте средства измерения.

Нечеткие числа

Понятие нечеткие числа базируется на концепции нечетких множеств Л.Заде. Пусть E – универсальное множество, x – элемент E, а R – определенное свойство. Обычное (четкое) подмножество S универсального множества E, элементы которого удовлетворяют

свойству R, можно записать в виде

S = {(xS(x)},

23

где μS(x) – функция принадлежности, принимающая значение 1, когда x удовлетворяет свойству R, и 0 – в противном случае.

Нечеткое подмножество отличается от обычного тем, что не для всех элементов x из E существует однозначный ответ относительно обладания свойством R. В связи с этим, нечеткое подмножество S универсального множества E определяется как множество упоря-

доченных пар

S = {(xS(x)},

где μS(x) – функция, задающая степень принадлежности х нечеткому множеству S, принимает любые значения на отрезке [0;1]

(0≤μS(x) ≤1).

Обычно функция принадлежности задается экспертом. К приме-

ру, малое натуральное число можно записать в ви-

де{(1;1),(2;1),(3;0,9),(4;0,6),(5;0,1),(6;0)}. В качестве функций при-

надлежности выступают сигмоидные, колоколообразные, трапециевидные функции. Широкое распространение получили треугольные функции принадлежности, задаваемые тремя числами [a,c,b], где a и b задают границы диапазона, а с – координата вершины с μS(x)=1, характеризующей наиболее достоверное значение.

Арифметические операции над нечеткими числами выполняются с применением процедуры дискретизации функции принадлежности. Для этого весь диапазон значений μ(x) каждого операнда разбивают на конечное число дискретных уровней μ1,..,.μi,…,μk и для каждого уровня определяют диапазон значений переменной, соответствующих данному уровню. В итоге для каждого уровня принадлежности получают два интервальных числа, над которыми проводят арифметические операции по правилам, изложенным выше.

Вопросы и упражнения

1. Одна из систем с отношениями содержит три отношения арностью 3,3,2; вторая – две бинарные операции и отношение равенства. Можно ли утверждать, что это системы одинакового типа?

24

2.Что такое «частичный автоморфизм»?

3.В какой шкале измерятся индекс студенческой группы?

4.Как перейти от приводимой системы «студенты одного потока» к неприводимой системе при индесации студенческих групп?

5.К какому типу шкал следует отнести результаты измерения в абсолютной (кельвиновской) шкале температур?

6.В какой шкале измеряется признак «дата рождения»?

7.В какой шкале измеряется потенциальная энергия?

8.В чем отличие инвариантных статистик от адекватных?

9.Какие статистики являются адекватными для любых шкал?

10.В какой шкале измеряются бинарные признаки?

11.Располагаются шкалы по степени их информативности?

12.В чем отличие между интервальными и нечеткими числами?

13.Что означает равенство двух интервальных чисел?

14.Найдите частное двух интервальных чисел [a]=[8;12], [b]=[3;4].

15.Постройте функцию принадлежности для нечеткой перемен-

ной молодой человек.

25

2. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Прежде чем приступить к построению моделей описания, желательно ответить на вопрос о наличии связи между рассматриваемыми переменными и в случае положительного ответа продолжить исследование. Поиском ответа на подобный вопрос занимается корреляционный анализ.

2.1. Оценка связи количественных переменных

2.1.1. Коэффициент парной корреляции Пирсона

Пусть имеется некая генеральная совокупность, каждый элемент которой характеризуется двумя признаками x и y, измеренными в количественной шкале. Будем из этой совокупности наудачу извлекать объекты. Очевидно, значения х и у в этом случае можно рассматривать как случайные величины. Два признака независимы, если статистически независимы соответствующие им случайные величины, так что вероятность любого совместного события ω=(x1<x<x2, y1<y<y2) равна произведению вероятностей отдельных

событий ω1=(x1<x<x2) и ω2=(y1<y<y2):

 

P(x1<x<x2, y1<y<y2) = P(x1<x<x2) P( y1<y<y2).

(2.1)

Эквивалентная формулировка – независимость двух случайных величин означает равенство совместной плотности р(х,у)

произведению частных плотностей

 

р(х,у)= р(х) р (у).

(2.2)

Нарушение соотношения (2.1) говорит об отсутствии независимости. Это может быть следствием наличия между х и у причинной связи. Причинная связь обладает следующими свойствами [23]:

1. Непротиворечивость. Связь между признаками от выборки к выборке постоянна по знаку, а может быть, и по величине.

2. Чувствительность. Если х допускает изменение, то и у, при прочих равных условиях, должен соответственно измениться.

3. Процедурность. Существует в принципе некоторый механизм, или процедура, часто многошаговая с привлечением других

26

переменных, для которой на каждом шаге можно сказать, что «тото является причиной того-то».

Причинная связь может быть детерминированной (однозначной), когда значение х предопределяет значение у, например радиус окружности задает ее длину. Причинная связь может носить и статистический характер, проявляться не в каждом наблюдении, а по множеству реализаций, «в среднем».

Универсальной меры оценки связи между случайными величинами не существует. Наиболее употребительными являются ковариация и корреляция. Предположим, имеется выборка из N наблюдений, представленная на диаграмме (облаке) рассеяния (scatterplot) (рис.2.1). Через центр тяжести (x, y) выборки прове-

дем два перпендикуляра к осям координат. Тем самым для любой

точки с

координатами (xi,yi)

будут определены отклонения

xi x, yi y .

 

y

y

y

y

y

y

x

х

x

х

 

 

x

х

а)

 

б)

 

 

 

 

 

в)

 

 

Рис. 1. Примеры диаграмм рассеяния

 

 

 

 

Легко видеть, что в отсутствии резко выделяющихся точек

 

 

 

N

 

 

 

 

сумма произведений

отклонений

(xi

 

)(yi

 

 

) ,

будучи

x

y

i 1

положительной для облака а), отрицательной – для б), близкой к

27

нулю – для в), может служить мерой связи между х и у. Поскольку такая мера существенно зависит от числа наблюдений, целесообразно провести усреднение по N. Тем самым мы приходим к ковариации. Для того чтобы избавиться от влияния единиц измерения (масштаба шкалы), выражают отклонения в единицах среднеквадратических, иначе стандартных, отклонений. В итоге получаем

выборочный коэффициент корреляции (КК):

 

N

 

 

 

 

1

 

 

 

 

 

N

 

N

 

 

 

 

 

 

 

 

 

2

,

 

 

(2.3)

r (xi x)(y i y)

(xi x)

2

( y i y)

2

 

 

 

 

ˆ

i 1

 

 

 

 

 

 

 

 

i 1

 

i 1

 

 

 

 

 

 

 

где xi , yi – наблюденные значения переменных х и у;

 

 

 

,

 

их

 

x

y

средние значения; N – число наблюдений в выборке. Теоретический коэффициент корреляции r, определяемый для

генеральной совокупности, задается как

cov(x, y) ,

r

Dx Dy

где cov (x,y) = M[(x-Mx)(y-My)] = M[xy]-MxMyковариация х и у;

Dх, Dy дисперсии.

При строгой линейной зависимости между х и у, т.е. y=a+bx (a и b неслучайны) КК принимает значения 1 либо -1.

Для независимых случайных переменных М[ху] = МхМу, следовательно, ковариация cov(x,y) и коэффициент корреляции r обращаются в нуль. Обратное в общем случае неверно (см. ниже). Поэтому при равенстве нулю коэффициента корреляции говорят, что соответствующие случайные величины некоррелированы.

Равенство нулю коэффициента корреляции еще не означает независимости переменных. Так две случайные переменные, связанные нелинейной зависимостью х22=1, имеют нулевой коэффициент корреляции в силу круговой симметрии диаграммы рассеяния относительно начала координат. Лишь в случае нормально распределенных случайных величин их некоррелированность влечет независимость. Действительно, функция плотности вероятности р(х,y) двумерной случайной величины (для простоты ограни-

28

чимся стандартизованными переменными с нулевыми математическими ожиданиями и единичной дисперсией) имеет вид

 

 

1

 

 

 

x2 2rxy y2

p(x, y)

 

 

 

 

 

exp

 

.

 

 

 

 

 

2

 

 

 

 

2

 

 

 

 

2

1 r

 

2(1 r )

 

 

 

 

 

Легко видеть, что соотношение (2.2) будет выполняться здесь тогда и только тогда, когда r = 0.

Основной практический интерес представляет проверка нульгипотезы H0: r = 0. Для нормально распределенных случайных величин х и у распределение rˆ изучено. При малых r оно близко к нормальному, что позволяет использовать t-статистику для провер-

ки значимости. Случайная величина t, полученная из

ˆ

монотон-

r

ным преобразованием

 

 

 

 

 

 

 

 

 

 

rˆ

 

 

 

(2.4)

t

 

N 2

 

 

 

 

 

 

 

 

 

 

 

1 r

 

 

 

ˆ2

 

 

 

 

при гипотезе H0 подчиняется распределению Стьюдента с ЧСС,

равным N-2. Подставив в (2.4)

выборочное значение

ˆ

 

r , находят

расчетное значение статистики Стьюдента tp, которое сравнивают с табличным tТ [ q ; ЧCC] при выбранном уровне значимости q (в инженерных расчетах обычно q =0,05) и ЧСС=N-2 . При tp > tT Н0 отвергается.

В случае нормальной гипотезы КК выступает не только индикатором наличия связи между переменными, но и мерой их связи. Несомненный интерес представляет интервальная оценка КК, т.е. доверительные пределы для истинного КК. Поскольку выборочные распределения rˆ при r ≠ 0 достаточно сложные, чтобы ими пользоваться в практических целях, используют статистику z, введенную

 

 

 

1

 

 

 

ˆ

 

 

 

 

 

 

 

Фишером

ˆ

 

ln

1 r

. При N>10

ˆ

подчинается нормальному рас-

 

 

 

ˆ

z

 

 

 

z

 

 

 

2

 

1 r

 

 

 

 

 

 

 

пределению

 

N(

1

ln

1 r

 

r

 

;

1

) . Пусть по результатам

 

 

 

 

 

 

 

 

 

 

 

2 1 r

 

2(N 1) N 3

 

N=19 наблюдений выборочный КК оказался равным rˆ =0,64. Найдем вначале 95 %-ный доверительный интервал zˆ z zˆ :

29

ˆ

 

1

 

1 0,64

 

0.64

 

ˆ

 

1

 

 

1

 

1

 

 

z

 

 

ln

 

 

 

 

 

0,776, Dz

 

 

 

 

 

 

, 1,96

 

 

0,49.

2

1 0,64

 

2 18

 

19 3

 

16

16

(Заметим, что 95% плотности нормального распределения стандартизованных переменных лежит в диапазоне [-1,96;1,96]).

Отсюда 0,276≤z≤1,266. Воспользовавшись обратной функцией к преобразованию Фишера – r (e2z 1) /(e2z 1) , можно найти границы доверительного интервала для r.

2.1.2. Частный коэффициент корреляции (ЧКК)

Большое значение парного коэффициента корреляции r между переменными х1 и x2 казалось бы говорит о достаточно тесной линейной связи между этими переменными. Однако эта связь может носить опосредованный характер – существуют переменная х3, одновременно влияющая и на х1, и на x2, что и обусловливает высокую корреляцию последних. Частный коэффициент корреляции вводится как мера связи переменных х1 и x2 , при условии, что они «очищены» от влияния других переменных. Элиминируем линейные связи как между х1 и х3, так и между х2 и х3. Для этого построим две парные линейные регрессии (см. главу 3): х1 на х3 и х2 на х3

– причем эти уравнения будем строить для центрированных переменных, иначе отклонений от средних, сохранив для удобства те же обозначения для переменных:

x1i a1x3i

u1i ,

x2i a2 x3i

u2i ,

i 1,2,...,N.

 

Оцененные остатки составят

u2

x2 a2 x3 .

(2.5)

u1

x1

a1x3,

ˆi

i

ˆ i

ˆi

i

ˆ

i

 

Эти остатки и есть «очищенные» значения исходных переменных. Частный коэффициент корреляции между х1 и х2 в предположении, что х3 – константа, обозначается r12.3 (точкой отделяется фиксированная переменная) и вычисляется как обычный коэффи-

 

 

 

ˆ i

ˆ i

:

 

 

 

циент корреляции между остатками u1

,u2

 

 

 

ˆ

 

 

uˆ1i

uˆ2i

 

(2.6)

 

 

 

 

 

 

r12.3

(uˆ1i )2

(uˆ2i )2 .

30