Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Konspekt_lekcii Зандер

.pdf
Скачиваний:
16
Добавлен:
01.06.2015
Размер:
624.83 Кб
Скачать

Коэффициент вариации имеет смысл абсолютной меры рассеяния, который применяется для сравнения меры рассеяния в разных числовых совокупностях, поскольку остальные рассмотренные меры рассеяния измеряются в тех же единицах, что и сами признаки.

Выборочной квантилью называется решение уравнения

Fn(x) = p;

в частности, выборочная медиана есть решение уравнения

Fn(x) = 0; 5:

Содержательно медиана — срединное (центральное) значение в упорядоченном ряду значений признака, или величина, обладающая тем свойством, что число единиц совокупности с большими значениями признака и число единиц с меньшими значениями его одинаково. Применительно к кривой распределения медиану можно определить как такое значение признака на оси абсцисс, что ордината, проходящая через него, делит площадь кривой на две равные части. Однако это определение не всегда однозначно. Если имеется нечетное число различных наблюдений, например 2n+1, то n+1-е значение по порядку нарастания значения будет единственным, отвечающим понятию медианы. Если же число наблюдений 2n, то любое число между n-м и n + 1-м значением удовлетворяет нашему требованию. В таких случаях за медиану принимают среднюю арифметическую из n-го и n + 1-го значения.

Мода — значение признака, которое соответствует максимальной точке теоретической кривой, наилучше подобранной к действительному распределению. Она представляет наиболее часто встречающееся или типичное значение.

В симметричном распределении среднее арифметическое, мода и медиана равны. Для умеренно асимметричных распределений существует соотношение

Xмода = X 3 (X Xмедиана):

11

t ; n
6 t ; n;

Все виды средних характеризуют уровень числовой совокупности, т. е. то значение признака, вокруг которого концентрируются прочие значения. К характеристикам меры рассеяния (амплитуды рассеяния) относятся уже перечисленные дисперсия, среднеквадратическое отклонение и коэффициент вариации. Сюда также относится простейшая мера рассеяния — вариационный размах

R = Xmax Xmin:

б) Отсев грубых погрешностей.

Для практического использования целесообразно использовать простейшие методы отсева грубых погрешностей. Например, для выборок небольшого объема (n 6 25) можно воспользоваться методом вычисления максимального относительного от-

клонения:

jxi xj

S

где xi — крайний (наибольший или наименьший) элемент выборки, по которой подсчитывались x и S;

— табличное значение статистики t, вычисленной при доверительной вероятности p = 1 .

Таким образом, для выделения аномального значения вычисля-

ют

t = jxi xj; S

которое затем сравнивают с табличным значением t ; n: если

t 6 t ; n;

то наблюдение не отсеивают, в противном случае наблюдение отсеивают, — после чего характеристики эмпирического распределения пересчитывают по данным сокращенной выборки.

Для больших выборок отсев грубых погрешностей проводят с использованием таблиц распределения Стьюдента1.

1Стьюдент (англ. Student) — псевдоним английского математика и статистика Уильяма´ Сили´ Госсета´ (англ. William Sealy Gosset; 1876—1937).

12

в) Проверка распределения на нормальность.

Если большое число значений количественного признака зарегистрировано в той последовательности, в какой они встретились в действительности, то трудно охватить подлинный смысл наблюденного. Для того, чтобы выявить характерные черты явления, нужно сжато выразить данные, для чего и служат группировка и анализ распределения численностей.

Разбиение на классы проводится либо по правилу Штюргеса, когда число классов k определяется как

k = 1 + 3; 32 lg n;

либо число классов определяется произвольно, причем тогда при выборе интервала руководствуются двумя условиями:

1)возможностью без большой ошибки приравнять все значения признака, отнесенные к какой-либо группе, срединному значению интервала;

2)для удобства и краткости делать интервал достаточно большим.

Поскольку эти два условия противоречивы, то в каждом случае интервал выбирается в зависимости от количества наблюдений, но не более 25. Интервал, выбранный для группировки, называется групповым интервалом, а численность в пределах отдельного интервала — численностью группы. После группировки данных их можно представить в виде полигона (многоугольника, стороны которого являются отрезками, соединяющими центры интервалов на вертикальных отрезках) численностей или гистограммы (столбчатой диаграммы).

Графическое представление позволяет примерно представить характер распределения числовых данных. Поскольку для целей эконометрического моделирования желательно, чтобы это распределение приближенно соответствовало нормальному закону. К преимуществам нормального распределения относят следующие:

13

нормальное распределение полностью определяется величинами и , причем математическое ожидание определяет положение кривой относительно оси абсцисс, а среднеквадратическое отклонение определяет форму кривой (чем больше , тем кривая становится более пологой, основание более широким);

кривая нормального распределения симметрична относительно среднего значения;

очень большие и очень малые значения переменной маловероятны;

примерно 2=3 всех наблюдений лежит в площади, от-

секаемой перпендикулярами к оси ( ). Для нормального распределения мода, среднее и медиана совпадают.

Некоторое представление о близости эмпирического распределения к нормальному может дать анализ показателей асимметрии и эксцесса.

Показатель асимметрии определяется по формуле

m3

g1 = m32=2 :

Для симметричных распределений m3 = 0 и g1 = 0.

Для нормального распределения

m4 = 3:

m22

Для удобства сравнения эмпирического распределения и нормального в качестве показателя эксцесса принимают величину

m4

g2 = m22 3:

г) Преобразование распределения к нормальному.

Если выяснено, что гипотеза нормальности распределения не может быть принята, то возможно преобразование исходных

14

данных таким образом, что их распределение будет подчиняться нормальному закону. Причем, после получения окончательного результата надо выполнить обратное преобразование.

Для распределений, имеющих крутую правую ветвь гистограммы и пологую левую, выполняются преобразования матрицы исходных данных по формулам:

x0 = lg(x a) 10b;

x0 = x1;

01 x = px:

Для распределений, смещенных влево, матрицу исходных данных преобразуют по формуле x0 = xa (при a = 1; 5; 2).

15

Тема 2.2. Корреляционный анализ

Лекция 2.2.1. Основные понятия.

Двумерная корреляционная модель

Корреляционный анализ (корреляционная модель) — метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по

многомерному нормальному закону.

Две случайные величины являются корреляционно связанными, если математическое ожидание одной из них меняется в зависимости от изменения другой. Корреляционный анализ позволяет количественно оценивать связи между большим числом взаимодействующих явлений, ряд из которых неизвестен. Его применение делает возможным проверку различных гипотез о наличии и силе связи между явлениями, а также

гипотезы о форме связи.

 

 

Рассмотрим две случайные величины X

и Y .

Общую

картину их взаимосвязи дает изображение

точек

выборки

(x1; y1); (x2; y2); : : : ; (xn; yn) на координатной плоскости, которое называется корреляционным полем.

Мерой линейной статистической связи двух случайных величин, имеющих нормальное распределение, является коэффициент парной кор-

реляции.

Выборочный коэффициент корреляции определяется по формуле

rxy =

 

n

n

=

 

 

 

 

:

 

niP

 

 

 

 

(xi

x

)(yi

y

)

 

xy

 

x

 

y

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

s

 

 

 

 

x y

 

 

 

i=1(xi x)2

i=1(yi y)2

 

 

 

 

P

P

 

 

 

 

 

 

 

где n — объем выборки,

i — индекс наблюдения в выборке,

xi; yi — наблюдения над случайными величинами X и Y , x и y — выборочные средние случайных величин X и Y ,

x и y — среднеквадратичные отклонения случайных величин X и Y , xy — выборочное среднее произведения случайных величины X и Y .

16

Парный коэффициент корреляции характеризует степень приближения статистической связи к функциональной. В двумерном случае он отражает взаимосвязь случайных величин и не зависит от того, какая из величин X или Y является причиной, а какая — следствием, т. е.

rxy = ryx:

Величина коэффициента корреляции лежит в интервале от 1 до

1, причем значение jrj = 1 свидетельствует о чисто функциональной линейной зависимости между переменными, соотношение r = 0 — об их полной взаимной независимости. Положительный коэффициент корреляции свидетельствует о прямой связи величин, т. е. с ростом X увеличивается Y . Отрицательный коэффициент корреляции говорит об обратной зависимости.

Для того, чтобы коэффициент корреляции действительно свидетельствовал о наличии причинной взаимообусловленности между X и Y , необходимо выполнение требования их совместного нормального распределения , а также отсутствие в выборочных данных аномальных наблюдений. Однако, даже несмотря на выполнение этих требований, возможны ситуации, когда r не отражает реальной связи. Например, это происходит, когда на исследуемые переменные значимо воздействует некий третий, не учтенный при исследовании фактор. При этом подсчеты приводят к положительному значению коэффициента корреляции, тогда как истинная связь между исследуемыми переменными имеет отрицательный смысл. Такая корреляция называется «ложной».

В практических исследованиях о тесноте корреляционной зависимости судят фактически не по величине генерального коэффициента корреляции, а по величине его выборочного аналога r. Обычно же исходная статистическая информация представляет собой выборочные данные (случайно попавшие в выборку из генеральной совокупности), поэтому необходимо проверить надежность, статистическую значимость полученных по ним коэффициентов корреляции. Надежность коэффициентов корреляции ослабевает с уменьшением числа наблюдений. При 4— 5 наблюдениях коэффициент корреляции, равный 0,6—0,7, может быть статистически незначим, т. е. отражать не действительную зависимость

17

= r u ; n

между явлениями, а случайные колебания выборки.

В этом случае формируются две гипотезы: об отсутствии линейной корреляционной связи между переменными в генеральной совокупности

H0, т. е. r = 0; если же в процессе проверки гипотеза H0 будет отвергнута, то делается вывод о значимости (существенности, достоверности) коэффициента корреляции r, т. е. принимается гипотеза H1: r 6= 0.

Правило, по которому гипотеза H0 принимается или отвергается, называется статистическим критерием.

При справедливости гипотезы H0 статистика критерия

p

jrj n 2 t = p

1 r2

имеет t-распределение Стьюдента с (n 2) степенями свободы. Поэтому гипотеза H0 отвергается, т. е. выборочный коэффициент

корреляции значимо отличается от нуля, если: tрасч > t ; n 2;

где t ; n 2 — табличное значение критерия Стьюдента, определенное на уровне значимости при числе степеней свободы (n 2).

Для значимого коэффициента корреляции r целесообразно найти доверительный интервал (интервальную оценку), которая с заданной надежностью p = 1 содержит (точнее, «накрывает») неизвестный коэффициент корреляции генеральной совокупности . Доверительный интервал строится из нормальной распределенности r. Концы интервала можно вычислить по приближенной формуле

1 r2 pn :

Здесь u ; n — критическая точка стандартного нормального распределения, соответствующая уровню значимости ;

n — объем выборки.

Для малой выборки (n < 25) границы доверительного интервала для рассчитывают по формуле

1 r2

= r t ; pn 2;

18

где t ;

— критическая точка распределения Стьюдента при уровне значимости и числе степеней свободы = n 2.

При отклонениях исследуемой зависимости от линейного вида коэффициент корреляции r теряет свой смысл как характеристика степени тесноты связи. В случае нелинейной зависимости тесноту связи между величинами оценивают по величине корреляционного отношения.

Величина

v

un

 

u P

 

y

2

 

 

 

 

 

(yi

yi)2

 

u

 

 

(yi

 

b)

 

 

yx =

u

1

i=1

 

 

 

 

;

 

i=1

 

 

 

 

 

u

 

 

n

 

 

 

 

 

 

t

 

 

P

 

 

 

 

 

где ybi = f (xi) — результат вычислений на основе уравнения парной регрессии, получила название эмпирического корреляционного отношения Y по X. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость X по сравнению с неучтенными факторами, тем выше yx.

Величина yx2 , называемая коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией X.

Аналогичным образом вводится эмпирическое корреляционное отношение X по Y :

v

 

 

i=1(xi xi)2

xy = u1

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

u

P

 

 

 

2

 

 

x

 

u

 

(xi

 

b)

 

 

u

 

i=1

 

 

 

 

u

 

P

 

 

 

 

 

t

 

 

 

 

 

 

где xbi = f (yi) — результат вычислений на основе уравнения парной регрессии,

Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки n).

1.Корреляционное отношение есть неотрицательная величина, не превосходящая 1: 0 6 6 1.

2.Если = 0, то корреляционная связь отсутствует.

3.Если = 1, то между переменными существует функциональная зависимость.

19

4.yx 6= xy, т. е. в отличие от коэффициента корреляции r при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую — зависимой.

Проверка значимости корреляционного отношения основана на том,

что статистика

2(n m) F = (1 2)(m 1)

(здесь m — число интервалов по группировочному признаку) имеет известное в теории F -распределение Фишера2 — Снедекора3 с f1 = m 1

и f2 = n m степенями свободы. Поэтому значимо отличается от нуля, если F > F ; f1; f2 , где F ; f1; f2 — табличное значение F -критерия на уровне значимости при числе степеней свободы f1 = m 1 и f2 = n m.

2Сэр Рональд Эйлмер Фишер (англ. Sir Ronald Aylmer Fisher; 1890—1962) — английский статистик и биолог.

3Джордж Уоддел´ Снедекор´ (англ. George Waddel Snedecor); 1881—1974) — американский математик и статистик.

20