Добавил:
Меня зовут Катунин Виктор, на данный момент являюсь абитуриентом в СГЭУ, пытаюсь рассортировать все файлы СГЭУ, преобразовать, улучшить и добавить что-то от себя Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математика / Лекции / Теория вероятностей.doc
Скачиваний:
40
Добавлен:
09.08.2023
Размер:
1.26 Mб
Скачать

4. Проверка гипотезы о нормальном распределении генеральной совокупности

Во многих практических задачах точный закон распределения исследуемого признака Х генеральной совокупности неизвестен. В этом случае необходимо проверить гипотезу о предполагаемом законе распределения. Выдвигаются нулевая гипотеза Н0 и ей конкурирующая Н1.

Н0: признак Х имеет нормальный закон распределения.

Н1: признак Х имеет закон распределения, отличный от нормального.

Нулевая гипотеза проверяется с помощью критерия согласия.

Критерий 2 (“хи-квадрат”) Пирсона – наиболее часто употребляемый критерий, может применяться для проверки гипотезы о любом законе распределения. Независимо от того, какое распределение имеет Х, распределение случайной величины  2:

,

где – эмпирические частоты, – теоретические частоты; при стремится к  2  распределению с k степенями свободы.

Теоретические частоты определяются, исходя из предположения о законе распределения генеральной совокупности, в данном случае о нормальном законе. Так как , где рi – теоретическая вероятность, то .

Для дискретного ряда:

, где , –дифференциальная фун­кция нормированного нормального распределения, шаг , – выборочная средняя,  – выборочное среднее квадратическое отклонение.

Для интервального ряда:

, где Ф(t) функция Лапласа.

Рассчитав теоретические частоты, находят . Из таблицы критических точек распределения  2 (приложение 4) по заданному уровню значимости (достаточно малая вероятность) и числу степеней свободы k находят (, k) – границу правосторонней критической области (см. рис. 5). Здесь k = s – r – 1 , где s – число различных значений xi дискретного или число интервалов (xi xi ) непрерывного признака Х, r – число параметров предполагаемого закона распределения, для нормального распределения r = 2, отсюда k = s – 3. Затем сравнивают и (, k) и делают вывод.

а) б)

Рис. 5

При формулировке вывода руководствуются следующим правилом:

  • если наблюдаемое значение критерия попало в область принятия гипотезы (  (, k)), как показано на рис. 5 а), то нет оснований отвергать нулевую гипотезу, по данным наблюдения признак Х имеет нормальный закон распределения, расхождение между эмпирическими и теоретическими частотами ( и ) случайное;

  • если наблюдаемое значение критерия попало в критическую область (  (, k)), как показано на рис. 5 б), то нулевая гипотеза отвергается, справедлива конкурирующая гипотеза, то есть признак Х имеет закон распределения, отличный от нормального, расхождение между эмпирическими и теоретическими частотами ( и ) значимо.

5. Парная линейная корреляционная зависимость. Парный линейный коэффициент корреляции, проверка его значимости. Линейное уравнение регрессии

Признаки Х и Y находятся в корреляционной зависимости, если каждому значению одного признака xi соответствует определенная условная средняя другого признака.

Парная корреляционная зависимость будет линейной, если она приближенно выражается линейной функцией. Вид зависимости можно определить графически. С этой целью строятся точки с координатами (xi , ). По расположению построенных точек подбирается линия. Если это будет прямая, то связь линейная.

Целью корреляционного анализа является оценка тесноты связи между признаками. Для этого находится выборочный линейный коэффициент корреляции по формуле

где , , – выборочные средние; – выборочные средние квадратические отклонения.

Так как коэффициент корреляции рассчитывается по выборочным данным и является оценкой генерального коэффициента корреляции rген , то необходимо проверить значимость . С этой целью выдвигаются нулевая и конкурирующая гипотезы:

Н0: rген = 0,

Н1: rген  0.

Нулевая гипотеза проверяется при заданном уровне значимости с помощью случайной величины , имеющей распределение Стьюдента с k = n – 2 степенями свободы:

.

По выборочным данным рассчитывают Тнабл, а по таблице критических точек распределения Стьюдента (приложение 5) находим tкрит.дв(k) с учетом двусторонней критической области. Сравниваем Тнабл и tкрит.дв(k). ЕслиТнабл  tкрит.дв(k), то есть наблюдаемое значение критерия попало в область принятия гипотезы, то нет оснований отвергать нулевую гипотезу, по данным наблюдения rген = 0, rв незначим, признаки Х и Y некоррелированны. А если Тнабл попало в критическую область, то есть Тнабл  tкрит.дв(k), то нулевую гипотезу отвергаем, справедлива конкурирующая, то есть rген  0, rв значим, признаки Х и Y коррелированны.

С помощью rв анализируем тесноту взаимосвязи между признаками X и Y. Чем ближе rв к единице, тем теснее связь между признаками, чем ближе rв к нулю, тем связь слабее.

Далее находим коэффициент детерминации по формуле   100 % , который показывает, на сколько процентов в среднем вариация результативного признака Y объясняется за счет вариации факторного признака X.

Следующим этапом является регрессионный анализ, с помощью которого корреляционную зависимость между признаками приближенно выражаем в виде линейного уравнения регрессии вида   a0 + a1 . Неизвестные параметры a0 и a1 находятся методом наименьших квадратов. Применяя этот метод, получаем следующую систему нормальных уравнений:

Решая систему, находим оценки параметров a0 и a1. Уравнение регрессии можно записать в таком виде:  –   = a1(x –  ), где .

Параметр a1коэффициент регрессии – показывает, как изменится в среднем результативный признак, если факторный признак увеличится на единицу своего измерения. Уравнение регрессии можно использовать для прогнозирования (предсказания).