Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ниче неменяю всё есть.docx
Скачиваний:
10
Добавлен:
22.09.2019
Размер:
665.08 Кб
Скачать

Критерий Стьюдента (t-критерий)

Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух неза­висимыхнесвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой матери­ал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимымисвязанными.

А) случай независимых выборок

Статистика критерия для случая несвязанных, независимых выборок равна:

                                                                             (1)                  

 где   ,    — средние арифметические в эксперименталь­ной и контрольной группах,

 - стан­дартная ошибка разности средних арифметических. Находится из формулы:

    ,                              (2)

где n1 и n2 соответственно величины первой и второй выборки.

Если n1=n2, то стандартная ошибка разности средних арифметических будет считаться по формуле:

                                         (3)

где n величина выборки.

Подсчет числа степеней свободы осуществля­ется по формуле:

k = n1 + n2 – 2.                                                                                     (4)

При численном равенстве выборок k = 2n - 2.

Далее необходимо срав­нить полученное значение tэмп с теоретическим значением t—рас­пределения Стьюдента (см. приложение к учеб­никам статистики). Если tэмп<tкрит, то гипотеза H0 принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.

Случай связанных (парных) выборок

В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.

Вычисление значения t осуществляется по формуле:

                                                                                                       (5)

  где   — разности между соответствующими значениями переменной X и переменной У, а d - среднее этих разностей;

Sd вычисляется по следующей формуле:

                                                                                       (6)

Число степеней свободы k определяется по формуле k=n-1. Рассмотрим пример использования t-критерия Стьюдента для связных и, очевидно, равных по численности выборок.

Если tэмп<tкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

8. Множественная регрессия

Множественная регрессия

Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x1 , x2 , ..., xk и соответствующие значения переменной y; предполагается, что

yi = b o + b 1xi1 + ... + k xik+  i , i = 1, ..., n,                                                     (12)

(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что

M i = 0, M  = 2,

                    M( i  j) = 0, i не равно j,                                                       (12a)

т.е.  i - некоррелированные случайные величины. Соотношения (12) удобно записывать в матричной форме:

Y = X +  ,                                                                        (13)

где Y = (y1, ..., yk)T - вектор-столбец значений зависимой переменной, Т - символ транспонирования,   = ( 0,  1, ...,  k)T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии,   = ( 1 , ...,  n)T - вектор случайных отклонений,

-матрица n x (k + 1); в i - й строке (1, xi1, ...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная - константа, равная 1.

Оценка коэффициентов регрессии. Построим оценку   для вектора  так, чтобы вектор оценок   = Х  зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:

 по  .

Решением является (если ранг матрицы Х равен k +1) оценка

 = (XTX)-1 XTY                                                                                (14)

Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна

D  = (  - b ) (  - b )T = s 2 (XTX)- 1 = s 2 Z ,                                             (15)

где обозначено Z = (XTX)- 1.

Справедлива

теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.

Оценка дисперсии  2 ошибок. Обозначим

e = Y -   = Y - Х  = [I - X (XTX)- 1 XT] Y = BY                                                       (16)

вектор остатков (или невязок); B = I - X (XTX)- 1 XT - матрица; можно проверить, что B2 = B. Для остаточной суммы квадратов   справедливо соотношение

M  = M (n - k -1)  2 ,

откуда следует, что несмещенной оценкой для  2 является

s2 =  .                                                                     (17)

Если предположить, что  i в (12) нормально распределены, то справедливы следующие свойства оценок:

1) (n - k - 1)   имеет распределение хи квадрат   с n-k-1 степенями свободы;

2) оценки  и s2 независимы.

Как и в случае простой регрессии, справедливо соотношение:

 или

Tss = Ess + Rss ,                                                                                      (18)

в векторном виде:

 ,

где   =  . Поделив обе части на полную вариацию игреков

Tss =  , получим коэффициент детерминации

R2 =                                                             (19)

Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R2 = 0, то регрессия Y на x1 , ..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием  . Другой крайний случай R2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации

                          (20)

Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).

Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки   является величина   , оценка для которой

sj = j = 0, 1, ..., k,                                                                        (21)

где zjj - диагональный элемент матрицы Z. Если ошибки  i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика

                                  (22)

распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство

 <= tp sj ,                                                                  (23)

где tp - квантиль уровня (1 + PД) / 2 этого распределения, задает доверительный интервал для  j   с уровнем доверияРД.

Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н0:  1 =  2 = ... =  k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента  0 при константе, используется статистика

F =   =   =   ,                            (24)

распределенная, если Н0 верна, по закону Фишера с k и n - k - 1 степенями свободы. Н0 отклоняется, если

F > F (k, n - k - 1),                                                                             (25)

где F - квантиль уровня 1 -  .

Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого   максимален

11. Сезонные колебания

Первая гармоника:

Вторая гармоника: ,

где параметры гармоники равны: ,

, а1=-219,65, а2=31,67;

, b1=-87,36, b2=34,64.

Задание: показать процесс выравнивания сезонных колебаний по ряду Фурье на условных месячных данных о численности персонала фирмы, связанной с переработкой сельскохозяйственной продукции.