Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Прикладная статистика Для презентации в интерне...doc
Скачиваний:
24
Добавлен:
11.11.2019
Размер:
3.81 Mб
Скачать

3.4. Метод наименьших квадратов

Обратимся к примеру с текстом. На рис. 3.1 хорошо видно, что точки (хi, уi) группируются около прямой. Естественным образом возникает задача подбора уравнения этой прямой. Например, для того, чтобы предсказать, сколько примерно букв будет содержать предложение с заданным количеством слов, можно подобрать два уравнения:

y = ax + b (независимая переменная - число слов, функция – число букв);

x = cy + d (независимая переменная - число букв, функция – число слов).

Каждое из таких уравнений называется уравнением регрессии. (Слово “прогресс” означает развитие, движение вперед, слово “регресс” означает упрощение, движение назад). В случае уравнения y = ax + b говорят о регрессии y на x; в случае уравнения x = cy + d говорят о регрессии x на y.

В нашем примере каждая из переменных, как x, так и y, может быть объявлена независимой. Возможны ситуации, когда независимая переменная определяется однозначно. Например, можно исследовать растворимость некоторого вещества (переменная y) в зависимости от температуры растворителя (переменная x). Здесь x – независимая переменная, ее значение можно установить заранее, а y – статистически зависимая переменная. Исследуется только зависимость y от x.

Допустим, мы хотим подобрать коэффициенты уравнения y = ax + b так, чтобы это уравнение наилучшим образом соответствовало экспериментальным данным (xi, yi); i = 1,2,…,n. Но ведь понятие «наилучшим образом» не является строгим. Между точками на рис. 3.1 можно провести бесконечно много «хороших» прямых. Какая же из них «лучшая»?

Общепринятым способом определения неизвестных коэффициентов уравнения регрессии является метод наименьших квадратов, разработанный А. Лежандром (1806 ) и К. Гауссом (1821 ). Идея метода наименьших квадратов такова. Пусть нужно подобрать неизвестные коэффициенты a1, a2,…,ak уравнения регрессии y = f(a1,a2,...,ak, х). Рассмотрим экспериментальную точку (xi,yi) и вычислим отклонение ординаты уi точки от теоретического значения f(a1,a2,...,ak, хi) (рис.3.4).

Рис. 3.4

di= уi f(a1,a2,...,ak, хi) , i = l,2,...,n.

Неизвестные значения a1,a2,...,ak подберем из условия минимизации суммы квадратов отклонений di:

Необходимое (здесь и достаточное) условие существования экстремума функции нескольких переменных  равенство нулю всех частных производных.

Если приравнять нулю частные производные ,…, , получится система из k уравнений для определения k неизвестных чисел a1,a2,...,ak.

Составим эту систему и решим ее в случае линейного уравнения регрессии. Нужно определить два неизвестных коэффициента а и b уравнения прямой y = ax + b. Имеем

Раскрывая скобки, получаем:

Разделим второе уравнение системы на n. Уравнение примет вид

= a + b, откуда b = – a .

Разделим на n первое уравнение системы и подставим в него полученное выражение b через a. После несложных преобразований имеем:

Итак,

a = Sxy / ; b = – a .

Уравнение y = ax + b можно переписать в виде

,

следовательно, наша прямая проходит через точку .

Аналогично определяют коэффициенты c и d линейного уравнения регрессии x на y, x = cy + d.

c = Sxy / d = – c .

Само уравнение можно записать так:

.

В этом случае минимизируется сумма квадратов отклонений по координате x:

.

Найдем коэффициенты линейных уравнений регрессии y на x и x на y для примеров с текстом и монетами. Все необходимые расчеты уже были сделаны при вычислении коэффициентов корреляции (см. пункт 4.3).

Пример с текстом:

=27,4; =146,1; = 6593,3;

Sx2 = 453,44; Sy2 = 15270,9.

Тогда

Sxy = 6593,3 – 27,4 * 146,1 = 2590,3;

b = – a = 146,1 – 5,71 * 27,4 = -10,42.

Уравнение регрессии y на x таково: y = 5,71x –10,42.

Вычислим несколько значений y для разных x.

х

10

20

30

40

50

60

70

у

46,7

103,8

160,9

218,0

275,1

332,2

389,3

Найдем коэффициенты c и d уравнения регрессии x на y.

d = – c = 2,56.

Тогда x = 0,17y + 2,56.

Вычислим несколько значений x для разных y.

y

10

50

100

200

300

400

x

4,3

11,1

19,6

36,6

53,6

70,6

Эти прямые приведены на рис. 4.1. Прямые почти совпадают – еще одно доказательство сильной линейной зависимости между числом слов и числом букв в предложении.

Пример с монетами.

=27,2 ; =2,787; = 75,353; Sx2 = 228,76; Sy2 = 0,00129;

Sxy = 75,353 – 27,2 * 2,787 = -0,45;

b = – a = 2,787 + 0,002 * 27,2 = 2,84. Тогда y=-0,002x + 2,84.

Коэффициент a отрицателен и очень мал. Несколько значений y:

х

5

20

35

50

y

2,83

2,80

2,77

2,74

d = – c = 999,4.

Уравнение регрессии x на y: x = -348,84y + 999,4.

Несколько значений х:

у

2,85

2,80

2,79

2,78

2,77

2,75

х

5,2

22,6

26,1

29,6

33,1

40,1

Эти прямые показаны на рис. 3.2. Прямые не так близки, как в случае с текстом, масса монеты не столь жестко связана с ее возрастом, как число слов и букв в предложении.

3.5. ДРУГИЕ УРАВНЕНИЯ РЕГРЕССИИ

3.5.1. Парабола второго порядка

Уравнение имеет вид y = ax2 + bx + c.

Метод наименьших квадратов дает такую систему линейных уравнений относительно неизвестных коэффициентов а, b, c:

3.5.2. Показательная функция

Уравнение имеет вид y = bxa.

Прологарифмируем левую и правую части, для определенности вычислим натуральные логарифмы

ln(y) = a·ln(x) + ln(b).

Обозначим ln(y) через y1, ln(x) через x1, ln(b) через b1. Получаем уравнение относительно неизвестных коэффициентов а и b1:

y1 = ax1 + b1

Определив по методу наименьших квадратов числа a и b1, найдем

b = eb1.

3.5.3. Степенная функция

Уравнение имеет вид y = bax.

Прологарифмировав левую и правую части, получим линейное уравнение относительно неизвестных параметров

y1 = a1x + b1,

где y1 = ln(y), a1 =ln(a), b1 = ln(b).

После определения параметров a1 и b1 находим числа a и b:

a = ea1, b = eb1.

3.5.4. Гиперболическая функция

Уравнение имеет вид

Положив , получим линейное уравнение относительно а и b:

y1 = ax + b.

О более сложных уравнениях регрессии можно прочитать в специальной литературе по корреляционному и регрессионному анализу.

3.5.5. О квазилинейном уравнении регрессии

Уравнение регрессии будем называть квазилинейным, если оно имеет вид

Здесь неизвестные параметры уравнения регрессии, f1(x),

заданные функции аргумента x.

Это уравнение линейно относительно неизвестных параметров, метод наименьших квадратов дает такую линейную систему уравнений для определения значений

Обозначим теоретические значения через

или просто

Левая часть последнего уравнения системы  сумма теоретических значений величины y, правая часть этого уравнения  сумма выборочных (экспериментальных) значений этой величины. Таким образом, в случае квазилинейного уравнения регрессии, суммы теоретических и эксперимен- тальных значений величины y равны,

Умножим теперь первое уравнение системы на a1, второе  на a2,, последнее, k-е уравнение, умножим на ak. и сложим все уравнения. В результате получим равенство

или

Рассмотрим разность Обозначим через ui разность Из доказанных свойств величин вытекает, что

Отсюда следует равенство

Другими словами

где дисперсия экспериментальных значений yi; дисперсия теоретических значений . Она называется объясненной дисперсией, ведь значения однозначно определяются уравнением регрессии и обладают дисперсией только в том смысле, что разным значениям аргумента x соответствуют разные значения функции . Число называется остаточной (необъясненной) дисперсией. Это  дисперсия разностей (остатков, отклонений) . Эти разности не имеют никакого отношения к уравнению регрессии и поэтому не могут быть объяснены с точки зрения уравнения регрессии. Чем сильнее экспериментальные значения отклоняются от теоретических, тем больше число , тем хуже уравнение регрессии соответствует экспериментальным данным (объясняет экспериментальные данные).

Из сказанного вытекает, что всегда , и равенство достигается, если