Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Гусев / Методы научных исследований

.pdf
Скачиваний:
172
Добавлен:
22.05.2015
Размер:
1.43 Mб
Скачать

Если две случайные величины независимы, то дисперсия их суммы равна сумме дисперсий [5]:

D{X +Y }= D[X ]+ D[Y ]

(5.1.)

C другой стороны по определению дисперсии имеем:

D{X +Y }= M [X +Y M (X +Y )]2 = M [(X M {X })+ (Y M {Y })]2 =

= M [X M {X }]2 + 2M [(X M {X })(Y M {Y })]+ M [Y M {Y }]2 = + D[X ]+ D[Y ]+ 2M [(X M {X })(Y M {Y })]

(5.2.)

Для независимых случайных величин третий член уравнения (5.2.) равен 0. Если он не равен 0, то по определению (см. 5.1) X и Y зависимы.

Выражение M [(X mx )(Y my ]> 0 называется корреляционным моментом или ковариацией Cov{XY}, а безразмерная величина rxy коэффициентом корреляции:

rxy =

M [( X mx )(Y my )].

 

δxδy

Для независимых случайных величин rxy =0. Коэффициент корреляции характеризует только линейную зависимость между X и Y .

В практических расчетах используют выборочный коэф-

фициент корреляции rxy*

определяемый на основе выбороч-

ных средних и дисперсии:

 

 

 

 

n

 

r*

=

(xi x)( yi y)

 

i=1

.

 

xy

 

(n 1)Sx Sy

 

 

 

5.3. Регрессия

Зависимость между случайными величинами полностью определяется условной функцией распределения. Использование функции распределения на практике затруднительно, по этому пользуются условной средней my и условной дис-

71

y = ϕ(X ) не из-

персией δy2 . Зависимость условного среднего my от случайной величины X называется регрессией.

Пусть имеется две случайные величины А и В, принимающие соответственно значения аi и bi между которыми есть некая статистическая зависимость. Графически эту зависимость можно выразить «облаком данных», соответствующим значениям реализации случайных величин А и В – (ai, bi), i = 1…n. Такая картина, как правило, возникает при экспериментальных исследованиях в силу названных выше причин.

Если для случайных величин (А и В) задана условная функция распределения, то в качестве кривой берут математическое ожидание случайной величины B , при условии, что случайная величина A приняла значение a :

в = (В/А = a M) = ϕ( b = M (B / A = a)= ϕ(a)a)

Уравнение ϕ(a) называется уравнением регрессии B от

A .

Буквально слово «регрессия» для характеристики связи случайных величин не очень подходит. Его ввёл в математику английский учёный Ф. Гальтон. При сопоставлении роста детей с ростом их родителей, он обнаружил довольно слабую связь между ростом отцов и детей и объяснил это влиянием более отдалённых предков – дедушек, прадедушек и т.д. Движение назад он и назвал регрессией, хотя в математике под этим термином подразумевают просто статистическую связь между случайными величинами.

Как правило, вид уравнения регрессии вестен и его необходимо подобрать.

Формально, функция y = ϕ(X ) должна проходить через все математические ожидания случайной величины B - bi , и в принципе такую функцию можно подобрать, исходя, из их огромного многообразия. Однако на практике применяют

72

другой подход. Учитывая, что в силу разброса данных в облаке, и из соображений практическидостаточной точности модели процесса, функцию y = ϕ(X ) можно заменить другой функцией Y = f (X ), которая наиболее близко примыкает к исходной, и такую функцию принято называть уравнением приближённой регрессии.

При обработке экспериментальных данных находят уравнение приближённой регрессий, оценивая величину и вероятность этой приближённости. Эта задача решается методом регрессионного анализа.

5.4. Метод наименьших квадратов

Уравнение приближённой регрессии (его численные коэффициенты) определяют по методу наименьших квадратов. Основной постулат метода состоит в следующем: наилучшее уравнение приближённой регрессии даёт та функция, для которой сумма квадратов отклонений имеет наименьшее значение:

n

Ф = [ yi f (xi )]2 min ,

i=1

f (xi )) – принятый вид функции - как модель уравнения регрессии.

Если y = f (x, b0 , b1 , b2 ,.....bn ) дифференцируемая функция и требуется определить значения численных коэффициентов b0 , b1, b2 ,....bn так чтобы:

n

Ф = [ yi f (x, b0 , b1, b2 ....bn )]2 = min ,

i=1

то необходимым условием минимума Ф(b0 , b1 , b2 ....bn ) является выполнение равенств:

Ф = 0;

Ф = 0........

Ф = 0 ;

b0

b1

bn

или

 

 

73

n

f (xi )

n

 

f (xi )

 

yi

f (xi , b0 , b1 , b2

.....bn )

= 0 ;

b0

 

i=1

i=1

 

b0

 

 

 

 

(5.1)

n

f (xi )

n

 

f (xi )

 

yi

f (xi , b0 , b1 , b2

.....bn )

= 0 .

b1

 

i=1

i=1

 

b1

 

………………………………………….

n

f (xi )

n

 

f (xi )

 

yi

f (xi , b0 , b1 , b2

.....bn )

= 0

bn

 

i=1

i=1

 

bn

Количество уравнений в системе, столько же, сколько неизвестных коэффициентов (b0 , b1, b2 ....bn ) входит в уравнение регрессии, то есть система (5.1) является системой нормальных уравнений.

Решить систему (5.1) в общем виде нельзя. Для этого надо задаться видом функции f .

Допустим, требуется определить по методу наименьших квадратов коэффициенты линейного уравнения:

Y = b0 + b1 x

по выборке объёма n.

Система нормальных уравнений имеет вид:

n

n

 

yi (b0 + b1xi ) = 0 ;

i =1

i =1

 

n

n

 

yi xi (b0 + b1xi )xi = 0 ;

i =1

i =1

 

или

 

 

n

n

 

yi = nb0 + b1 xi ;

i=1

i=1

 

n

n

n

yi xi = b0 xi + b1

xi2 ;

i=1

i=1

i=1

коэффициенты b0 и b1 находятся из решения этой системы.

74

Выборочный коэффициент корреляции r* :

 

n

 

r* =

(xi x)( yi y)

 

i =1

.

(n 1)Sx Sy

 

 

Пример. Рассмотрим возможность составления уравнения регрессии для коэффициента теплопроводности λ строительного материала (бетона) от его плотности ρ . В таблице 5.2 приведены результаты экспериментального определения λ для семи образцов бетона с различной плотностью.

Таблица 5.2

 

 

Коэффициент тепло-

 

 

 

(λ

* ρ)

ρ2

 

Плотность

 

проводности λ

i

Среднее

λ

 

 

 

 

 

 

i

i

Опыта

кг/ м3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

λ

 

 

 

 

 

1

1,2

0,62

 

0,66

0,64

 

0,65

0,64

0,771

1,44

0,63

2

1,4

0,74

 

0,73

0,76

 

0,75

0,75

1,043

1,96

0,78

3

1,6

0,86

 

0,88

0,90

 

0,88

0,88

1,408

2,56

0,93

4

1,8

1,08

 

1,1

1,09

 

1,09

1,09

1,962

3,24

1,07

5

2,0

1,21

 

1,24

1,25

 

1,23

1,23

2,465

4,00

1,22

6

2,2

1,36

 

1,37

1,38

 

1,37

1,37

3,014

4,84

1,37

7

2,4

1,48

 

1,46

1,47

 

1,5

1,48

3,546

5,76

1,52

Сумма

12,6

 

 

 

 

 

 

7,44

14,21

23,80

 

Каждый образец материала изготавливался в четырех экземплярах, для каждого из которых определялся λ .

Коэффициенты:

 

 

 

 

n=7

 

 

 

 

 

 

b

=

λi

b1

 

 

 

 

i=1

 

 

= -0,26,

 

 

 

 

 

0

 

n

 

 

 

 

n

=7

n=7

n=7

 

 

 

b

 

nλi ρi

λi ρi

= i=1

i=1

 

i=1

1

 

 

 

 

 

 

 

 

n=7

n=7

2 =0,73.

 

 

nρi2

ρi

 

 

 

i=1

i=1

 

Соответственно уравнение выглядит следующим образом:

λ = 0,73ρ 0,26 .

(5.2)

75

Таблица 5.3

Плотность

Среднее

(λ

λ))i2

ρ

Опыта

кг/ м3

 

 

 

 

 

λ

 

 

 

1

1,2

0,64

0,00010

2

1,4

0,75

0,00078

3

1,6

0,88

0,00212

4

1,8

1,09

0,00026

5

2,0

1,23

0,00006

6

2,2

1,37

0,00000

7

2,4

1,48

0,00144

Cумма:

 

 

 

 

0,00476

Коэффициент теплопроводности

 

 

 

 

1,60

 

 

 

 

 

 

1,50

 

 

 

 

 

 

1,40

 

 

 

 

 

 

1,30

 

 

 

 

 

 

1,20

 

 

 

 

 

 

1,10

 

 

 

 

 

 

1,00

 

 

 

 

 

 

0,90

 

 

 

 

 

 

0,80

 

 

 

 

 

 

0,70

 

 

 

 

 

 

0,60

 

 

 

 

 

 

1,2

1,4

1,6

1,8

2,0

2,2

2,4

 

 

 

Плотность

 

 

 

Рис.5.1 Апраксимация экспериментальных значений

коэффициента теплопроводности линейной моделью

После определения коэффициентов уравнения их значение необходимо сравнивать с ошибками воспроизводимости и адекватности – то есть провести регрессионный анализ. Обычно его проводят по следующей схеме.

1. Проверяется однородность дисперсии в каждом опыте. Если число повторений в каждом опыте одинаково, то ее проводят по критерию Кохрена (Кочрена) — G :

76

G =

S2

max

 

n

 

Si2 .

 

i =1

Распределение G зависит от числа опытов n и степени свободы f = m 1. Если G G1p,(n; f ), то при выбранном уровне значимости p расхождения между дисперсиями случайны. Следовательно, дисперсии однородны, и их можно усреднить.

2. Оценка значимости коэффициентов производится по критерию Стьюдента- t :

 

 

 

 

t j =

| bj |

,

 

 

 

 

 

 

 

 

 

 

 

 

Sbj

 

 

 

 

 

 

где bj

j -й коэффициент уравнения регрессии.

Sbj – среднеквадратичное отклонение i - го коэффициен-

та.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

b

j

 

2

 

 

Sbj =

 

 

Si2 ;

 

 

 

yi

 

 

 

 

i=1

 

 

или для b0

и b1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

Sb0 =

 

Sвоспр2 xi2

 

 

 

 

 

 

 

i=1

 

 

 

n

 

 

 

 

 

n

 

 

 

 

nxi2 (xi2 )2 ;

 

 

 

 

i=1

 

 

 

 

 

i=1

 

 

Sbi =

 

Sвоспр2

n

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

nxi2 (

xi )2 .

 

 

 

 

i=1

 

 

 

 

 

i=1

Если ti больше табличного tp, f

 

 

 

для выбранного уровня

значимости

p

и степени свободы f

= n 1, то коэффициент

bi значимо отличаются от нуля.

Незначимые коэффициенты

исключается из уравнения регрессии.

77

3. Адекватность проверяется по критерию Фишера- F :

F =

 

S

2

 

 

 

 

ад

;

 

 

 

2

 

 

 

 

 

 

 

 

Sвоспр

 

 

fад

= n l ,

 

 

Где l – число оставшихся коэффициентов в уравнении,

после исключения незначимых.

 

 

 

 

 

 

Для одинакового числа параллельных опытов m1 = m2

mn = m :

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

Sад2 =

 

m( yi yi )2

 

 

 

 

i=1

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

n l

 

 

 

 

n

 

 

m

 

 

 

 

Sвоспр2 =

∑∑( yi yi )u2

 

i=1

u=1

 

 

 

.

 

 

 

 

 

 

 

 

 

 

n(m 1)

 

 

Уравнение регрессии считается адекватным эксперименту при доверительной вероятности β , если выполняется условие:

 

 

табл

 

 

(5.3)

 

F F( β; f1 ; f2 )

 

Проведем регрессионный анализ для нашего примера.

Критерий Кохрена

 

 

 

 

 

G =

S 2

=

0,000292

= 0,202

 

max

 

 

 

n

0,001442

 

 

Si2

 

 

 

 

i=1

 

 

 

 

Табличное значение критерия G(1p,n, f ) при числе степе-

ней свободы

f = 4 1 = 3

и

доверительной вероятности

β =0,95 равно G(0,95;7;3) = 0,48 . Следовательно, дисперсии однородны.

Дисперсия воспроизводимости Sвоспр :

Sвоспр2 = 70,0208* (4 1) = 0,001

78

Среднеквадратичные отклонения коэффициентов составляют:

 

 

 

 

7

 

 

 

 

 

 

 

Sb0

=

Sвоспр2 λi2

 

2

=

0,001* 23,8

 

= 0,055 ;

7

 

 

7

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

7 * 23,8 158,76

 

 

 

7λi

λi

 

 

 

 

 

 

 

 

i=1

 

i=1

 

 

 

 

 

 

 

Sb1

=

Sвоспр2 n

 

 

=

0,001* 7

 

= 0,029 .

7

 

 

7

2

 

7 * 23,8 158,76

 

 

7λi2

 

λi

 

 

 

 

 

 

 

 

i=1

 

i=1

 

 

 

 

 

 

 

Значения критериев Стьюдента для коэффициентов уравнения (5.2):

t0 = | 0,26 | =

0,26

= −4,71 ;

t1

= | 0,73 | =

0,73

= 24,68 .

0,107

0,058

Sbi

 

 

Sbi

 

Табличное значение критерия Стьюдента при числе сте-

пеней свободы воспроизводимости

 

fвоспр = n(m 1) = 21 и до-

верительной вероятности 0,95 равно t(0,95;21) = 2,08 . И так, как оба расчетных критерия Стьюдента коэффициентов больше табличного, то, следовательно, нет оснований исключать их из уравнения регрессии.

Проверку уравнения регрессии на адекватность экспериментальным значениям выполняется по критерию Фишера

F:

-дисперсия адекватности

 

7

 

 

 

 

 

 

4(

 

λi )2

 

 

 

 

λ

 

4 * 0,00476

 

Sад2 =

i=1

=

= 0,0038

7 2

5

 

 

 

Расчетный критерий Фишера:

F =

S

2

=

0,0038

= 3,8

 

ад

 

Sвоспр2

0,001

 

 

 

79

Табличное значение критерия Фишера для уровня значимости p=0,05 и степеней свободы адекватности f1 = n l = 5 и воспроизводимости f2 = n(m 1) = 7 * (4 1) = 21 равно F(табл0,95;5;21) = 2,7 , что меньше расчетного. Из этого следует, что для приведенных условий эксперимента полученные результаты удовлетворительно не описываются линейным уравнением. Здесь возникает довольно типичная ситуация: с одной стороны максимальная ошибка в описании результатов эксперимента оставляет всего 4%, что вполне удовлетворительно для практических расчетов, с другой стороны уравнение не может быть принято к использованию из-за формального невыполнения требований проверки по критерию Фишера. Основной причиной этого несоответствия является слишком малая дисперсия воспроизводимости. И парадокс статистической проверки заключается в том, что чем «тоньше» эксперимент, тем сложнее добиться адекватного его описания математической функцией.

Если уравнение регрессии представляет собой полином некоторой степени, то для нахождения коэффициентов этого полинома необходимо решить систему линейных уравнений.

Пусть функция имеет вид параболы второго порядка:

Y = b0 + b1 x1 + b2 x2 .

При этом:

f (x) =1;

f (x) = x;

f (x) = x2 .

b0

b1

b2

Используя формулы системы (5.1), получим:

 

n

n

n

 

b0n + b1 xi +b2

xi2 = yi

 

 

i=1

i=1

i=1

 

n

n

n

n

 

b0 xi +b1

xi2 + b2 xi3 = yi xi

(5.4)

i =1

i =1

i =1

i =1

 

n

n

n

n

 

b0 xi2 +b1

xi3 + b2 xi4 = yi xi2

 

i=1

i=1

i=1

i=1

 

80