Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ПР4_Заболотников_9373

.pdf
Скачиваний:
1
Добавлен:
20.06.2023
Размер:
758.69 Кб
Скачать

МИНОБРНАУКИ РОССИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ «ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА) Кафедра алгоритмической математики

ОТЧЕТ по практической работе №4

по дисциплине «Статистический анализ» Тема: Элементы корреляционного анализа. Проверка статистической

гипотезы о равенстве коэффициента корреляции нулю

Студент гр. 9373

 

Заболотников М.Е.

Преподаватель

 

 

Сучков А.И.

Санкт-Петербург

2021

Цель работы.

Освоение основных понятий, связанных с корреляционной зависимостью между случайными величинами, статистическими гипотезами и проверкой их

«справедливости».

Основные теоретические положения.

Для выполнения данной лабораторной работы были использованы следующие понятия и формулы.

1.Статистическая зависимость – зависимость, при которой изменения одной случайной величины влечёт изменение распределения другой.

2.Корреляционная зависимость – статистическая зависимость, при которой изменение одной случайной величины влечёт изменение среднего значения другой.

3.Корреляционная таблица – таблица вида:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. . .

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

1

 

 

1 1

 

 

 

1 2

 

. . .

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2 1

 

 

 

2 2

 

 

 

 

 

 

 

 

2

 

 

 

. . .

 

 

 

 

 

. . .

 

 

 

 

. . .

 

. . .

 

 

 

 

. . .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. . .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. . .

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В этой таблице и – элементы двух выборочных совокупностей ( и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

соответственно),

 

и

 

 

– их собственные абсолютные частоты, а

 

 

– их

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

общие абсолютные частоты. – это, разумеется, объём выборки (

 

= ).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4.

Межгрупповое среднее – величина, которая считается следующим

образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

̅̅̅ =

∑ ∑

 

 

 

 

 

 

 

 

 

 

(1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1 =1

2

где

и – варианты двумерной случайной величины, а

 

 

 

– их совместные

 

 

 

 

 

 

 

 

 

 

 

 

 

абсолютные частоты.

 

 

 

 

 

 

 

5. Корреляционный момент – величина, которая вычисляется по формуле:

 

 

 

= ̅̅̅ − ̅∙ ̅

 

 

 

(2)

 

 

 

 

 

 

 

6. Выборочный коэффициент корреляции – величина, которая определяет наличие линейной зависимости между двумя совокупностями.

Вычисляется коэффициент корреляции следующим образом:

=

 

 

(3)

 

 

 

 

в

 

 

 

 

 

 

 

 

7.Доверительный интервал коэффициента корреляции – интервал ( 1,

2), границы которого считаются как:

 

 

 

 

 

 

 

1

= ( −

∙ )

 

 

(4)

 

 

 

 

 

 

 

 

1−2

 

 

 

 

 

 

 

 

 

 

2

= ( +

∙ )

 

 

(5)

 

 

 

 

 

 

 

 

1−2

 

 

 

где

 

=

 

1

– стандартная оценка

среднего,

1−

 

= (1 − , ∞), а

 

 

 

 

−3

 

2

=

1

(

1+ в

) – преобразование Фишера.

 

 

 

 

 

 

 

 

 

 

 

2

 

1− в

 

 

 

 

 

 

 

 

8. Относительно выборочного

коэффициента корреляции можно

выдвинуть гипотезу о равенстве нулю генерального коэффициента корреляции.

Для проверки этой гипотезы выдвигают и рассчитывают критерий набл.,

который вычисляется следующим образом:

 

 

 

 

 

 

 

 

 

 

 

=

в

√ − 2

 

 

(6)

 

 

 

 

 

 

набл.

 

√1 − 2

 

 

 

 

 

 

 

 

 

 

в

 

Далее, по таблице, находится значение крит.:

 

крит.

= ( , = − 2)

(7)

Если набл. < | крит.|, то гипотеза принимается. Если же данное неравенство не выполняется, гипотезу отвергают.

3

Постановка задачи.

Из заданной генеральной совокупности сформировать выборку по второму признаку. Провести статистическую обработку второй выборки в объеме практических работ №1 и №2, с целью определения точечных статистических оценок параметров распределения исследуемого признака (математического ожидания, дисперсии, среднеквадратичного отклонения, асимметрии и эксцесса). Для системы двух случайных величин (первый признак) и (второй признак) сформировать двумерную выборку и найти статистическую оценку коэффициента корреляции, построить доверительный интервал для коэффициента корреляции и осуществить проверку статистической гипотезы о равенстве коэффициента корреляции нулю. Полученные результаты содержательно проинтерпретировать.

Исходные данные – значения, полученные в первой и второй лабораторных работах. Программный код представлен в приложении А.

Выполнение работы.

Рассмотрим вторую выборочную совокупность. Данные представим в виде табл. 1:

4

Таблица 1 – Исходная выборка (выборка 2)

 

1

2

3

4

5

6

7

8

9

10

11

12

13

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

63

67

62

63

76

112

182

220

102

30

97

113

113

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

15

16

17

18

19

20

21

22

23

24

25

26

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

38

21

14

30

109

50

37

29

26

26

46

38

25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27

28

29

30

31

32

33

34

35

36

37

38

39

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

22

39

118

48

80

14

36

42

86

410

138

54

172

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

40

41

42

43

44

45

46

47

48

49

50

51

52

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

31

147

204

90

55

24

70

78

141

94

64

43

36

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

53

54

55

56

57

58

59

60

61

62

63

64

65

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

163

145

69

90

42

44

53

89

61

48

245

10

54

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

66

67

68

69

70

71

72

73

74

75

76

77

78

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

60

122

62

54

33

151

126

64

33

82

94

74

244

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

79

80

81

82

83

84

85

86

87

88

89

90

91

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

60

47

57

65

71

102

130

104

135

105

117

56

50

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

92

93

94

95

96

97

98

99

100

101

102

103

104

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

105

100

113

104

75

92

108

66

94

106

50

177

98

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

105

106

107

108

109

110

111

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

55

102

98

97

133

93

147

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сперва, используя теоретические положения (понятия и формулы) из

первых двух лабораторных работ, найдём все необходимые для работы параметры выборочной совокупности:

-математическое ожидание;

-дисперсию;

-среднеквадратичное отклонение (СКО);

-коэффициент асимметрии;

-коэффициент эксцесса;

-моду;

-медиану;

5

- коэффициент вариации.

Результаты представим в виде табл. 2:

Таблица 2 – Основные характеристики второй выборочной совокупности

параметр

 

 

 

 

 

 

 

 

 

 

 

 

 

 

значение

87.4775

3501.7

59.1755

1.9034

 

 

 

 

 

параметр

 

 

 

 

 

 

 

 

 

 

 

 

 

 

значение

7.2087

71.9048

79.0217

67.6466%

 

 

 

 

 

Для удобства приведём также те же параметры для первой выборочной

совокупности (см. табл. 3):

Таблица 3 – Основные характеристики первой выборочной совокупности

параметр

 

 

 

 

 

 

 

 

 

значение

99.8986

1600.7

40.0033

1.4402

 

 

 

 

 

параметр

 

 

 

 

 

 

 

 

 

 

 

 

 

 

значение

5.2083

93.1197

95.6911

40.0439%

 

 

 

 

 

Как мы можем видеть из таблиц, судя по коэффициентам асимметрии и коэффициентам эксцесса, обе выборочные совокупности ведут себя похожим образом. Даже коэффициенты вариации относительно близко друг к другу расположены. Это говорит нам о том, что обе выборки далеки от нормального распределения и являются неоднородными.

6

Для двух данных выборочных совокупностей, а точнее для их интервальных вариационных рядов, имеем двумерный интервальный вариационный ряд. Данные представим в виде табл. 4:

Таблица 4 – Двумерный интервальный вариационный ряд

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(-15; 35]

(35; 85]

(85; 135]

(135; 185]

(185; 235]

(235; 285]

(185; 335]

(335; 385]

(385; 435]

 

 

 

 

 

 

 

 

 

 

(2.8125; 37.1875]

4

0

0

0

0

0

0

0

0

 

 

 

 

 

 

 

 

 

 

 

 

 

(37.1875; 71.5625]

11

4

0

0

0

0

0

0

0

 

 

 

 

 

 

 

 

 

 

 

 

 

(71.5625; 105.9375]

0

42

10

0

0

0

0

0

0

 

 

 

 

 

 

 

 

 

 

 

 

 

(105.9375; 140.3125]

0

0

25

5

0

0

0

0

0

 

 

 

 

 

 

 

 

 

 

 

 

 

(140.3125; 174.6875]

0

0

0

5

1

0

0

0

0

 

 

 

 

 

 

 

 

 

 

 

 

 

(174.6875; 209.0625]

0

0

0

0

1

0

0

0

0

 

 

 

 

 

 

 

 

 

 

 

 

(209.0625; 243.4375]

0

0

0

0

0

2

0

0

0

 

 

 

 

 

 

 

 

 

 

 

 

(243.4375; 277.8125]

0

0

0

0

0

0

0

0

0

 

 

 

 

 

 

 

 

 

 

(277.8125; 312.1875]

0

0

0

0

0

0

0

0

1

 

 

 

 

 

 

 

 

 

 

 

 

7

Теперь, зная частоты обоих рядов, построим корреляционную таблицу (см.

табл. 5):

Таблица 5 – Корреляционная таблица

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

60

110

160

210

260

310

360

410

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

4

4

 

 

 

 

 

 

 

 

 

 

 

54.375

11

4

15

 

 

 

 

 

 

 

 

 

 

 

88.75

42

10

52

 

 

 

 

 

 

 

 

 

 

 

123.125

25

5

30

 

 

 

 

 

 

 

 

 

 

 

157.5

5

1

6

 

 

 

 

 

 

 

 

 

 

 

191.875

1

1

 

 

 

 

 

 

 

 

 

 

 

226.25

2

2

 

 

 

 

 

 

 

 

 

 

 

260.625

0

 

 

 

 

 

 

 

 

 

 

 

295

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

15

46

35

10

2

2

0

0

1

 

 

= 111

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

Чтобы отыскать коэффициент корреляции, перейдём к условным вариантам. Тогда наша корреляционная таблица примет вид (см. табл. 6):

Таблица 6 – Переход к условным вариантам

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

−4

−3

−2

−1

0

1

2

33

4

 

 

 

 

 

 

 

 

 

 

 

 

 

−4

4

4

 

 

 

 

 

 

 

 

 

 

 

−3

11

4

15

 

 

 

 

 

 

 

 

 

 

 

−2

42

10

52

 

 

 

 

 

 

 

 

 

 

 

−1

25

5

30

 

 

 

 

 

 

 

 

 

 

 

0

5

1

6

 

 

 

 

 

 

 

 

 

 

 

1

1

1

 

 

 

 

 

 

 

 

 

 

 

2

2

2

 

 

 

 

 

 

 

 

 

 

 

3

0

 

 

 

 

 

 

 

 

 

 

 

4

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

15

46

35

10

2

2

0

0

1

 

 

= 111

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда, по формуле (1) находим межгрупповое среднее. Результат представлен на рис. 1:

Рисунок 1

Также необходимо найти средние ̅ и ̅:

 

1

 

 

 

 

 

1

 

 

 

 

̅ =

≈ −1.6757,

̅=

 

≈ −2.4505

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

̅̅̅

Далее найдём

и

. Для этого необходимо найти средние квадратов

2

 

 

 

 

 

 

 

 

 

 

 

 

и̅̅̅2:

9

̅̅̅

1

 

 

2

 

 

 

̅̅̅

1

 

 

 

2

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

=

 

 

≈ 4.1622,

 

 

=

 

 

 

≈ 7.4054

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

И теперь мы можем найти

и

следующим образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

̅̅̅

 

2

 

 

 

 

 

 

̅̅̅

 

 

2

 

 

 

= √

2

 

 

 

 

 

= √

2

− ( ̅)

 

≈ 1.1835

 

− (̅) ≈ 1.1637,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Осталось подставить все найденные значения в формулы (2) и (3) и мы получим корреляционный момент и коэффициент корреляции соответственно:

 

 

= ̅̅̅̅ − ̅ ∙ ̅≈ 1.2902,

=

 

 

≈ 0.9368

 

 

 

 

 

 

 

в

 

 

 

 

 

 

 

 

 

Теперь построим доверительный интервал для нашего коэффициента корреляции. По условию задачи надёжность {0.95, 0.99}.

Для = 0.95, исходя из формул (4) и (5), имеем следующие границы

интервала:

 

 

1 = 0.9091,

2

= 0.9562

Для = 0.99, исходя из тех же двух формул, получаем такие границы

интервала:

 

 

1 = 0.8983,

2

= 0.9610

Видно, что оба интервала – (0.9091, 0.9562) и (0.8983, 0.9610)

покрывают данное значение коэффициента корреляции, причём второй интервал покрывает его с большей надёжностью.

И в конце проверим статистическую гипотезу о равенстве генерального коэффициента корреляции нулю. Для этого, по формуле (6), найдём значение наблюдаемого критерия. Результат представлен на рис. 2:

Рисунок 2

10