Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Прикладная статистика Для презентации в интерне...doc
Скачиваний:
24
Добавлен:
11.11.2019
Размер:
3.81 Mб
Скачать

3.2. Графическое представление двумерных выборок — диаграммы рассеяния

Графическое представление одномерной выборки – это гистограмма. Двумерные выборки удобно представлять с помощью так называемых диаграмм рассеяния. Каждый элемент двумерной выборки представляется точкой на плоскости с координатами (xi, yi), i = 1,2,…,n. Диаграммы рассеяния, представляющие двумерные выборки из наших примеров, приведены на рис.3.1 – 3.3.

На рис. 3.1 хорошо видно, что точки на диаграмме рассеяния группируются относительно некоторой прямой, причем чем больше слов в предложении, тем больше в нем букв. В таком случае говорят, что между числом слов и числом букв в предложении существует положительная линейная корреляция (слово “корреляция” означает связь). Во втором случае (см. рис. 3.2) хорошо заметна отрицательная линейная корреляция между массой монеты и ее возрастом. Точки на третьей диаграмме рассеяния (см. рис. 3.3) расположены хаотически. Следует допустить отсутствие связи между числом очков, выпавшим на первом кубике, и числом очков, выпавшим на втором. Другими словами разумно предположить, что случайные величины Х и Y- числа очков, выпавшие на первом и втором кубике соответственно, независимы.

. 3.2

Рис. 3.2

Рис. 3.3

3.3. Выборочный коэффициент корреляции — числовая характеристика двумерной выборки

В теории вероятностей числовой мерой линейной связи между случайными величинами Х и Y служит коэффициент корреляции ρ(Х,Y), определяемый по формуле

.

Коэффициент корреляции обладает следующими свойствами:

  1. Если X и Y независимы, то ρ(Х,Y) = 0.

  2. | ρ(Х,Y) | ≤ 1.

  3. | ρ(Х,Y) | = 1 тогда и только тогда, когда случайные величины X и Y связаны линейной зависимостью Y = aX + b.

В математической статистике аналогом является выборочный коэффициент корреляции r, определяемый по формуле

.

Нетрудно убедиться в следующих свойствах выборочного коэффициента корреляции:

  1. | r | ≤ 1.

  2. | r |= 1 тогда и только тогда, когда точки (xi, yi) лежат на одной прямой.

  3. Если точки (xi, yi) расположены на диаграмме рассеяния хаотически, то значение r весьма близко к нулю. Значение r может оказаться близким к нулю и в случае группировки точек относительно некоторой кривой, например, параболы.

Вычислим значение выборочного коэффициента корреляции для наших трех случаев. Для удобства будем использовать таблицы.

Пример с текстом (табл. 3.1).

Таблица 3.1

i

xi

yi

xi yi

xi2

yi2

1

3

12

36

9

144

2

8

41

328

64

1681

3

19

122

2318

261

14884

4

41

203

8323

1681

41209

5

22

106

2332

484

11236

6

12

52

624

144

2704

7

35

197

6895

1225

38809

8

9

42

378

81

1764

9

72

439

31608

5184

192721

Окончание табл. 3.1

10

53

247

13091

2809

61009

Сумма

274

1461

65933

12042

366161

Отсюда:

= 27,4; Sx2 = 1204,2 – 27,42 = 453,44; Sx = 21,3;

= 146,1; Sy2 = 36616,1 – 1462 = 15270,9; Sy = 123,58;

= 6593,3; r = = 0,984 .

Это значение весьма близко к единице. Число букв и число слов в предложении почти линейно зависят друг от друга.

Пример с монетами (табл. 3.2)

Таблица 3.2

i

xi

yi

xi yi

xi2

yi2

1

5

2,82

14,1

25

7,95

2

9

2,85

25,65

81

8,12

3

14

2,80

39,2

196

7,84

4

17

2,80

47,6

289

7,84

5

23

2,79

64,17

529

7,78

6

31

2,78

86,18

961

7,73

7

35

2,77

96,95

1225

7,67

8

42

2,79

117,18

1764

7,78

9

46

2,75

126,5

2116

7,56

10

50

2,72

136

2500

7,40

Сумма

272

27,87

753,53

9686

77.67

r = = -0,83 .

Такое значение r указывает на достаточно сильную отрицательную линейную зависимость между возрастом монеты и ее массой.

Пример с кубиками (табл. 3.3).

Таблица 3.3

i

xi

yi

xi yi

xi2

yi2

1

4

5

20

16

25

2

6

1

6

36

1

3

5

2

10

25

4

4

1

3

3

1

9

5

1

6

6

1

36

6

5

1

5

25

1

7

1

1

1

1

1

Окончание

табл. 3.3

i

xi

yi

xi yi

xi2

yi2

i2

8

5

6

30

25

36

9

6

2

12

36

4

10

6

6

36

36

36

Сумма

40

33

129

202

153

= -0,07

Такое маленькое значение r указывает на отсутствие связи между результатами бросаний кубиков, что соответствует интуитивному представлению о независимости бросаний.

В дальнейшем выражение будем обозначать через Sxy и назовем его выборочной ковариацией.