Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ms

.pdf
Скачиваний:
288
Добавлен:
05.02.2016
Размер:
3.12 Mб
Скачать

Кореляційно-регресійний аналіз функціональної залежності При малому обсязі даних виникає необхідність перевірки отриманої

функціональної залежності. Для цього використовують методи багатофакторного кореляційно-регресійного аналізу.

Оцінку практичної значущості отриманої функціональної залежності проводять за допомогою індексу кореляції, який характеризує щільність зв’язку:

 

 

 

 

 

 

 

 

 

 

R =

σ факт2

 

,

(2.23)

 

 

 

 

 

 

 

 

 

 

 

σ заг2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

å( f (xi ,b) −

 

)2

 

 

 

 

 

 

 

 

2

 

y

- факторна дисперсія результативної ознаки у,

де σ факт

=

 

 

 

 

 

 

 

 

n −1

 

 

å(yi

 

 

 

 

 

 

 

 

 

 

)2

 

 

 

 

 

 

 

 

 

2

 

y

- його загальна дисперсія.

 

σ заг

=

 

 

 

 

 

 

 

n −1

 

 

 

 

 

 

 

 

 

 

 

 

 

Для розрахунку індекса кореляції можна скористатись також формулою у матричному вигляді [Общая теория статистики]:

R =

b(X T y)n y2

(2.24)

yT y n y

2

 

Індекс детермінації R2 характеризує, яка частина загальної варіації результативної ознаки у пояснюється фактором х. Якщо більше половини загальної варіації результативної ознаки у пояснюється впливом фактора х, то застосування методів функціонального аналізу для вивчення кореляційного зв’язку являються виправданими, а синтезовані при цьому аналітичні моделі визнаються придатними для їх практичного застосування. Звідси, функціональна залежність практично значима, якщо R2>0,5 або R>0,7. Якісну оцінку щільності зв’язку проводять традиційно за шкалою Чеддока (табл 2.4):

Таблиця 2.4

Якісна оцінка щільності зв’язку за шкалою Чеддока

Інтервал, якому належить

Якісна оцінка щільності

значення індексу кореляції

зв’язку

0,1÷0,3

слабкий зв’язок

0,3÷0,5

помірний зв’язок

0,5÷0,7

помітний зв’язок

0,7÷0,9

сильний зв’язок

0,9÷0,99

дуже сильний зв’язок

41

Оцінку істотності індекса кореляції проводять за критерієм Фішера:

F =

 

 

R2

× n - k -1

,

(2.25)

1

- R2

 

k

 

 

Знайдене значення критерію порівняюють із критичним значенням критерію Фішера, який знаходиться із статистичних таблиць при рівні значимості 0,05, кількості ступенів вільності чисельника k та кількості ступенів вільності знаменика n-k-1. Якщо F>Fкр, то значення індексу кореляції визнається істотним.

Критичне значення критерію Фішера можна знайти, скориставшись вбудованою в програмне забезпечення Mathcad-функцією qF:

Fкр=qF(0.95, k, n-k-1).

(2.26)

Оцінку статистичної значимості коефіцієнтів регресії проводять за

критерієм Ст’юдента у такий спосіб. Спочатку розраховують діагональні елементи матриці (ХТ·Х)-1:

d j = ((X T X )−1 )jj , j = 0,1,...k .

(2.27)

Потім знаходять дисперсію

s

2

=

å( f (xi ,b) - yi )2

. Спостережуване

 

n - k -1

 

 

 

 

 

значення критерію Ст’юдента знаходиться окремо для кожного параматру bj за формулою:

t j =

 

 

bj

 

 

.

(2.28)

 

 

 

 

 

 

 

 

 

 

d j × s2

 

 

 

 

 

Критичне значення критерію Ст’юдента знаходять із статистистичних таблиць при рівні значимості 0,05 та кількості ступенів вільності n-k-1. Якщо tj>tкр, знайденого з таблиць критерію Ст’юдента при рівні значимості α=0,05 та кількості ступенів вільності n-2, то коефіцієнт bj визнається значимим. Критичне значення критерію Ст’юдента можна знайти, скориставшись функцією qt програмного забезпечення Mathcad:

tкр=qt(0.95,n-k-1).

(2.29)

Довірчий інтервал для коефіцієнту bj визначається за формулою:

 

 

(2.30)

bj ± tкр d j s2

Знання довірчого інтервалу надає досліднику можливість оцінити величину похибки отриманого значення параметру.

Реалізація методу найменших квадратів засобами програмного забезпечення представлена на рисунках 2.13-2.16.

42

Рисунок 2.13. Лістинг Mathcad-програми: формування масиву значень

43

Рисунок 2.14. Продовження лістингу Mathcad-програми: розрахунок параметрів функціональної залежності

44

Рисунок 2.15. Продовження лістингу Mathcad-програми: розрахунок критерію найменших квадратів

та розрахунок індексу детермінації

45

Рисунок 2.16. Продовження лістингу Mathcad-програми: значимість параметрів та розрахунок довірчих інтервалів параметрів функціональної залежності.

46

Апроксимація функціональної залежності за методом χ2 У методі апроксимації за методом найменших квадратів вважається,

що точність спостережуваних значень приблизно однаково. У випадках, коли відомо, що точність спостережуваних значень суттєво відрізняється, доцільно використовувати апроксимацію за методом χ2.

Оцінка значень параметрів функціональної залежності здійснюється за методом χ2:

 

2

n

æ

 

ö2

 

 

 

 

ç

f (xi ,b) - yi ÷

 

 

χ

 

(b) = åç

 

÷

® min

(2.31)

 

σ i

 

 

i =0

è

ø

 

 

де σі - середнє квадратичне відхилення спостережуваного значення уі.

У випадку, коли точність визначення всіх уі однакова з формули (2.31) отримуємо наступну формулу визначення критерію χ2:

 

2

n

æ

 

ö

2

1

n

2

 

 

 

 

ç

f (xi ,b) - yi ÷

 

 

 

 

χ

 

(b) = åç

 

÷

=

 

 

å ( f (xi , b) - yi )

 

® min

(2.32)

 

σ i

σ

2

 

 

 

i=0

è

ø

 

 

i=0

 

 

 

де σ - однакове для всіх спостережуваних значень уі середнє квадратичне відхилення.

Значення параметрів bj, які отримані за критерієм (2.32) та за критерієм (2.15), співпадають. Але значення критерію χ2 не залежить від розмірності у, а значення критерію (2.15) –сильно залежить від розмірності величини у. Дійсно, значення критерію найменших квадратів суттєво відрізняється при значеннях у, вимірюваних у сотнях або у сотнях тисяч, а значення критерію χ2 у цих самих випадках приймає однакові значення.

Уявіть, що два дослідники обмінюються досвідом з апроксимації функціональної залежності методом найменших квадратів: у одного з них значення критерію найменших квадратів складає 0,01, а в іншого – 100,5. У кого з них ліпший результат апроксимації? Виявляється, що на це питання відповісти неможливо, доки обидва не порівняють спостережувані значення у своїх дослідах. Значення критерію найменших квадратів 0,01 при спостережуваних значення у порядку 1 може вважатись задовільним. Але те ж значення критерію найменших квадратів при спостережуваних значеннях у порядку 0,01 не може важатись задовільним, оскільки похибка величини (0,01 = 0,1) перевищує в десятки

разів саму величину. Ті ж самі дослідники, коли користуються критерієм χ2, можуть легко порівняти свої результати: менше значення критерію χ2 відповідає більш точному результату апроксимації.

З формули (2.31) випливає, що параметри функціональної залежності обираються таким чином, щоб найліпше задовольняти даним спостережень, які визначені з більшою точністю, і, можливо гірше задовольняти даним спостережень, які визначені з меншою точністю. На рисунку 2.17 графік функціональної залежності, що знайдена за методом χ2, більш щільно притискається до точок з більшою точністю.

47

Розраховане за формулою (2.31) значення критерію χ2 порівнюють із табличним значенням χ2кр, яке знаходять при кількості ступенів вільності, що дорівнює кількості спотережуваних даних мінус один і мінус кількість шуканих параметрів функціональної залежності, та рівні довірчої ймовірності 0,95:

χ2кр =qchisq(0.95, n-1-k),

(2.33)

де qchisq – Mathcad-функція, що знаходить значення критерію χ2кр , n -

кількість спостережуваних значень, k - кількість параметрів функціональної залежності.

y

σі

- спостережува-

(yi-yif)

yі

 

не значення

 

- розраховане

yif

 

 

значення

 

f(x)

- точність спосте-

 

 

режуваного зна-

 

 

чення

x

хі хn

Рисунок 2.17. До пояснення методу χ2

Якщо χ2<χ2кр, то функціональна залежність, що знайдена за методом χ2, з довірчою ймовірністю 0,95 відповідає даним спостережень. В іншому випадку потрібно змінити вид функціональної залежності.

Використання критерію χ2 має суттєві переваги перед використанням критерію найменших квадратів. Проте використання його обмежене, оскільки дослідник не завжди має інформацію про точність вимірювання даних.

2.3. Приклади розв’язання задач

Задача 1. За даними спостережень, які наведені у таблиці 2.5, визначити закон розподілу випадкової величини «кількість телефонних викликів таксі».

Таблиця 2.5

Дані спостережень про кількість телефонних викликів таксі

 

 

 

 

Кількість 10-хвилинних ін-

Відносна

Кількість ви-

тервалів з кількістю

частота влучень,

кликів, і

викликів і, ni

pi=ni/n

0

70

0,311

1

85

0,378

2

52

0,231

3

14

0,062

48

 

 

Продовження таблиці 2.5

4

3

 

0,013

 

 

5

1

 

0,004

 

 

 

n = Σn i= 225

 

Σpi = 1

 

Розв’язання. Гістограма частот має вигляд, представлений на рису-

нку 2.18:

ni

85

 

 

 

 

 

 

 

 

 

 

70

 

 

 

52

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

5

 

 

1

 

 

2

 

3

4

ζ

 

 

 

 

 

 

Рисунок 2.18. Гістограма частот

З вигляду гістограми частот доцільно припустити, що дана випадкова величина має розподіл Пуассона (див. табл. 2.2):

P(k) =

λk

e−λ , k = 0,1...n ,

k!

 

 

де λ - параметр закону розподілу.

Для оцінки параметру закону розподілу обчислимо середнє та середнє квадратичне відхилення випадкової величини «кількість телефонних викликів таксі»:

ς = (0 × 70 +1×85 + 2 × 52 + 3×14 + 4 × 3 + 5 ×1)/ 225 = 1,102 ~μ,

D = (70 × (0 -1,102)2 + 85 × (1-1,102)2 + ... +1× (5 -1,102)2 )/(225 -1) = 0,976 ~σ2.

Оскільки параметр закону розподілу Пуассона λ = μ = σ 2, то приймемо гіпотезу про значення λ = 1,039=(0,976+1,102)/2. Обчислимо значення ймовірності влучення випадкової величини у значення і за формулою (див. табл. 2.2):

piT = e−1.039 ×1,039i , і=0, 1,…5. i!

Результати розрахунків представлені у таблиці 2.6

Оскільки кількість спостережуваних значень випадкової величини достатньо велика (225>100), для оцінки відповідності закону розподілу застосуємо критерій χ2. Критерій χ2 вимагає, щоб кількість влучень у кожний інтервал була не менша 5, тому об’єднаємо сусідні групи. Розрахунок критерію χ2 представлений у таблиці 2.7.

49

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблиця 2.6

 

 

 

Розрахунок очікуваної кількості влучень

 

 

 

 

 

 

 

 

 

за теоретичним законом розподілу

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Значення

 

 

Ймовірність влучення

 

 

Очікувана кількість

випадкової

 

випадкової величини,

 

 

влучень у значення,

величини,

 

 

T

 

e−1.039

×1.039i

 

 

 

n·piT

i

 

 

pi =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

0,354

 

 

 

 

 

 

 

79

 

 

1

 

 

 

 

0,368

 

 

 

 

 

 

 

83

 

 

2

 

 

 

 

0,191

 

 

 

 

 

 

 

43

 

 

3

 

 

 

 

0,066

 

 

 

 

 

 

 

15

 

 

4

 

 

 

 

0,017

 

 

 

 

 

 

 

4

 

 

 

5

 

 

 

 

0,004

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

Σpi = 1

 

 

 

 

 

Σn i= 225

 

 

 

 

Розрахунок критерію χ2

 

Таблиця 2.7.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Значення

 

Очікувана кількість

 

Спостережувана

 

Розрахунок крите-

випадкової

 

влучень у значення,

 

кількість влучень

 

рію ,

 

(n

 

- n × pT )2

величини, i

 

 

 

n·piT

 

 

 

 

 

 

у значення, ni

 

 

 

i

i

 

 

 

 

 

 

 

 

 

 

 

 

n × piT

0

 

 

79

 

 

 

 

 

 

70

 

 

 

 

1,025

 

1

 

 

83

 

 

 

 

 

 

85

 

 

 

 

0,048

 

2

 

 

43

 

 

 

 

 

 

52

 

 

 

 

1,884

 

3

 

 

15+4+1

 

 

 

 

 

 

14+3+1

 

 

 

0,2

 

 

 

 

å=225

 

 

 

 

 

 

å=225

 

 

å=3,157

 

Отже, маємо

 

 

 

 

(n

 

- n × pT )2

 

 

 

 

 

 

 

 

 

 

 

 

 

χ 2

 

 

å

i

= 3,157 .

 

 

 

 

 

 

 

 

 

 

=

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

n × piT

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Табличне значення χ2кр знаходиться з таблиць при кількості груп k=4 та кількості ступенів вільності m=4-1-1=2: χ2кр =5,99. Порівнюючи розраховане та табличне значення χ2< χ2кр приходимо до висновку, що досліджувана випадкова величина із довірчою ймовірністю 0,95 відповідає закону розподілу Пуассона із параметром 1,039.

Відповідь. Випадкова величина «кількість телефонних викликів таксі» із довірчою ймовірністю 0,95 відповідає закону розподілу Пуассона із параметром 1,039.

Задача 2. Визначити закон розподілу випадкової величини «тривалість обслуговування клієнта» за наступними даними спостережень (табл. 2.8):

50

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]