Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
malyuzhenko_m_v_statistika_oporni_lekci.doc
Скачиваний:
7
Добавлен:
08.05.2019
Размер:
696.32 Кб
Скачать

5. Перевірка істотності зв’язку.

Може статися така ситуація, коли випадково розподіл результативної ознаки по групах відбувся так, ніби, зв’язок є, коли насправді його нема. Або навпаки зв’язку нема, а групові середні величини випадково виявили тенденцію зростання. Бо всі дослідження базуються на емпіричних даних, а тому кожна конкретна ситуація не обов’язково буде співпадати з загальною закономірністю масового явища. Від таких випадків ніхто не застрахований і тому треба якось враховувати цю випадкову можливість прийняття невірного рішення. Цю проблему досліджував Р. Фішер і встановив, що чим більша загальна сукупність і чим на більше число груп ми її розбиваємо, тим достовірніший отримуємо результат (прояв закону великих чисел). Р. Фішер запропонував критерії, за допомогою яких можна встановити ймовірність того, що між ознаками дійсно є статистичний зв’язок, коли розрахунки на нього вказують. Їх два: критерій Фішера, та F – критерій.

1. Критерій Фішера:

Визначають ступені свободи k1 = m-1 і k2 = n-m (n – чисельність сукупності, m – кількість груп). А далі користуються таблицями критичних значень η²кр, що відповідають певному рівню істотності (тобто Р. Фішер знайшов ті значення η², які могли б виникнути випадково без наявності зв’язку). Якщо розраховане значення перевищує критичне, то вважається, що зв’язок між ознаками дійсно існує. Рівнем істотності щодо висновків про наявність зв’язку задаються наперед і потім по відповідних таблицях Фішера визначають η²кр.

Як і всі інші оцінки у статистиці, істотність гарантується не 100%, а з певною ймовірністю. Ця ймовірність задається рівнем істотності. Наприклад рівень істотності зв’язку α = 0,05 означає, що у 5 випадках із 100 при дійсній наявності статистичного зв’язку між ознаками розраховане значення η² не перевищує η²кр (ризик першого роду).І, відповідно у 5 випадках зі 100 при відсутності зв’язку η² перевищує η²кр (ризик другого роду). Тобто підхід, розроблений Фішером, дозволяє задаватись ймовірністю того, що ми можемо помилитись, визначаючи щільність зв’язку методом дисперсійного аналізу.

2.Аналогічно використовують F – критерій:

F = η² k2 (1- η² ) k1.

Розраховане значення F порівнюють з критичним значенням F кр. Обидва критерії дають ідентичні оцінки, оскільки F і η² функціонально пов’язані. F – критерій застосовують у тих випадках, коли ступені свободи приймають великі значення, бо його таблиці критичних значень менш громіздкі.

(Лекція 11)

Факти – це пісок, що скрежетить

В шестернях ясної теорії.

С. Гарцинський.

6. Метод кореляційно-регресійного аналізу.

Не завжди буває можливо розбити певну сукупність на групи так, щоб у кожній групі факторна ознака майже не варіювала. В таких випадках щільність зв’язку визначають за допомогою метода кореляційно-регресійного аналізу. Вихідною інформацією при цьому виступає , так звана, ламана регресії – ламана лінія, яка графічно відбиває залежність: фактор – середнє значення результату. Ця лінія будується на підставі емпіричних даних (тобто отриманих на підставі реального дослідження).

ПРИКЛАД – у певній країні по всіх регіонах досліджується залежність між кількістю автомобілів і кількістю ДТП за рік на 1000 населення .

0,7

0,6

0,5

0,4

0,3

60 70 80 90 100 110 120 130

Основна ідея зводиться до наступного: коли ламана регресії на значних ділянках приймає вигляд, що дуже нагадує певну математичну функцію, то вважається, що є підстави моделювати (принаймні на цих ділянках) залежність між фактором і результатом відповідною теоретичною функцією. Таке припущення дозволяє зробити відповідну апроксимацію. Підібний підхід виправдовується тим, що у багатьох різних за своєю природою явищах, залежність між ознаками дійсно описується однаковими кількісними співвідношеннями. Це якраз та властивість навколишнього світу, яка свого часу привела Піфагора до висновку, що основою гармонії всесвіту є кількісні співвідношення. У своїх відомих “золотих віршах” давньогрецький вчений стверджував, що “природа світу цього однорідна”.

Аналітичне моделювання залежності ФАКТОР-РЕЗУЛЬТАТ має назву рівняння регресії., що задає певну теоретичну лінію регресії (на графіку зображена пунктиром).

Рівняння регресії Y= f(x) – це аналітична модель реальної залежності між ознаками, яка дозволяє абстрагуватись від множини додаткових чинників, що теж впливають на реальну величину результативної ознаки. В деяких випадках рівняння регресії має за мету штучно спростити характер цієї залежності, а тому відбиває його більш – менш правдоподібно. Інакше кажучи при такому підході вважається, що дійсна залежність між фактором і результатом відповідає певній математичній функції і тільки вплив різних додаткових чинників спотворює цю гармонію і замість красивої математичної функції ми змушені задовольнятись ламаною регресії.

Зрозуміло, що якщо залежність між ознаками можна навести у вигляді функції Y= f(x), то це означає, що значення результату (Y) залежить лише від величини фактора (x) і більше не від чого (100% залежність). Бо знаючи х ми на 100 % можемо гарантувати, що величина Y при цьому буде Y= f(x).

Вплив різних додаткових чинників викликає відхилення емпіричних даних (y) від теоретичної кривої (Y). Відхилення емпіричних даних від теоретичної лінії е = (y – Y) називають залишками.

Y – це теоретичний (очікуваний) рівень результативної ознаки. (на графіках показано пунктиром). Зрозуміло, якщо отриманий емпіричний результат не співпадає з очікуваним, то це вказує на те, що результативна ознака залежить не тільки від факторної, але ще й від інших додаткових чинників. І чим залишки більші, тим вплив додаткових чинників на результат більш суттєвий, тобто тим менше залежить результат безпосередньо від фактору (тим менша між ними щільність зв’язку).

У статистиці використовують різні математичні види рівняння регресії, що моделюють різні види зв’язку:

  • лінійне Y = a + bx;

  • степеневе Y = aх³;

  • гіперболічне Y = a + b/x;

  • параболічне Y = a + bx + сх²;

  • логарифмічне Y = loga х

ПРИКЛАД –залежність між урожайністю і кількістю внесених добрив, залежність собівартості продукції від обсягу її виробництва.

Якщо кривизна ламаної регресії невелика, то використовують лінійну залежність: Y = a + bx; а – вільний член рівняння регресії ( у при х = 0), b – коефіцієнт регресії і розглядається, як ефект впливу. Вибір параметрів рівняння регресії здійснюється на підставі методу найменших квадратів.

Σ (y – Y)² = min;

Це дозволяє забезпечити, в певному розумінні, мінімальні розбіжності між емпіричною і теоретичною лініями регресії на всьому діапазоні спостережень.

Математично доведено, як на підставі одержаних емпіричних даних(у1, у2, у3, …) отримати коефіцієнти лінійного рівняння (a, b) такі, щоб вони відповідали умові найменших квадратів.

Вимір щільності зв’язку у методі КРА грунтується на припущенні, що при повній незалежності ознак Х і Y відхилення результату Y від свого середнього рівня (за знаком і за величиною) ніяк не пов’язані з відповідними відхиленням фактору Х від свого середнього рівня.

Графічну залежність між фактором і результатом при незалежності ознак відобразити неможливо. І навпаки, при наявності сильної залежності (тобто тільки від фактору) зміна фактору завжди приведе до однозначного характеру зміни результату. А це вже можна відобразити графічно. Обидві картини кореляційного поля надано на малюнках, які наводять залежність між зростом і доходом (нема зв’язку), та зростом і масою (прямий зв’язок) для однієї і тієї ж самої сукупності людей.

Маса Дохід

Зріст Зріст

Оскільки завжди, коли тільки можливо люди намагаються йти шляхом найменшого опору, то і при дослідженні залежності між ознаками в переважній більшості випадків зв’язок між ознаками намагаються моделювати лінійною залежністю. Навіть якщо загальна залежність нелінійна, на окремих ділянках її можна вважати лінійною. Вимір щільності зв’язку при лінійній залежності між ознаками здійснюють за допомогою коефіцієнта кореляції К. Пірсона. Основна ідея полягає у тому, що при наявності лінійного зв’язку і його відсутності змінюється загальна картина кореляційного поля – або спостерігається скупчення значень навколо певної лінії, або загальна картина розмазується.

Відхилення факторної ознаки х в ту, чи іншу сторону від свого середнього значення по сукупності і відповідні їм відхилення результативної ознаки Y мають знаки + і -. Δх= х- х¯, Δу = у- у¯. Знак добутку Δх Δу залежить від напрямку відповідних відхилень ознак.

ˉ

+

+

ˉ

Х¯

А сума всіх можливих добутків Σ (Δх Δу) буде зростати тим сильніше, чим краще виконуються дві наступні умови:

  • більше узгодженості у взаємних відхиленнях фактор-результат за знаком;

  • більше узгодженості взаємних відхилень за величиною .

Г ранична сума цих добутків дорівнює:  Σ Δ²х Σ Δ²y

Коефіцієнт кореляції визначається відношенням зазначених сум:

r = Σ (Δх Δу) /  Σ Δ²х Σ Δ²y

Коефіцієнт кореляції, оцінюючи щільність зв’язку, вказує також його напрямок (прямий чи зворотній). Він характеризує інтенсивність лінійного зв’язку. Змінюється від –1 до +1. Оцінюється щільність зв’язку за такими критеріями:

Ступінь

Величина r

Сильний

1,0 – 0,7

Середній

0,7 – 0,3

Слабкий

0,3-0,1

Частіше за все при дослідженнях використовують наступну формулу для розрахунку коефіцієнта лінійної кореляції:

r =(х у – х * у ) ∕ σх σу

Коефіцієнт кореляції функціонально пов’язаний з коефіцієнтом регресії:

r = bσх/σу

Коли зв’язок між ознаками нелінійний, то коефіцієнт кореляції не надає коректної інформації про щільність звязку, оскільки при нелінійній залежності внески всіх Δу у коефіцієнт кореляції нерівнозначні. При пропорційній зміні Δх спостерігається непропорційна зміна Δу, що порушує другу умову зростання суми добутків.

Важливою характеристикою взаємозв’язку ознак є відносний ефект впливу фактора х на результат у. Він має назву коефіцієнта еластичності:

γ = bх¯/ у¯

Він показує на скільки % у середньому змінюється у зі зміною х на 1%.

Універсальною мірою щільності звязку між ознаками при всіх видах залежності в методі КРА є коефіцієнт детермінації R, який знаходять на підставі трьох наступних видів дисперсії результативної ознаки: загальної σ²у, що характеризує середнє відхилення від середнього значення по сукупності дисперсію, факторної δ²., що характеризує умовні (теоретичні) відхилення від середнього рівня і залишкової σ²е, що характеризує середні відхилення між фактичними даними і теоретичними припущеннями результативної ознаки. Для наведеного вище прикладу:

- загальна дисперсія σ²у це параметр, який показує, як в середньому відрізняються фактичні рівні ДТП у різних регіонах країни від середнього рівня ДТП по країні;

- факторна дисперсія δ² характеризує як би в середньому рівень ДТП у різних регіонах країни відрізнявся від середнього рівня ДТП по країні, якби залежність між фактором і результатом відповідала певному рівнянню регресі. Зрозуміло, що скільки різних рівнянь регресії ми оберемо для моделювання залежності, стільки і різних факторних дисперсій отримуємо.

- залишкова дисперсія σ²е характеризує, яка в середньому буде розбіжність між ламаною регресії і рівнянням регресії.

Ці всі дисперсії пов’язані наступним чином:

σ²у = δ² + σ²е

Факторна дисперсія характеризує відхилення теоретичної лінії регресії від середнього значення. Залишкова характеризує середню розбіжність між емпіричними даними і прийнятою теоретичною моделлю. Зрозуміло, що коли емпіричні дані дуже добре “вписуються” в теоретичну лінію регресії, то залишкова дисперсія мінімальна, а факторна майже дорівнює загальній. Знаючи величину фактору можна точно визначити значення результату, а значить результат залежить лише від фактору (сильний зв’язок).

І навпаки, коли теоретичний графік не “вписується” в емпіричні дані, то зростає доля залишкової дисперсії. Це означає, що теоретична крива не дуже “вдало” буде демонструвати залежність фактор-результат. Знаючи величину фактору важко визначитись з середньою величиною результату (зв’язок слабий). Потрібно враховувати ще якісь чинники.

Аналогічно до ДА розглядають коефіцієнт детермінації (і індекс кореляції):

R² = δ²/ σ²у

За відомим лінійним коефіцієнтом кореляції також можна визначити якою мірою варіація результату визначається варіацією фактору. Цей відсоток становить r².

R² = r².

Оскільки коефіцієнт детермінації, як і кореляційне відношення залежить від емпіричних (тобто випадкових) даних, то потрібно визначити істотність отриманих оцінок.

Робиться це порівнянням розрахованих оцінок з критичними. Тобто такими, що могли б виникнути за відсутністю зв’язку. Якщо фактичне значення перевищує критичне, то зв’язок не випадковий.

Для кореляційного відношення і коефіцієнта детермінації використовують критерій Фішера. Для визначення критичного значення він враховує:

- m кількість груп (параметрів рівняння регресії);

  • n загальний обсяг сукупності;

  • ступінь свободи фактора К = m-1;

  • ступінь свободи випадкової дисперсії К = n-m.

Таблиця критичних значень Фішера розроблена для різних значень ймовірності ризику першого роду і дозволяє з певною ймовірністю стверджувати, що тільки у 1, 2, 5 або 10 випадках зі 100 при дійсному існуванні зв’язку між ознаками може випадково виникнути кореляційне відношення, яке не перевищує критичне значення.

При перевірці істотності зв’язку частіше використовують F – критерій Фішера. При великих значеннях ступенів свободи його критичні значення мало змінюються і таблиці менш громіздкі. В якості статистичної характеристики F – критерію Фішера використовують дисперсійне відношення. Між характеристиками є функціональний зв’язок, а тому результати перевірки будуть ідентичні.

R² k2

F =

(1 – R²) k1

(Лекція 12)

Життя створює порядок,

Але порядок не створює життя.

А. С. Екзюпері.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]