Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 кореляція регрессия

.pdf
Скачиваний:
16
Добавлен:
04.02.2016
Размер:
807.55 Кб
Скачать

МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ

КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ ТЕХНОЛОГІЙ ТА ДИЗАЙНУ

МАТЕМАТИЧНА СТАТИСТИКА КОРЕЛЯЦІЙНИЙ ТА РЕГРЕСІЙНИЙ АНАЛІЗ

Методичнівказівкидоіндивідуальноїроботи студентівусіх спеціальностей

Київ КНУТД 2012

1

Математична статистика. Кореляційний та регресійний аналіз: методичні вказівки до індивідуальної роботі студентів усіх спеціальностей. / упор.

О.Л. Блохін. – К.: КНУТД, 2012. – 75 с.

Упорядник: Блохін Олександр Леонідович, доц. канд. ф.-м. наук

Відповідальний за випуск Задерей Петро Васильович, професор,

завідувач кафедри вищої математики

Затверджено на засіданні кафедри вищої математики 21.11.2012 р., протокол № 4

2

1. ВСТУП

Сучасна наука виявляє суть явищ через дослідження їх взаємовідносин. Об’єм продукції підприємства пов'язаний з кількістю робітників, вартістю основних фондів і т.д.

Розрізняють два типу взаємозв’язку між різними явищами та їх ознаками – функціональний або точно детермінований, та статистичний або стохастичне детермінований.

Функціональний зв'язок – це такий вид причинної залежності, при якому деякому значенню факторного признака відповідає одне або декілька точно заданих значень результативного признака. Функціональної залежністю між змінними x та y називається правило f , яке кожному елементу з довільної

множини A ставить у відповідність однозначне визначений елемент

y множини B , тобто y f (x) , f : A B . Наприклад, довжина кола та його

площа повністю визначені його радіусом : L 2 r, S r2 . Дослідженням

таких зв’язків статистика не займається.

Стохастичний зв'язок – це вид причинної залежності, який проявляється не в кожному окремому випадку, а «в загальному», «в середньому» при великої кількості спостережень. Стохастичною залежністю між випадковими величинами X та Y , яки звичайно розглядаються як складові двовимірної випадкової величини ( X ,Y ) , називається правило f , за яким кожному числу x

з множини A ( яке є значенням випадкової величини X ) ставиться у відповідність умовний закон розподілу складової Y , тобто, кожному значенню

x відповідає f ( y X x) ( умовна функція щільності). При стохастичної

залежності одна випадкова величина реагує на зміну іншої зміненням свого закону розподілу. Наприклад, зріст дітей залежіть від зросту батьків – в сім’ях, де батьки більш високого зросту , діти в середньому нижче батьків , і навпаки, с сім’ях, де батьки нижче зростом, діти в середньому вище за батьків. Однак, такого роду залежності проявляються тільки при великої кількості спостережень.

Частіше за все на практиці використовують частинний випадок стохастичного зв’язку - статистичний або кореляційний зв'язок – це залежність середнього значення ( математичного сподівання) результативної ознаки Y від значення факторної ознаки X :

M (Y / X x) f (x) ,

в тої час як кожному окремому значенню факторної ознаки може відповідати декілька різних значень результативної ознаки . При цьому таке рівняння називають рівнянням регресії. Методи побудови і дослідження такого рівняння є предметом регресійного аналізу.

Задачами кореляційного аналізу є :

1. дослідження степені близькості зв’язку двох і більше явищ;

3

2.вибір факторів, яки дають найбільш суттєвий вплив на результативну ознаку;

3.знаходження невідомих причинних зв’язків.

Дослідження кореляційних залежностей включає таки етапи :

1.попередній аналіз властивостей сукупності;

2.встановлення факту наявності зв’язку, визначення його напрямку і форми;

3.обчислення степеня близькості зв’язку між ознаками;

4.побудова регресійної моделі, тобто знаходження аналітичного виразу зв’язку;

5.оцінку адекватності моделі, її фактичну інтерпретацію і практичне використання.

Кореляційний зв'язок між ознаками може з’являтися різними шляхами. Найважливіший шлях – причинна залежність результативної ознаки (її варіації) від варіації факторної ознаки. Дуже важливо розуміти сутність явища, що досліджується, оскільки кореляційний зв'язок може виникати між двома наслідками однієї причини. Так, класичним є приклад, що наведений відомим статистиком початку XX в. О.О.Чупровим (1874-1926). Якщо за ознаку X візьмемо кількість пожежних бригад в місті, а за ознаку Y - суму збитків в місті від пожеж, то між ознаками X та Y буде значна пряма кореляція. В середньому, чім більше в місті пожежників, тім більше збитки від пожеж. Так в чому ж справа? Дану кореляцію не можна розглядати як зв'язок причини і наслідку, обидві ознаки – наслідки спільної причині – розміру міста. В великих містах більше пожежних частин але більше і пожеж а , значить, і збитки від пожеж у великих містах більше. Сучасний приклад – у листопаді 2012 року в Україні зросла кількість покупки валюти фізичними особами, а також зріс курс долара – є кореляція між цими величинами. Тут також не можна розглядати ці два явища як причину і наслідок – вони мають спільну причину – загострення фінансовоекономічної кризи, що привело до зростанню курсової ціни валюти і бажання населення зберегти свої заощадження. Такого роду кореляцію називають помилковою кореляцією.

Кореляція виникає також у випадку, коли кожна з ознак є і причина і наслідок. Наприклад, при відрядній платні праці існує кореляція між продуктивністю праці і заробітком. З одного боку, чим вище продуктивність праці, тим вище заробіток. З іншого — високий заробіток сам по собі є стимулюючим чинником, що заставляє працівника працювати інтенсивніше.

З наявності статистичної кореляційної залежності не випливає причинна залежність. Дослідження причинної залежності – не предмет математичної статистики, тому статистичне моделювання не є моделюванням математичним.

По напряму виділяють кореляційний зв'язок прямої і зворотній, по аналітичному вираженню — лінійний і нелінійний.

4

У початковій стадії аналізу статистичних даних не завжди потрібні кількісні оцінки, досить лише визначити напрям і характер зв'язку, виявити форму дії одних чинників на інших.

Статистичними прийомами, що дозволяють виявити або спростувати наявність кореляційної залежності між аналізованими ознаками є:

1.Побудова і аналіз паралельних рядів. При цьому будується ранжируваний ряд значень факторної ознаки і паралельно – ряд відповідних значень ознаки-результату. По погодженій або неузгодженій зміні значень чинника і результату судять про наявність або відсутність залежності.

2.Побудова і аналіз групових таблиць. Групова таблиця будується за правилами аналітичного угрупування. Як групова ознака використовується факторна ознака. По кожній з виділених груп розраховується середнє значення результативної ознаки. Наявність закономірності в зміні середніх величин залежній змінній свідчитиме про присутність кореляційного зв'язку.

3.Побудова і аналіз кореляційних таблиць. На відміну від групових, побудова кореляційних таблиць передбачає угрупування даних і по ознаці - чиннику, і по ознаці - результату. На пересіченні рядків і стовпців проставляють частоти, тобто число одиниць сукупності з даним поєднанням рівнів ознак, що вивчаються. Характер розташування частот на полі таблиці дозволяє висунути припущення про наявність і напрям залежності між ознаками.

4.Графічний метод. Цей метод найчастіше використовується на практиці. У прямокутній системі координат по осі абсцис відкладаються значення ознаки-чинника, а по осі ординат – значення результативної ознаки.

Точки на графіці відповідають одиницям сукупності з конкретними сполученнями значень ознак. Отримуваний точковий графік називають "полем кореляції". По розташуванню точок на графіку судять про

наявність або відсутність залежності, а також про напрямок і міру тісноти кореляційного зв'язку.

Оцінка тісноти зв'язку між ознаками передбачає визначення міри відповідності варіації результативної ознаки від одного або декількох факторних чинників.

Більшість методів виміру тісноти зв'язку полягають в зіставленні відхилень абсолютних значень величин від їх середніх. Вони засновані на припущенні, що при повній незалежності змінних відхилення значень факторної ознаки від середньої X X носять випадковий характер і повинні випадково поєднуватися з різними відхиленнями значень результативної ознаки Y Y . За наявності значної переваги збігів або незбігів відхилень робиться припущення про наявність зв'язку між X та Y .

Врегресійному аналізі можна виділити три складові:

1.визначення типа функції (структури моделі) для опису залежності, що вивчається;

2.розрахунок невідомих параметрів рівняння регресії;

3.оцінку якості моделі.

5

Перший етап регресійного аналізу – пошук лінії регресії, яка б кращим чином апроксимувала поле кореляції. При цьому необхідно враховувати природу показників, що вивчаються, специфіку їх взаємозв'язку, властивості математичних функцій. Проте в даний час процедура вибору кращого рівняння зв'язку формалізована. Сучасні Пакети прикладних програм (ППП) дозволяють одночасно побудувати декілька видів рівнянь, а потім, користуючись спеціальними критеріями, відібрати кращу модель. Як критерій можуть бути використані: максимальне значення коефіцієнта детермінації, максимальне значення f-критерію Фішера, мінімальне значення залишкової дисперсії, мінімальне значення стандартної помилки рівняння, мінімальне значення середньої помилки апроксимації.

Для аналітичного опису зв'язку між ознаками частіше за все використовують наступні види рівнянь:

1.y ax b - лінійна функція, пряма лінія;

2.y ax2 bx c - квадратична функція, парабола;

3. y a b

x

- гіпербола;

 

 

4.y axb - степенева функція;

5.y exp(ax b) -експонента.

Під час другого етапу обчислюються невідомі параметри обраної моделірівняння.

Третій етап регресійного аналізу, як наголошувалося вище, передбачає оцінку якості отриманого рівняння зв'язку. Оскільки рівняння регресії будується, як правило, на основі вибіркових даних, то слід оцінити статистичну значущість параметрів рівняння і рівняння в цілому. Результати оцінки регресійного рівняння можуть бути різними. Можливий варіант, коли рівняння в цілому статистично значимо, а деякі параметри рівняння не значимі. Це означає, що описана залежність результату від аргументів може служити основою для ухвалення деяких управлінських рішень, але отримане рівняння регресії не можна використовувати для прогнозування. Рівняння зв'язку визнається моделлю і може бути використане в цілях прогнозування, якщо статистично значимі і параметри, і рівняння в цілому.

Ми будемо вивчати кореляційний зв'язок тільки між двома випадковими величинами. За межами нашого розгляду залишається багатовимірний кореляційний і регресійний аналіз.

2. ЗАГАЛЬНА ПОСТАНОВКА ЗАДАЧИ РЕГРЕСІЙНОГО АНАЛІЗА

Нехай проведено N незалежних випробувань, в кожному з яких двовимірна випадкова величина ( X ,Y ) набула деяких значень і результати випробувань

6

представлені двовимірною вибіркою типу {(x1, y1),(x2 , y2 ),(x3 , y3 ),.....(xN , yN )}.

Необхідно на основі цієї вибірки з’ясувати характер зв’язку між величинами X та Y , тобто отримати оцінку умовного математичного сподівання

M (Y / X x) f (x) - оцінку регресії Y на X . Ця оцінка представляє собою

деяку функцію :

(x,a1,a2 ,...,am ) M (Y / X x) ,

яка залежить від a1,a2 ,...,am - невідомих параметрів і в деякому сенсі наближається до невідомої функції f (x) .

Таким чином, на основі статистичних даних, що представлені вибіркою з двовимірної випадкової величини, необхідно встановити, чи є залежність між випадковими величинами X та Y , чи її немає, а якщо вона є , то встановити її характер – чи вона є лінійною, квадратичною, показниковою і т. д. , потім обчислити значення невідомих параметрів a1,a2 ,...,am функції (x,a1,a2 ,...,am ) ,

що найкраще наближає теоретичну криву f (x) .

Для визначення типу залежності будуємо діаграму розсіяння або поле кореляції, яку отримуємо, якщо результати випробувань зображаємо точками на площині в декартової системі координат.

рис.1

рис. 2

На наведеному прикладі ( рис. 1) зображені результати 2000 спостережень за двовимірною випадковою величиною. Дивлячись на це поле кореляції , можна припустити, що , скоріше за все , випадкові величини X та Y незалежні. На рис.2 представлені зображення результатів 500 спостережень , дивлячись на яки, можна припустити пряму лінійну залежність між X та Y .

На малюнках 3-5 зображені поля кореляції спостережень за випадковими величинами, про яки можна зробити припущення про наявність кореляційного

зв’язку між X та Y . На рис.3 це може бути кубічна парабола y x3 , на рис.4 – це парабола з рівнянням y x2 , а на рис.5, скоріше за все – синусоїда y sin(x) .

7

рис. 3 (500 точок) рис. 4 (1000 точок) рис. 5 (1000 точок)

Причому на рис. 3 розсіяння точок спостереження навколо регресійної кривої менше за розсіяння точок на рис. 4 і 5. Тобто, можна зробити висновок, що зв'язок між X та Y , що представлені на рис.3 більш тісніший за зв'язок між X та Y , що представлені на рис.4 і 5.

Так саме, спостерігаючи за полями кореляції, що зображені на рис. 6-7,

можна припустити наявність параболічної залежності між X та Y : Y X 2 , але, порівнюючи розсіяння точок спостереження навколо кривої регресії, можна зробити висновок, що у випадку спостережень, яки зображені на рис.6 кореляційний зв'язок тісніший (залежність більш детермінована і менш стохастична), ніж у випадку спостережень, яки зображені на рис.7. Для чисто функціональної залежності поле кореляції перетворюється на графік функції y f (x) - криву лінію.

Рис.6 (1000 точок)

рис.7 (1000 точок)

На основі аналізу кореляційного поля обираємо тип емпіричної лінії регресії

y (x,a1,a2 ,...,am ) ,

яка повинна проходити через поле кореляції таким чином, щоб її графік найкраще наближувався до невідомої лінії регресії

8

M (Y / X x) f (x,a1,a2 ,...,am ) .

На малюнку 8, що наведений нижче, зображено поле кореляції разом з кривою M (Y / X x) f (x) – кубічною параболою y x3 , навколо якій групуються вибіркові дані.

Рис.8 (500 точок)

В даному випадку задача регресійного аналізу – знайти достатньо точне наближення до цієї теоретичної кривої y x3 , яка невідома експериментатору,

виходячи тільки з вибіркових даних.

В багатьох випадках тип залежності може бути обраний , виходячи зі змісту задачі, що розглядається – з теоретичних гіпотез про розподіл величин, що спостерігаються, або з якихось інших міркувань, що пов’язані з сутністю

даної задачі.

 

 

 

Після обрання

модельного

рівняння емпіричної

лінії регресії

y (x,a1,a2 ,...,am )

постає задача

знаходження невідомих параметрів

a1,a2 ,...,am , яки оптимізують , в деякому сенсі, відхилення емпіричної лінії

регресії від невідомої теоретичної.

Ми розглянемо в подальшому тільки один з таких методів оптимізації , який є найпоширенішим на практиці – метод найменших квадратів. Він полягає в тому, що значення параметрів a1,a2 ,...,am обираємо таким чином, щоб сума

квадратів відхилень ординат експериментальних точок від відповідних ординат точок на кривої y (x,a1,a2 ,...,am ) була найменшою:

i N

[ yi (xi ,a1,a2 ,...am )]2 min

i 1

Для розв’язання задачі знаходження екстремальних значень функції багатьох змінних знаходимо частинні похідні від функції

i N

F(a1,a2,...am, ) [ yi (xi ,a1,a2 ,...am )]2

i 1

9

відносно змінних a1,a2 ,...,am , і, прирівнюючи їх до нуля, отримуємо систему m рівнянь :

[ yi (xi ,a1,a2 ,...am )] (xi ,a1,a2 ,...am )

0 ,

j 1,2,...m

i N

 

 

 

i 1

aj

 

 

Розв’язати цю систему в загальному вигляді не можна, для її розв’язання необхідно задати конкретний вид функції y (x,a1,a2 ,...,am ) . Якщо функція

(x,a1,a2 ,...,am ) є многочлен ( поліноміальна регресія):

(x,a1,a2 ,...,am ) a1 a2 x a3 x2 ... am xm 1 ,

то система буде лінійною :

 

 

 

 

 

m N

 

N

 

 

 

 

 

 

 

ak xij k 2

yi xij 1, j 1,2,...m .

 

 

 

 

 

 

k 1 i 1

i 1

 

 

Після ділення на N ( об’єм вибірки ) , отримуємо :

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

ak X j k 2 YX j 1 ,

j 1,2,...m

 

 

 

 

 

 

k 1

 

 

 

 

 

 

оцінка початкового моменту ( j k 2 )-

 

де

X j k 2

-

порядку випадкової

величини X ,

 

початкового

моменту порядку

 

YX j 1

- оцінка мішаного

( j 1,1) випадкових величин X ,Y . Ця

 

система складається з m лінійних

рівнянь, а її коефіцієнтами є початкові моменти.

В подальшому ми будемо розглядати тільки многочлен степеня 1 – лінійну регресію.

y(x) ax b

Вцьому випадку лінійна система для знаходження коефіцієнтів a і b набуває вигляду :

 

N

N

N

a xi2

b xi xi yi

 

i 1

i 1

i 1

 

N

N

 

 

 

b yi

 

a xi

 

 

i 1

i 1

 

Або, після ділення на N , отримуємо :

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]