Лекція 7
Ідентифікація закону розподілу за експериментальними даними
Ідентифікація закону розподілу. Оцінка розподілу по критеріям згоди "хі - квадрат" та Колмогорова - Смірнова.
6.1. Ідентифікація закону розподілу
Якщо деякі з елементів системи поводяться стохастично, то в процесі звичайного моделювання виникає проблема: як перевірити сумісність експериментальних даних з деяким теоретичним розподілом? Інакше кажучи, виникає питання: чи відповідає частота спостережуваних вибіркових значень тій частоті, з якою вони повинні б появляться при деякому імовірнісному розподілі, що відповідає певному теоретичному закону? Якщо частота подій (значень вимірюваної величини) близька до величини, що передбачається теоретично, то надалі можна будувати модель вихідних або очікуваних подій на основі теоретичного розподілу.
Рис. 7.1. Гістограма для даних табл. 7.1
Зазвичай, при проведенні експерименту одразу не можна висловити розумну здогадку (гіпотезу) відносно розподілу випадкової змінної, поки не зберемо і не проаналізуємо достатню кількість об'єктивних (облікових або експериментальних) даних, що відносяться до досліджуваного експерименту. Зібрані дані зазвичай підсумовують у вигляді розподілу відносних частот (гістограми, див. лекцію 5); така гістограма приведена на рис. 7.1. Якщо маємо справу з дискретною змінною, то записуємо частоти появи кожного з її можливих значений. Якщо змінна безперервна, розбиваємо весь діапазон її значень на рівні інтервали (групи) і записуємо частоти появи кожної групи. Число груп зазвичай беруть в межах від 5 до 20 залежно від конкретних даних. Тоді відносна частота для кожної групи дорівнює частки від ділення спостережуваного числа події даної групи на загальне число подій. Таблиця 7.1 і рис. 7.1 ілюструють порядок такої обробки експериментальних даних при неперервній змінній, а таблиця. 7.2 і рис. 7.2 — при дискретній.
Таблиця 7.1
Розподіл тижневої продуктивності
Тижнева продуктивність (х) |
Частота |
P(x) |
Менше 46 |
1 |
0,008 |
46—55 |
1 |
0,008 |
56—65 |
3 |
0,025 |
66—75 |
7 |
0,058 |
76—85 |
11 |
0.092 |
86—95 |
21 |
0,175 |
96—105 |
28 |
0,234 |
106—115 |
16 |
0,134 |
116—125 |
22 |
0,183 |
126—135 |
7 |
0,058 |
136—145 |
1 |
0,008 |
146 і вище |
2 |
0,017 |
|
120 |
1,000 |
Закінчивши побудову гістограми, зазвичай переходять до підбору відповідного до даного випадку теоретичного закону розподілу. Перший спосіб — візуально порівняти отриману гістограму з декількома кривими теоретичних розподілів. Так, порівнюючи гістограму рис. 7.2 з теоретичними кривими, приведеними на рис. 7.3, можна бачити, що вона схожа на розподіл Пуассона. В той же час гістограма рис. 7.1 схожа з кривою нормального розподілу. Проте таке візуальне порівняння дозволяє лише передбачити, до якого теоретичного розподілу треба прагнути «підігнати» експериментальне, і ніколи не дає достатніх підстав, аби остаточно прийняти деяку гіпотезу (теоретичний розподіл).
Рис. 7.2. Гістограма для відносних частот даних табл. 7.2
Рис. 7.3. Типові теоретичні криві розподілу ймовірностей
Після того, як аналітично підібрано одне або декілька теоретичних розподілів (наприклад, нормальне, Пуассона, біноміальне, гамма-розподіл і т. д.), з якими, як передбачається, можна погоджувати експериментальні дані, слід визначити параметри розподілу, з тим аби піддати їх перевірці за допомогою статистичних критеріїв. Якщо передбачуваний розподіл є функцією двох параметрів, останні зазвичай удається оцінити на основі вибіркового середнього і вибіркової дисперсії.
Таблиця 7.2
Розподіл відносних частот телефонних запитів за одночасовий інтервал
Число запитів N |
Число одночасових інтервалів с N запитами |
Відносна частота |
0 |
315 |
0,619 |
1 |
142 |
0,279 |
2 |
40 |
0,078 |
3 |
9 |
0,018 |
4 |
2 |
0,004 |
5 |
1 |
0,002 |
|
509 |
1,000 |
Коли експериментальні дані розбиті на групи, середнє і дисперсію можна обчислити за відповідними формулами
,
= ,
де — повний об'єм вибірки, ;
k — число груп (інтервалів вибірки);
—середня точка i - гo інтервалу або (для дискретних даних) значення i - ой групи;
Таблиця 7.3
Обчислення статистичних параметрів для дискретних даних табл. 7.2
— частота появлення - ої групи або -гo інтервалу.
Для дискретних даних таблиці 7.2 необхідні обчислення зведено в таблицю 7.3, а для неперервних даних таблиці 7.1 — в таблицю 7.4.
Спочатку було зроблено припущення, що даним таблицям. 7.2 може відповідати розподіл Пуассона. Із [1, ... , 3] відомо, що в цьому розподілі середнє дорівнює дисперсії (зазвичай позначається ), а з таблиці 7.3 видно, що для експериментальних даних середнє не дорівнює дисперсії: 0,5147<0,6007. Це могло б змусити нас відкинути гіпотезу про те, що експериментальний розподіл - пуассонівський. Проте в даному конкретному випадку маємо як практичні, так і теоретичні підстави не відмовлятися від цієї гіпотези. Коли вірогідність деякої події для одного тимчасового інтервалу така ж, як для будь-якого іншого, а здійснення якої-небудь події не робить впливу на ймовірність його повторної появи, є вагома підстава чекати розподіл Пуассона. Додаткові підстави для цього отримуємо, якщо в будь-якому інтервалі часу має місце висока вірогідність появи нульового числа подій і якщо середнє число подій в кожному тимчасовому інтервалі мало.
Таблиця 7.4
Обчислення статистичних параметрів для неперервних даних табл. 7.1
|
|
|
|
40,5 |
1 |
40,5 |
1640,25 |
50,5 |
1 |
50,5 |
2550,25 |
60,5 |
3 |
181,5 |
10980,75 |
70,5 |
7 |
493,5 |
34791,75 |
80,5 |
11 |
885,5 |
71282,75 |
90,5 |
21 |
1900,5 |
171995,25 |
100,5 |
28 |
2814,0 |
282807,00 |
110,5 |
16 |
1768,0 |
195364,00' |
120,5 |
22 |
2651,0 |
319445,50' |
130,5 |
7 |
913,5 |
119211,75 |
140,5 |
1 |
140,5 |
19740,25 |
150,5 |
2 |
301,0 |
45300,50 |
|
120 |
12140,0 |
1275110,00 |
У наведеному прикладі дані таблиці 7.2, що представляють число запитів, що отримуються по телефону в бюро технічної інформації, задовольняють всім цим критеріям. Якщо хочемо і далі вважати можливим розподіл Пуассона, то можна прийняти, що дорівнює середній величині між вибірковим середнім і вибірковою дисперсією, тобто