6.3. Критерій Колмогорова — Смирнова
Ще один широко використовуваний критерій для статистичної перевірки гіпотез був запропонований Смирновим в 1939 р. і в подальшому розвинений самим автором і Колмогоровим.
Він застосовується в тих випадках, коли розподіл, що перевіряється, безперервний і відомі середнє і дисперсія досліджуваної сукупності. Таблиця його критичних значень була опублікована Смирновим в 1948 р. і багато разів перевидавалася. Подібно до критерію критерій Колмогорова — Смирнова може бути використаний для перевірки відповідності між розподілом сукупності емпіричних даних і деяким конкретним теоретичним розподілом. Перевірка здійснюється шляхом завдання інтегральної функції, яка витікає з теоретичного розподілу, і її порівняння з інтегральною функцією розподілу емпіричних даних.
Порівняння ґрунтується на вибірковій групі, в якій експериментальний розподіл має найбільше абсолютне відхилення від теоретичного. Далі ця абсолютна різниця порівнюється з критичними значеннями (див. додаток В.2 [4]) з метою визначення, чи може таке відхилення бути випадковим при даному законі розподілу.
ПРИКЛАД 7.3. Для ілюстрації візьмемо дані таблиці 7.2, які вже перевіряли по критерію на відповідність розподілу Пуассона (приклад 7.1). Раніше для цієї сукупності даних було обчислено = 0,5577. Гіпотеза Н0 полягає в тому, що немає суттєвих відмінностей між спостережуваними даними і тими, які повинні одержуватись в разі розподілу Пуассона, з середнім значенням 0,5577 і n = 509. Перш за все необхідно отримати два інтегральних розподілу — із спостережуваних даних і з теоретичного розподілу — и знайти абсолютні різниці для всіх груп значення випадкової величини. Це виконано в таблиці 7.7.
Таблиця 7.7
Обчислення при використанні критерію Колмогорова — Смірнова
Число запитів |
I Частота,що спостері- гається
|
II Ймовірність що спостеріг. |
III Теоретична ймовірність |
IV Інтегральнаймовірність II |
V Інтегральнаймовірність III |
VI Абсолютна різниця (IV-V) |
0 |
315 |
0,619 |
0,571 |
0,619 |
0,571 |
0,048 |
1 |
142 |
0,279 |
0,319 |
0,898 |
0,890 |
0,008 |
2 |
40 |
0,078 |
0,089 |
0,976 |
0,979 |
0,003 |
3 |
9 |
0,018 |
0,017 |
0,994 |
0,996 |
0,002 |
4 |
2 |
0,004 |
0,003 |
0,998 |
0,999 |
0,001 |
5 |
1 |
0,002 |
0,001 |
1,000 |
1,000 |
0,000 |
У таблиці 7.7 найбільша абсолютна різниця 0,048 виходить в групі, відповідній нульовому числу запитів. Саме цю різницю треба порівняти з критичним значенням, знайденим по додатку В.7 [4]. З цієї таблиці видно, що при n = 509 і = 0,05 критичне значення
.
Оскільки одержана найбільша різниця 0,048 менше за критичного значення, не відмовляємося від гіпотези про те, що експериментальний розподіл - пуассонівський.
Природно, виникає питання, коли слід користуватися критерієм , а коли критерієм Колмогорова — Смирнова? При відносно малих об'ємах вибірок критерій взагалі непридатний, і слід користуватися критерієм Колмогорова—Смірнова. До того ж, коли об'єм вибірки настільки малий, що для користування критерієм доводиться об'єднувати сусідні групи, потужність цього критерію значною мірою знижується. Однак, якщо об'єм вибірки великий, переважний, по всій ймовірності, критерій .
Кожен з критеріїв має свої сильні і слабкі сторони, і відносно вибору між ними можна дати лише самі загальні вказівки. Критерій дуже потужний для великих вибірок (n > 100); що ж до критерію Колмогорова — Смирнова, то, хоча деякі автори (наприклад, [2, 3]) вказують, що отримували з ним добрі результати лише для n 30, немає достатніх підстав проти вживання цього критерію і при . При об'ємі вибірки менше 10 кращих результатів дає, мабуть, критерій Крамера — фон Мізеса [1, 3]. При використанні як критерію, так і критерію Колмогорова — Смирнова дослідник має можливість задати число груп або інтервалів вибірки. Правильний вибір цього числа має велике значення, оскільки воно визначає число ступнів свободи при користуванні критерієм, а взагалі кажучи, чим більше це число, тим надійніше критерій розрізняє характер розподілу. В разі критерію число груп часто визначається з умови, аби в кожну групу попало не менше п'яти експериментальних точок. В той же час в разі використання критерію Колмогорова — Смірнова дані можна як групувати, так і відносити кожне спостереження до окремої групи; остання умова відкриває можливість ефективного аналізу при малих вибірках.