Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
emp.docx
Скачиваний:
32
Добавлен:
17.12.2018
Размер:
1.44 Mб
Скачать
  1. Структура iPlasma.

  2. Візуалізація в iPlasma.

  1. Призначення та послідовність проведення первинного статистичного аналізу.

Метою первинного статистичного аналізу являється визначення закону розподілу випадкової величини, точніше визначення відповіді на питання „Чи є даний закон розподілу випадкової величини нормальним?”. На етапі первинного статистичного аналізу відбувається дослідження вхідних статистичних даних. Спочатку аналізуються метрики, отримані в результаті вимірювання набору програм, далі експертні оцінки, що зробили експерти для цього ж набору програм. В ході дослідження спочатку виявляється графічний вигляд (гістограма) закону розподілу. Після побудови гістограми за її виглядом можна відсіяти частину метрик, які мають багатомодальний вигляд, так як статистичний аналіз залежностей побудований на дослідженні унімодальних законів розподілу. Для уточнення законів розподілу визначаються статистичні характеристики, такі як математичне сподівання, середнє квадратичне відхилення, коефіцієнти асиметрії та ексцесу. Наступним етапом є визначення математичного сподівання – ключової величини в аналізі. На основі значень математичного сподівання проводиться видалення аномальних явищ (відхилень), при якому за допомогою квантилів розподілу Стьюдента визначаються „грубі” значення, тобто такі значення, які не потрапляють під заданий закон розподілу, і значно віддалені від математичного сподівання. Після видалення аномальних явищ проводяться обчислення коефіцієнтів асиметрії та ексцесу.

Оскільки метою цього етапу є визначення „нормальності” розподілу, то досліджується даний закон розподілу на симетричність. Для цього всі статистичні характеристики обчислюються у зсуненому та в незсуненому виглядах. Зсунені дані являють собою обчислені результати вимірів, незсунені – теоретичні значення, які повинні приймати характеристики при „нормальності” розподілу. Далі проводиться інтервальне оцінювання параметрів. Якщо значення статистичної характеристики не потрапляє в заданий інтервал робиться висновок, що метрика (експертна оцінка) не має нормального розподілу. Для всіх метрик та експертних оцінок, які пройшли попередній етап проводиться порівняння коефіцієнтів асиметрії та ексцесу із заданим теоретично нормальним. Після цього на основі гістограм та висновків аналізу числових характеристик робиться висновок про „нормальність” закону розподілу величини.

Кінцевою метою первинного статистичного аналізу є визначення, чи належить побудований закон до нормального. Причиною цього є те, що подальший аналіз базується на перевірці на „нормальність” закону розподілу, тобто кожний з наступних етапів починається цією перевіркою, і в залежності від відповіді застосовуються різні методи обчислень.

  1. Призначення та послідовність проведення кореляційного аналізу.

На етапі кореляційного аналізу визначається, чи існує залежність між певними метриками та експертними оцінками, чи її немає. Якщо залежність існує, то проводиться первинна обробка даних для визначення довірчої ймовірності та виду залежності. В іншому випадку робиться висновок про відсутність залежності.

Цей етап проводиться наступним чином. Спочатку за визначеними раніше законами розподілу всі метрики та експерті оцінки класифікуються на ті, що мають нормальний розподіл, і ті, що його не мають. Для пар „метрика – експертна оцінка”, які мають нормальний закон розподілу, проводиться просте визначення коефіцієнту кореляції та його оцінка. При коефіцієнті кореляції рівному 0, ніякого зв’язку в парі немає. Якщо коефіцієнт кореляції знаходиться між -1 і 1, присутній лінійний регресійний зв’язок. Якщо ж коефіцієнт кореляції рівний 1, то має місце функціональний зв’язок. Далі проводиться визначення значущості коефіцієнта кореляції (висувається гіпотеза, що коефіцієнт кореляції рівний 0), при якому використовується t – тест на основі статистичної характеристики, яка має t – розподіл Стьюдента. Якщо дане значення значущості менше, ніж задане табличне, ця пара відсіюється з подальших досліджень. У випадку значущості проводиться дослідження на довірчі інтервали. При потраплянні коефіцієнту в довірчі інтервали можна зробити висновок про те, що дана метрика і експертна оцінка мають лінійну регресійну залежність. В іншому випадку вони відсіюються.

Для пар „метрика – експертна оцінка”, які не мають нормального закон розподілу, проводиться парна рангова кореляція. Суть парної рангової кореляції заключається в порівнянні не самих значень величин, чи їх статистичних характеристик, а рангів, тобто номерів величин (метрик та експертних оцінок) у відповідних матрицях (наборах статистичних даних). Визначається парна рангова кореляція методом обчислення коефіцієнта Спірмена чи Кендала. Якщо значення коефіцієнта виявилось рівним 0, то робиться висновок про відсутність кореляції, і пара „метрика – експертна оцінка” відкидається. Якщо коефіцієнт кореляції приймає значення 1, чому відповідає повне співпадання коефіцієнтів, то робиться висновок про прямо пропорційну залежність (тобто лінійну), якщо -1, то робиться висновок про обернено пропорційну залежність (тобто також лінійну). Якщо ж коефіцієнт кореляції приймає інше значення, то далі його перевіряють на значущість, перевіряючи гіпотезу, що коефіцієнт рівний 0.

Отже, результатом даного етапу є відсіювання незалежних між собою пар „метрика – експертна оцінка” та визначення за можливістю виду залежності для інших пар.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]