Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ПР2_Заболотников_9373

.pdf
Скачиваний:
1
Добавлен:
20.06.2023
Размер:
497.31 Кб
Скачать

МИНОБРНАУКИ РОССИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ «ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА) Кафедра алгоритмической математики

ОТЧЕТ по практической работе №2

по дисциплине «Статистический анализ» Тема: Обработка выборочных данных. Нахождение точечных оценок

параметров распределения

Студент гр. 9373

 

Заболотников М.Е.

Преподаватель

 

 

Сучков А.И.

Санкт-Петербург

2021

Цель работы.

Получение практических навыков нахождения точечных статистических

оценок параметров распределения.

Основные теоретические положения.

Для выполнения данной работы, помимо разобранного теоретического

материала (см. работу 1), использовались следующие понятия и формулы:

1.Ложный нуль – срединное значение вариационного ряда распределения (если вариант чётное количество, из двух срединных выбирается то, у которого абсолютная частота больше).

2.Условные варианты – варианты, вычисленные по формуле:

 

 

 

=

 

 

(1)

 

 

 

 

 

 

 

 

 

где – условная варианта, – соответствующая исходная варианта, – ложный нуль и – длина интервала.

3. Условный эмпирический момент порядка – величина, которая находится по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= ∑ (

 

 

)

 

(2)

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

где – относительная частота соответствующей

условной варианты, –

 

 

 

 

 

 

 

количество вариант, а выражение в скобках – уже знакомая нам условная варианта.

4.Центральный эмпирический момент порядка – величина, которая

находится по следующей формуле:

 

= ∑( − ̅)

(3)

 

 

 

в

 

 

=1

 

 

 

где ̅ – выборочное среднее,

– варианта ряда,

– соответствующая

в

 

 

 

 

относительная частота.

2

Нехитрыми преобразованиями можно получить, что центральный эмпирический момент первого порядка равен нулю. Приведём готовые формулы по вычислению центральных моментов порядков 2, 3 и 4:

 

 

 

=

(

 

2) 2

(4)

 

 

2

 

 

2

 

 

1

 

 

 

 

3

= (

 

− 3

+ 2 3) 3

(5)

 

3

 

 

 

2

1

 

 

1

 

=

( − 4

 

+ 6 2

− 3 4) 4

(6)

4

 

 

 

3

1

 

 

 

2

1

1

 

5. Выборочное среднее – величина, которая высчитывается по формуле:

 

1

 

 

̅=

(7)

 

в

 

 

 

=1

6. Выборочная дисперсия – величина, которая считается о формуле:

 

1

 

 

 

 

=

∑(

)2

(8)

 

 

 

 

в

 

 

=1

Если считать выборочные среднее и дисперсию через условные варианты,

то имеют место следующие два равенства:

 

̅= ̅

в

+

 

 

(9)

 

в

 

̅̅̅

 

 

 

 

2

 

2

 

 

2

 

 

 

(

2

− (̅

)

(10)

=

=

 

)

 

 

 

 

 

 

в

 

 

 

где ̅в – выборочное среднее условных вариант, – условная выборочная

дисперсия и ̅̅̅2 – среднее квадратов условных величин.

7.Исправленная выборочная дисперсия – величина, которая считается

по формуле:

=

 

 

(11)

− 1

8.Исправленное СКО (среднее квадратичное отклонение) – величина,

равная квадратному корню из исправленной дисперсии:

 

 

 

 

 

(12)

 

= √

 

 

 

9.

Выборочное СКО – величина, равная корню второй степени из

выборочной дисперсии:

 

 

 

 

(13)

 

в = √

3

10.

Коэффициент асимметрии – величина, которая вычисляется по

формуле:

 

 

 

 

 

 

=

3

(14)

 

3

 

 

 

 

 

 

 

в

 

11.Коэффициент асимметрии – величина, которая считается по

следующей формуле:

 

=

4

− 3

(15)

4

 

 

 

 

 

 

в

 

 

12. Мода интервального ряда – некоторое значение, содержащееся в модальном интервале. Модальный интервал – интервал, имеющий наибольшую частоту. Мода интервального ряда считается по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= (0)

 

 

 

 

 

 

−1

 

 

 

 

 

 

 

+

 

 

 

 

 

 

 

0

 

 

 

 

 

(16)

 

(

 

 

 

) + (

 

 

 

 

 

0

 

 

 

 

 

 

)

 

 

 

 

 

 

−1

 

 

 

+1

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

0

 

 

где (0)

– левая граница модального интервала,

 

 

– относительная частота

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

модального интервала,

 

−1

 

– относительная

частота интервала,

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

предшествующего модальному (если модальный интервал первый, то она равна нулю), и 0+1 – относительная частота интервала после модального (если модальный интервал последний, то она равна нулю).

13.Медиана интервального ряда – некоторое значение, содержащееся

вмедианном интервале. Медианный интервал – первый интервал, накопленная

относительная частота которого больше либо равна 12. Медианный интервал находится по формуле:

 

 

=

(0)

+

 

(0.5

 

)

(17)

 

 

 

 

 

 

 

 

 

 

 

 

−1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где (0) – левая граница медианного интервала,

 

 

– относительная частота

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

медианного

интервала и

 

накопленная

относительная

частота (если

 

 

−1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

медианный интервал первый, то она равна нулю).

 

 

 

 

14.

Коэффициент

вариации

 

величина, равная

отношению

выборочного СКО к выборочному среднему:

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

=

в

 

(18)

̅

 

 

 

 

 

 

 

 

 

в

 

или, если в процентах:

 

 

 

 

 

 

=

в

 

∙ 100%

(19)

̅

 

 

 

 

 

 

в

 

 

 

 

Постановка задачи.

Для заданных выборочных данных вычислить с использованием метода моментов и условных вариант точечные статистические оценки математического ожидания, дисперсии, среднеквадратичного отклонения,

асимметрии, эксцесса, моды, медианы и коэффициента вариации исследуемой случайной величины. Полученные результаты содержательно проинтерпретировать

Исходные данные – интервальный ряд, сформированный в работе 1.

Полный код программы представлен в приложении А.

Выполнение работы.

Для интервального ряда были найдены середины интервалов, а также накопленные частоты. Результаты представлены на рис. 1:

Рисунок 1

В первой строчке располагаются порядковые номера интервалов (их всего

9). На второй строчке представлены непосредственно середины интервалов. На последних двух строчках расположились накопленные абсолютные и накопленные относительные частоты (третья и четвёртая строчки соответственно).

Теперь представим найденные середины интервалов как новые варианты и по формуле (1) найдём условные варианты. Результаты представлены на рис. 2:

5

Рисунок 2 – Условные варианты Условные варианты расположены на третьей строчке. Если значения

вариационного ряда отстоят друг от друга на одинаковом расстоянии (как в нашем случае – разность между любыми двумя соседними вариантами равна длине интервала), то условные варианты выражаются целыми числами. Так и получилось.

По условным вариантам были вычислены условные (по формуле (2)) и

центральные (по формулам (4), (5) и (6)) эмпирические моменты (см. рис. 3). На первой строчке расположены порядки эмпирических моментов: в данной работе вычислялись эмпирические моменты с первого о четвёртый. На второй строчке

– условные эмпирические моменты и на третьей – центральные. Как видно из рис. 3, условный и центральный моменты первого порядка равны нулю (для условного момента сработала погрешность, поэтому значение получилось очень близко к нулю).

Рисунок 3 – Эмпирические моменты После этого были определены выборочное среднее и выборочная

дисперсия (см. рис. 4). Данные величины были вычислены обычным способом –

SEL_AVR и SEL_DISP – (по формулам (7) и (8)) и через условные варианты –

SEL_AVR_1 и SEL_DISP_1 – (по формулам (9) и (10)). Из рис. 4 видно, что результаты совпадают:

6

Рисунок 4 – Выборочные среднее и дисперсия Ещё одно важное замечание: значение выборочной дисперсии оказалось

равно центральному эмпирическому моменту второго порядка – это свойство центрального эмпирического момента. Это означает, что наши действия и расчёты верны.

Затем были вычислены исправленные дисперсия (по формуле (11)) и

среднее квадратичное отклонение (здесь и далее – СКО) – по формуле (12).

Результаты представлены на рис. 5:

Рисунок 5 – Исправленные дисперсия и СКО Далее, по формуле (13), было определено стандартное СКО (см. рис. 6).

Рисунок 6 – Стандартное СКО Если мы сравним оценки исправленных дисперсии и СКО с их

смещёнными оценками, то увидим, что исправленные значения несколько больше, чем смещённые оценки (см. табл. 1):

Таблица 1 – Сравнение оценок дисперсии и СКО

SEL_DISP

COR_SEL_DISP

SKO

COR_SKO

 

 

 

 

1600.3

1800.3

40.0033

42.4299

 

 

 

 

Также бы ла проведена статистическая оценка коэффициентов асимметрии и эксцесса (по формулам (14) и (15) соответственно). Результаты приведены на рис. 7:

Рисунок 7 – Коэффициенты асимметрии и эксцесса

7

Оба значения оказались положительными. Положительное значение коэффициента асимметрии говорит о том, что справа от значения моды график распределения будет более вытянутым по оси абсцисс, чем слева. А

положительное значение коэффициента эксцесса показывает, что пик графика будет более острым.

Мода и медиана для заданного распределения (интервального ряда)

вычислялись по формулам (16) и (17) соответственно. Результаты представлены на рис. 8:

Рисунок 8 – Мода и медиана интервального ряда Как видно из рис. 8, значения моды и медианы содержатся в третьем

интервале. Оно и понятно, ведь именно третий интервал имеет наибольшую частоту ( = 52 и ≈ 0.4685) и он первый, чья накопленная относительная частота больше 12: 2 = 0.1712, а уже 3 = 0.6396.

И в конце, по формуле (19), был вычислен коэффициент вариации (см. рис.

9):

Рисунок 9 – Коэффициент вариации Значение коэффициента вариации получилось больше 33%. Это говорит

нам о том, что наша изначальная совокупность крайне неоднородна. Это легко объяснить тем, что минимальное значение было равно 20, максимальное – 295, а

среднее – 99.8986.

Выводы.

В ходе данной работы было выполнено достаточно много действий.

Исходя и полученных результатов, можно сделать заключение, что наша выборка оказалась неоднородной. Также мы убедились, что график нашего распределения имеет острый пик и вытянутый вправо: об этом нам сказали

8

коэффициенты эксцесса и асимметрии. Были посчитаны первые четыре условных эмпирических и центральных эмпирических момента. Судя по тому,

что значения второго центрального эмпирического момента и выборочной дисперсии совпали, мы сделали вывод, что расчёты оказались верны и свойства центрального эмпирического момента не нарушены.

9

ПРИЛОЖЕНИЕ А

ПРОГРАММНЫЙ КОД (ЯЗЫК ПРОГРАММИРОВАНИЯ – MATLAB)

%% Вторая работа. 1 пункт

GAP_MIDS_ROW = randi(1, 3, amount_of_gaps); GAP_MIDS_ROW(2, 1) = GAPS_ROW(3, 1);

for i = 1 : amount_of_gaps GAP_MIDS_ROW(1, i) = GAP_MIDS(i); if(i > 1)

GAP_MIDS_ROW(2, i) = GAP_MIDS_ROW(2, i - 1) + GAPS_ROW(3,

i);

end;

GAP_MIDS_ROW(3, i) = ACCUM_FREQS(i);

end;

%% 2 пункт

h = gap_length;

COND_VERS = randi(1, 4, amount_of_gaps); n = amount_of_gaps;

MID_INDEX = (1 + n) / 2;

MID_VERSION = GAP_MIDS_ROW(1, MID_INDEX); for i = 1 : amount_of_gaps

COND_VERS(1, i) = GAP_MIDS_ROW(1, i);

COND_VERS(2, i) = (GAP_MIDS_ROW(1, i) - MID_VERSION) / h; COND_VERS(3, i) = GAP_MIDS_ROW(2, i);

COND_VERS(4, i) = GAP_MIDS_ROW(3, i);

end;

%% 3 пункт moment_levels = 4;

EMP_MOMENTS = randi(1, 2, moment_levels); for i = 1 : moment_levels

EMP_MOMENTS(1, i) = 0; for j = 1 : n

CViD = COND_VERS(2, j) ^ i;

EMP_MOMENTS(1, i) = EMP_MOMENTS(1, i) + CViD * GAPS_ROW(3,

j) / N; end;

end;

EMP_MOMENTS(2, 1) = 0;

EMP_MOMENTS(2, 2) = (EMP_MOMENTS(1, 2) - (EMP_MOMENTS(1, 1) ^ 2)) * h * h;

EMP_MOMENTS(2, 3) = (EMP_MOMENTS(1, 3) - 3 * EMP_MOMENTS(1, 2) * EMP_MOMENTS(1, 1) + 2 * (EMP_MOMENTS(1, 1) ^ 3)) * (h ^ 3); EMP_MOMENTS(2, 4) = (EMP_MOMENTS(1, 4) - 4 * EMP_MOMENTS(1, 3) * EMP_MOMENTS(1, 1) + 6 * EMP_MOMENTS(1, 2) * (EMP_MOMENTS(1, 1) ^ 2) - 3 * (EMP_MOMENTS(1, 1) ^ 4)) * (h ^ 4);

%% 4 пункт % Поиск выборочного среднего

SEL_AVR = 0; for i = 1 : n

SEL_AVR = SEL_AVR + GAP_MIDS_ROW(1, i) * GAPS_ROW(3, i);

end;

SEL_AVR = SEL_AVR / N;

10