Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Описательная статистика. Основные понятия биоме...doc
Скачиваний:
18
Добавлен:
12.09.2019
Размер:
659.46 Кб
Скачать

Квантили.

К структурным характеристикам вариационного ряда относятся квантили, отсекающие в пределах ряда определенную часть его членов (вариант). К ним относятся квартили (quartiles), децили и перцентили (percentile) (процентили). Квартиль – величина, отсекающая ¼ всех членов ряда. Три квартиля – q1, q2, q3 – делят весь вариационный ряд на четыре равночисленные части (кварты). Дециль – величина, отделяющая ¹/10 всех членов ряда. Девять децилей делят весь вариационный ряд на десять равных частей. Соответственно, перцентиль (процентиль) (Pi) – величина, отделяющая ¹/100 всех членов ряда. Девяносто девять перцентилей делят весь вариационный ряд на сто равных частей. В практике используются обычно перцентили: P3, P10, P25, P50, P75, P90, P97, причем P50 равен медиане, второму квартилю q2 и пятому децилю данного распределения. Между P25 и P75 и соответственно между q1 и q3 находится 50% всех членов совокупности (P25 = q1 и P75 = q3), этот интервал называется интерквартильный диапазон (IQR).

Выбросы.

Характеристики распределений могут существенно зависеть от экстремальных, резко выделяющихся значений - выбросов. Выбросы могут иметь очень большие или очень маленькие значения, могут быть абсолютно не связаны с остальными данными или не соответствовать свойствам распределения. Выбросы возникают либо из-за ошибок ввода, либо в результате необычного или уникального события. Выброс ни в коем случае нельзя исключать из анализа только потому, что он имеет экстремальное значение, его необходимо тщательно проанализировать. В этом случае выполняют 2 вида анализа: с выбросами и без них. Если сделанные выводы остались неизменными, то такие выбросы не имеют большого значения. А если существенно различаются, необходимо найти объяснение расхождениям. Для определения типа выброса необходимо знать интерквартильный диапазон (IQR) выборки, который находится между 1 и 3 квартилями. Если значение больше 3 квартиля плюс 1,5*IQR или меньше 1 квартиля минус 1,5* IQR, то оно называется умеренным выбросом. Если значение больше 3 квартиля плюс 3* IQR или меньше 1 квартиля минус 3*IQR, то оно называется экстремальным выбросом.

Иногда применяют численные методы удаления выбросов. Например, исключаются значения, которые выходят за границы ±2 СКО (и даже ±1.5 СКО) от выборочного среднего. В ряде случаев такая «чистка» данных абсолютно необходима.

Наиболее точно можно отличить выброс от экстремального значения и решить вопрос об исключении варианты из анализа с помощью сравнения фактически определенного нормированного отклонения с табличным значением. Если посчитанное значение больше табличного – сомнительную варианту отвергают, если нет – оставляют для проведения анализа.

Вариационные ряды. Построение интервального ряда

Вариационные ряды принято изображать в виде графиков. При построении графика по оси абсцисс откладывают значения вариант, по оси ординат — их частоты. В результате получается так называемая гистограмма распределения частот. Соединяя вершины перпендикуляров прямыми линиями, получают геометрическую фигуру в виде многоугольника называемую полигоном распределения частот. Линия, соединяющая вершины перпендикуляров, называется вариационной кривой или кривой распределения частот вариационного ряда.

В зависимости от того, как варьирует признак – дискретно или непрерывно, в широком или узком диапазоне, статистическая совокупность распределяется в безынтервальный (дискретный) или интервальный вариационные ряды. Дискретные ряды строятся достаточно просто. А для построения интервального ряда вариацию признака разбивают на группы или классы. Величину классового интервала () рассчитывают по формуле:

где R – размах, К – число классов, на которые следует разбить вариацию признака.

Величину К можно определить по формуле Стерджеса: К = 1 + 3.32*lgn (или 1 + 1,4* lnn ), n > 100, или по формуле Брукса К = 5*lgn, где n – объем выборки.

В любом более или менее симметричном вариационном ряду заметна одна характерная особенность – накапливание вариант в центральных классах и постепенное убывание их численности по мере удаления от центра ряда. Таким образом, прослеживается широко распространенная в природе закономерность: в статической совокупности большинство вариант оказывается среднего или близкого к нему размера, и чем дальше они отстоят от среднего значения, тем реже встречаются в данной совокупности.

Техника построения вариационных рядов

  1. в исходных данных отыскать минимальную хmin и максимальную xmax варианты.

  2. определить количество классовых интервалов К.

  3. определить величину классового интервала . Точность величины классового интервала должна соответствовать точности, принятой при измерении признака. Если точность измеряемого признака составляет сотые доли единицы, то и классовый интервал берется с точностью до сотых (если точность выражается десятыми долями единицы, то и  составит десятые доли единицы).

  4. определить нижнюю границу первого классового интервала по формуле:

хн1 = хmin - /2

  1. определить верхнюю границу первого классового интервала по формуле:

хв1 = хн1 + 

Для разграничения классов уменьшить верхнюю границу на величину, равную точности, принятой при измерении признака:

хв1 = хв1 – 0,01 (или 0,1)

  1. определить верхнюю и нижнюю границы второго классового интервала по формуле:

хв2 = хв1 + 

хн2 = хн1 +

  1. аналогично определить верхние границы остальных классовых интервалов.

  2. распределить по классовым интервалам все варианты совокупности, т. е. определить частоты каждого класса.

  3. заменить классовые интервалы их центральными (или срединными) значениями по формуле:

хк = (хн1 + хн2)/2

или хк = хн1 /2

В результате интерваль­ный вариационный ряд превращается в безынтервальный ряд. Необходимость такой замены вызывается тем, что обобщающие числовые характеристики (средняя, дисперсия и др.) вычисляют­ся по безынтервальным рядам

Середины (хк) классов приобретают значения отдельных вари­ант и называются классовыми вариантами в отличие от кон­кретных вариант, составляющих данную совокупность.

10. построить вспомогательную (расчетную) таб­лицу, в которой первая графа заполняется классами (в данном случае ранжированными значениями признака), вторая – классовыми вариантами, а третья — служит для учета частот, распределяемых по этим классам.

Пример 1. На основании многолетних клинических наблюдений, проводившихся в Сухумском питомнике обезьян, составлена следующая выборка, включающая 100 анализов на содержание кальция (мг %) в сыворотке крови низших обезьян (павианов гамадрилов), среднее - 11,915:

13,6

12,9

12,3

9,9

12,7

11,7

10,8

10,4

10,9

10,2

14,7

10,4

11,6

11,7

12,1

10,9

12,1

9,2

10,7

11,5

13,1

10,9

12

11,1

13,5

11,2

13,5

10,1

14

10

11,6

12,4

11,9

11,4

12,8

11,4

10,9

12,7

13,8

13,2

11,9

10,8

11

12,6

10

10,3

12,7

11,7

12,1

13,8

12,2

11,9

11,6

10,6

11,1

10,7

12,3

11,5

11,2

11,5

12,7

10,5

11,2

11,9

9,7

13

9,6

12,5

11,6

9

11,5

12,3

12,8

12,6

12,8

12,5

12,8

11,4

12,5

12,3

14,5

12,3

12,6

11,7

12,2

12,3

11,6

12

13,5

12,5

11,6

11,9

12

11,4

14,7

11,3

13,2

14,3

13,2

14,2