Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
m1061.pdf
Скачиваний:
117
Добавлен:
15.11.2022
Размер:
20.13 Mб
Скачать

После ввода значений матрица натурных испытаний сохраняется в

базе данных нажатием кнопки в меню программы. При выходе из таблицы галочка не должна быть выделена черным цветом.

Для выполнения расчета установите курсор на элемент меню Выполнить расчет и нажмите левую клавишу мышки. На экране появится новое окно Открытие файла. Укажите имя файла куда поместятся результаты (по умолчанию указан файл Результаты.txt) и нажмите кнопку открыть. Программа выполнит расчет и на экране появятся результаты. Для сохранения результатов в Word Windows с помощью пункта меню Правка выделите данные, скопируйте их в буфер, откройте документ Word и вставьте результаты расчета в нужное вам место.

В приложении П1 приводится распечатка промежуточных этапов очистки рядов и окончательных результатов натурных испытаний, помещенных в документ Word. Результатами работы программы являются:

N число членов ряда; Xmin минимальное значение ряда; Xmax максимальное значение ряда; Xср среднее арифметическое значение ряда; E средняя квадратическая ошибка; Кр коэффициент разброса значений ряда.

1.3. Определение основных характеристик рядов наблюдения. Программа «Sample»

Проверка обоснованности значений ряда является первым шагом обработки натурных наблюдений. Полученный на этом этапе очищенный от случайных ошибок наблюдения статистический ряд можно отнести к одному из двух видов: простой ряд данных и вариационный ряд данных. В вариационном ряду данные сгруппированы по количественному признаку, например, по повторяемости значений данного ряда.

Следующим шагом в анализе рядов является определение основных обобщающих показателей, именуемых характеристиками ряда [8, 9, 19].

Наиболее часто встречающимся в статистике видом средних величин является средняя арифметическая величина, представляющая собой частное от деления суммы значений всех вариантов на общее число единиц, т. е. если отдельные варианты (значения признаков)

обозначить через х, а среднюю из них через х, то для несгруппиро-

ванных данных она рассчитывается по формуле х = пх и именуется

простой средней арифметической. Для вариационного ряда, т. е. для сгруппированных данных, каждое значение признака (варианта) суммируется с учетом его частот, т. е. «взвешивается». Отсюда и название этой сред-

ней средняя арифметическая взвешенная. Она вычисляется по формуле

11

х = хff , (1.10)

где f веса вариантов.

Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных значений отклонений отдельных вариантов от средней. (Знаки отклонений игнорируются, так как в противном случае сумма всех отклонений будет равна нулю.)

Если обозначить среднее линейное отклонение буквой d , то для несгруппированных данных

 

 

 

 

 

 

x

 

 

 

 

 

 

=

 

x

, (1.11)

 

 

 

d

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

для вариационного ряда.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

f

 

 

 

=

 

x

, (1.12)

 

d

 

 

 

f

 

 

 

 

 

 

 

 

 

 

Вторым показателем, измеряющим вариацию всех вариантов вокруг своей средней, является среднее квадратическое отклонение, или, как его часто называют, стандартное отклонение, обозначаемое буквой σ (сигма). Среднее квадратическое отклонение для несгруппированных данных определяется по формуле

 

 

 

 

 

 

 

 

 

 

 

 

(x

 

 

)2

 

 

 

σ =

x

,

(1.13)

 

n

 

 

 

 

 

 

 

и для вариационного ряда по формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

(x

 

 

)2

f

 

 

 

σ =

x

,

(1.14)

 

f

 

 

 

 

 

 

 

Среднее квадратическое отклонение является наиболее распростра-

ненным и общепринятым показателем для вариации. Оно несколько больше среднего линейного отклонения. Для умеренно ассиметричных распределений установлено следующее соотношение между ними:

σ = 1,25d. (1.15)

Средняя арифметическая из квадратов отклонений, т. е. выражение

под корнем (x

 

)2

 

(x

 

)2 f носит название дисперсии. Дис-

x

или

x

n

 

f

персия (σ 2 ) имеет самостоятельное значение в статистике и относится к числу важнейших показателей вариации значений ряда.

Коэффициент вариации используют для сравнения рассеивания двух и более признаков, имеющих различные единицы измерения. Коэффициент вариации представляет собой относительную меру рассеивания, выраженную в процентах и вычисляется по формуле

12

V =

σ

100% , (1.16)

 

х

 

Стандартное отклонение используют при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами.

 

 

i=n

(xi

 

)2

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

s =

=

 

n

σ 2

, (1.17)

i=1

 

 

 

 

 

n 1

n 1

 

 

 

 

 

 

 

 

где s стандарт, стандартное отклонение, несмещенная оценка среднеквадратического отклонения случайной величины X относительно её математического ожидания;

σ среднеквадратическое отклонение;

σ2 дисперсия;

xi i-й элемент ряда;

х среднее арифметическое выборки; n объём ряда.

Следует отметить отличие стандарта (в знаменателе n − 1) от корня из дисперсии (среднеквадратического отклонения) (в знаменателе n), при малом объёме выборки оценка дисперсии через последнюю величину является несколько смещенной, при бесконечно большом объёме выборки разница между указанными величинами исчезает.

Правило трёх сигм (3σ) – практически все значения нормально рас-

пределённой случайной величины лежат в интервале 3σ. Более строго не менее чем с 99,7% достоверностью, значение нормально распределенной случайной величины лежит в указанном интервале.

При условии что величина х истинная, а не полученная в результате обработки выборки.

Если же истинная величина неизвестна, то следует пользоваться не σ, а s. Таким образом, правило 3-х сигм преобразуется в правило трех s.

Вид (т. е. закон) теоретического распределения подбирается исходя из вида гистограммы. Поэтому займёмся её построением. Вначале весь интервал изменения данных [xmin, xmax] нужно разбить на участки одинаковой длины. Сколько участков взять? Есть несколько подходов к определению числа участков разбиения l. Один из них − это исполь-

зование формулы Стэрджесса:

 

l = Round[1+3,322 lg(n)],

(1.18)

где Round − округление чисел с плавающей запятой до целого числа. Другой подход состоит в следующем. С одной стороны, число

участков разбиения должно быть как можно больше, а с другой стороны, в каждый из этих участков должно попадать как можно больше

13

значений xi. Компромисс между этими требованиями приводит к тому, что обычно выбирают число участков l для построения гистограммы как ближайшее целое к корню квадратному из n:

l = Round(n ). (1.19)

Проверка гипотезы строится на основе сопоставления частот эмпирического и теоретического распределений и суждения о случайности или существенности их расхождений. При этом исходят из того, что если расхождения между эмпирическими и теоретическими частотами можно считать случайными, то гипотеза о том, что принятое теоретическое распределение соответствует данному эмпирическому, не отвергается.

Для оценки случайности или существенности расхождений между частотами эмпирического и теоретического распределений в статистике используют ряд показателей, именуемых критериями согласия. Одним из основных и наиболее распространенным показателем является

критерий χ2 (хи-квадрат), предложенный английским статистиком К. Пирсоном:

χ2 =

(m m')2

,

(1.20)

m'

 

 

 

где m и m' – соответственно эмпирические и теоретические частоты. Величину «хи-квадрат» можно рассчитать и по другой формуле,

непосредственно вытекающей из предыдущей:

χ2 =

(m m')2

= m2 2mm'+(m')2

= m2 2m + m', (1.21)

m'

 

 

m'

 

m'

Если учесть, что m = m' ,

т. е. сумма эмпирических и теорети-

ческих частот должна быть равна, то из записанного выше следует:

 

 

χ2 =

m2

 

m ,

(1.22)

 

 

m'

 

 

 

 

 

или, приняв m = N (объем совокупности), запишем в окончательном виде:

χ2 =

m2

N . (1.23)

m'

 

 

Очевидно, что χ2 зависит как от расхождений между m и m', так и от числа групп (классов) в ряду, поскольку χ2 получается как сумма

слагаемых. Одно и то же значение χ2 для рядов с н еодинаковым числом групп будет иметь различную надежность.

Пирсоном найдено распределение величины χ2 и составлены таблицы, позволяющие определять вероятность наступления определенного значения χ2 для разного числа групп в вариационных рядах.

14

Если вероятность Р( χ2 ) значительно отличается от нуля, то расхожде-

ния между частотами теоретического и эмпирического распределения можно считать случайными, а гипотезу, выдвинутую при расчете теоретических частот, не опровергнутой для данного наблюдения.

При этом определяемая по таблицам вероятность наблюденного значения χ2 принимается в зависимости от так называемого числа сте-

пеней свободы, под которым понимается число групп, частоты которых могут принимать значения, не связанные друг с другом. Практически для вариационного ряда число степеней свободы определяется как число групп в рассматриваемом ряду минус число ограничивающих эти два ряда связей. Число ограничивающих связей, в свою очередь, определяется числом сведений эмпирического ряда, используемых при исчислении теоретических частот. Так, например, в случае выравнивания ряда по кривой нормального распределения между эмпирическим и теоретическим распределением три связи: одинаковая сумма частот, средняя арифметическая и среднее квадратическое отклонение. Поэтому при выравнивании по кривой нормального распределения число степеней свободы (k) определяется как l 3, где l число групп в ряду. При выравнивании по кривой Пуассона k = l – 2, так как в этом случае для нахождения теоретических частот учитывались две ограничивающие связи: средняя арифметическая и сумма частот.

Для оценки существенности наблюденного значения χ2 при дан-

ном числе степеней свободы (k) могут использоваться таблицы двух типов.

По таблицам первого вида отыскивается вероятность наступления наблюденного значения χ2 при данном числе степеней свободы (k).

Если вероятность близка к нулю (как правило, меньше 0,05), расхождения между эмпирическими и теоретическими частотами считают существенными, а гипотезу не приемлемой для данного распределения.

По таблицам другого типа определяется предельное верхнее значение «хи-квадрата» (критическое значение) при данном числе степеней свободы и заданном уровне значимости. Затем наблюденное значение «хи-квадрата» сравнивают с табличным (критическим). Если фактиче-

ское «хи-квадрат» меньше табличного ( χф2 < χтабл2 ), то при з аданном уровне значимости расхождения между эмпирическими и теоретическими частотами считают случайными, а гипотезу о принятом законе распределения приемлемой.

Следует остановиться на понятии уровня значимости, используемого в таблицах второго вида. Уровень значимости применительно к

15

проверке статистических гипотез это вероятность, с которой может быть опровергнута гипотеза о том или ином законе распределения. Чем меньше уровень значимости, тем меньше вероятность не принять гипотезу. Обычно уровень значимости P(χ2 )= α принимают 0,05 или

0,01, а отвечающая данной вероятности (уровню значимости) при определенном числе степеней свободы величина χ2 считается критической.

Если наблюденное значение χф2 превышает критическое значение,

отвечающее принятому уровню значимости, то гипотеза о том или ином законе распределения не принимается.

Нормальное распределение описывается следующим выражением

 

 

1

 

e

( xx )2

плотности вероятности y =

 

 

2σ 2 , (1.24)

 

 

 

 

σ

 

2π

 

 

 

 

 

где y – ордината кривой распределения; x значение изучаемого признака; x средняя арифметическая ряда; σ среднее квадратическое отклонение изучаемого признака; π постоянное число (отношение длины окружности к её диаметру); e основание натурального логарифма.

На рис. 1.1 показан график (1.24), который представляет собой симметричную куполообразную кривую, имеющую максимум в точке, соответствующей средней арифметической ряда μ. Точки перегиба у нормальной кривой находится на расстоянии σ от средней арифметической.

Рис. 1.1. График плотности вероятности нормального распределения

16

На рисунке указаны доли (в %), которые составляют участки площади под кривой на интервале σ. Площадь под кривой равна единице

(100%).

Нахождение основных характеристик статистического вариационного ряда, описанных выше, реализовано в программе «Sample». Программа позволяет:

рассчитать показатели ряда (элемент меню Выборка);

построить гистограмму распределения, теоретическую кривую распределения (элемент меню Распределение);

рассчитать теоретическую вероятность в заданном диапазоне (элемент меню Диапазон);

сформировать выборку из ряда по заданным среднему значению

истандартному отклонению фактора (элемент меню Имитация);

рассчитать надежность и риск при ограничении фактора справа (элемент меню Надежность);

определить расчетное значение фактора при заданном уровне надежности (элемент меню Фактор).

В рассматриваемом ниже примере производится статистическая обработка результатов натурных испытаний коэффициента использования рабочего времени земснарядов в строительной фирме за 2009 г. (таблица 1.7)

Таблица 1.7. Коэффициент использования земснаряда по времени

Фактор

 

 

 

 

 

Земснаряд

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

7

 

8

9

0

11

12

13

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Kв

0,56

0,45

0,52

0,49

0,62

0,34

0,80

 

0,69

0,63

0,64

0,66

0,67

0,76

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

После запуска программы необходимо выбрать вид расчета Затем открываем таблицу Исходные данные.db Далее необходимо заполнить коэффициенты использования по времени в таблицу Выборка.db. Для этого в таблице Исходные данные.db устанавливаем курсор в ячейку Выборка и два раза нажимаем левую клавишу мыши. Затем вводим исходные данные (таблица 1.7) в таблицу Выборка.db и отсылаем отредактированный вариант таблицы в базу данных. После этого заполняем наименование задачи, заносим величину объема выборки. Объем выборки можно определить автоматически, если установить курсор в ячейку Объем выборки и два раза щелкнуть левой клавишей мыши. Далее устанавливаем курсор в ячейку Фактор, два раза щелкаем левой клавишей мыши и выбираем название нужного фактора. В рассматриваемом примере ничего выбирать не надо. Фактор в ячейке должен соответствовать фактору в таблице Выборка.db.

17

После заполнения исходных данных отсылаем отредактированный вариант таблицы Исходные данные.db и выполняем расчет. Затем вводим имя файла с исходными данными и нажимаем Enter. Результаты расчета выводятся на экран.

Для построения гистограммы, кривой нормального распределения, организационно-технологической надежности и риска выбираем элемент меню Распределение. Затем заполняем наименование ячейку Наиме-

нование оси X и выполняем расчет. Далее выполняем Расчет Построить график. Построенные графики можно по одному сохранить в файл или скопировать в буфер и перенести в Word. Рисунки графиков можно сохранить в формате bmp, emf и wmf. Рекомендуется использовать формат emf.

Для сохранения гистограммы необходимо выполнить Расчет Со-

хранить в файл Плотность распределения вероятности.

Вприложении П2 приводится листинг работы программы «Sample»

играфическое представление результатов.

18

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]