Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Министерство науки и высшего образования Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего образования «Пермский национальный исследовательский политехнический университет»

А.В. Катаев, С.Н. Кутовой

ПРИКЛАДНОЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ В ГОРНОМ ДЕЛЕ (ОДНОМЕРНАЯ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И РЕГРЕССИОННЫЙ АНАЛИЗ)

Рекомендовано Редакционно-издательским советом университета

в качестве учебного пособия

Издательство Пермского национального исследовательского

политехнического университета

2022

УДК 662: 519.22 (075.8) К29

Рецензенты:

докт. техн. наук, проф. С.Г. Ашихмин (Пермский национальный исследовательский политехнический университет);

канд. техн. наук, доцент В.Б. Замотин (Центр экспертизы «Недра Урала», г. Пермь)

Катаев, А.В.

К29 Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ) : учеб. пособие / А.В. Катаев, С.Н. Кутовой. – Пермь : Изд-во Перм. нац. исслед. политехн. ун-та, 2022. – 275 с.

ISBN 978-5-398-02766-2

Приведён теоретический и практический материал по дисциплинам «Математическая статистика в горном и нефтяном деле» и «Методы математической статистики в прикладной геодезии». В пособии приводятся примеры статистического анализа данных по Верхнекамскому месторождению калийно-магниевых солей с использованием программного продукта Statistica.

Предназначено для студентов 4-го курса специальностей «Горное дело», специализации «Маркшейдерское дело» и студентов 3–4-го курсов специальности «Инженерная геодезия». Может быть использовано студентами в процессе выполнения курсовых работ и выпускной квалификационной работы.

УДК 662: 519.22 (075.8)

ISBN 978-5-398-02766-2

©ПНИПУ,2022

ОГЛАВЛЕНИЕ

 

Введение...................................................................................................................

7

1. Общие сведения................................................................................................

11

1.1. История развития математической статистики.............................................

11

1.2.Общиесведенияопараметрическойинепараметрическойстатистике............

13

1.3.Классификациястатистическихметодовпотипуиспользуемыхданных........

17

1.4. Особенности подготовки горно-геологических и природных данных

 

для исследования с помощью методов математической статистики ...................

20

2. Общие сведения из теории вероятностей.....................................................

26

2.1. Основные понятия и задачи теории вероятностей........................................

26

2.2. Испытание и событие......................................................................................

29

2.3. Случайная величина и её представление.......................................................

30

2.4. Эмпирическая функция распределения.........................................................

33

2.5. Числовые характеристики случайной величины..........................................

37

2.6. Генеральная совокупность и выборка............................................................

39

2.7. Простейшие описательные статистики (Descriptive Statistics) выборки........

41

2.8. Классификация статистических показателей ...............................................

49

2.9. Робастные и неробастные оценки..................................................................

49

2.10. Показатели качества......................................................................................

52

2.10.1. Коэффициент запаса точности Cpk ...................................................

52

2.10.2. Потенциальный коэффициент запаса точности Cp .........................

53

2.10.3. Коэффициент засоренности данных g..............................................

54

2.11. Теоретические функции распределения......................................................

55

2.11.1. Общие сведения.................................................................................

55

2.11.2. Нормальный закон распределения ...................................................

56

2.11.3. Равномерное распределение..............................................................

60

2.11.4. Распределение Пирсона 2 (хи-квадрат) .........................................

61

2.11.5. Распределение t Стьюдента...............................................................

62

2.11.6. Распределение Фишера......................................................................

63

3. Статистические гипотезы...............................................................................

64

3.1. Основные понятия...........................................................................................

64

3.2. Виды статистических гипотез........................................................................

67

3.3. Статистические критерии...............................................................................

71

3.3.1. Общие сведения...................................................................................

71

3.3.2. Критическая область............................................................................

71

3.3.3. Основные принципы проверки статистических гипотез..................

75

3.3.4. Число степеней свободы......................................................................

77

3.3.5. Статистическая значимость. Р-уровень значимости.........................

79

3.3.6. Критический уровень значимости ошибки принятия гипотез.........

80

3

3.3.7. Определение критических значений распределений

 

на практике в модуле «Вероятностный калькулятор»

 

программы Statistica.......................................................................................

87

3.4. Решение задачи сравнения выборок..............................................................

90

3.4.1. Виды выборок данных.........................................................................

90

3.4.2. Проверка гипотезы о равенстве дисперсий

 

двух независимых выборок...........................................................................

92

3.4.3. Параметрический критерий проверки статистических

 

гипотез – t-критерий Стьюдента...................................................................

95

3.4.4. Оценка разности средних для независимых выборок.......................

98

3.4.5. Оценка разности между средними

 

для зависимых (парных) выборок ..............................................................

102

3.4.6. Пример выполнения оценки разности средних

 

и дисперсий для независимых выборок в программе Statistica................

106

3.5. Проверка статистических гипотез о виде распределения..........................

112

3.5.1. Общие сведения.................................................................................

112

3.5.2. Проверка гипотез о виде распределения

 

по критерию согласия 2 .............................................................................

114

3.5.3. Проверка гипотез о виде распределения

 

по критерию Шапиро – Уилка....................................................................

123

3.5.4. Упрощенные методы проверки нормальности выборки ................

126

4. Точечные и интервальные оценки..............................................................

129

4.1. Введение.........................................................................................................

129

4.2. Погрешности измерений и причины возникновения ошибок ...................

130

4.3. Точечные оценки и требования к ним.........................................................

132

4.4. Стандартная ошибка среднего арифметического.......................................

136

4.5. Интервальные оценки ...................................................................................

139

4.5.1. Общие сведения.................................................................................

139

4.5.2. Доверительный интервал для математического ожидания

 

генеральной совокупности, имеющей нормальное распределение

 

при известной дисперсии............................................................................

142

4.5.3. Построение доверительного интервала для оценки

 

среднего значения генеральной совокупности..........................................

145

4.5.4. Доверительный интервал для среднего

 

квадратического отклонения 2 .................................................................

146

4.5.5. Доверительный интервал для оценки коэффициента корреляции...

148

5. Корреляционно-регрессионный анализ .....................................................

149

5.1. Общие сведения.............................................................................................

149

5.2. Исследование взаимосвязи между признаками ..........................................

150

5.2.1.Параметрическиемерысвязи.КоэффициенткорреляцииПирсона....

150

5.2.2. Ранговые корреляции.........................................................................

154

5.2.2.1. Коэффициент корреляции Спирмэна..................................

155

5.2.2.2. Коэффициент корреляции Кендалла...................................

158

4

5.3. Парный регрессионный анализ ....................................................................

161

5.3.1. Общие сведения.................................................................................

161

5.3.2. Проверка степени статистической связи..........................................

164

5.3.3. Вычисление параметров линейной регрессии.................................

171

5.4. Вычисление оценок регрессии.....................................................................

176

5.5. Дисперсионный анализ.................................................................................

179

5.6. Статистическая оценка полученных коэффициентов регрессии...............

184

5.7. Исследование уравнения регрессии.............................................................

186

5.7.1. Показатели качества и достоверности уравнения...........................

186

5.7.2. Показатели адекватности модели.....................................................

190

5.7.2.1. Анализ нормальности остатков...........................................

190

5.7.2.2. Анализ остатков на нелинейность.......................................

191

5.7.2.3. Анализ остатков на автокорреляцию..................................

196

5.7.2.4. Доверительный интервал.....................................................

197

6. Множественная регрессия............................................................................

200

6.1. Отличия множественной регрессии от парной...........................................

200

6.2. Пошаговая или гребневая регрессия............................................................

202

6.3. Пример выполнения задания в пакете Statistica методом

 

всех регрессий.......................................................................................................

203

6.4. Пошаговая регрессия.....................................................................................

207

7. Нелинейная регрессия...................................................................................

214

7.1. Виды моделей................................................................................................

214

7.2. Виды графиков функций...............................................................................

216

7.3. Начальные вопросы спецификации регрессионных моделей....................

216

7.3.1. Выбор аргументов и формы уравнения регрессии..........................

216

7.3.2. Классы нелинейной регрессии..........................................................

217

7.4. Нелинейная парная регрессия ......................................................................

220

7.4.1. Степенная функция............................................................................

220

7.4.2. Показательная и экспоненциальная функции..................................

224

7.4.3. Логарифмическая функция ...............................................................

226

7.4.4. Логистическая кривая........................................................................

227

7.4.5. Функции с одним экстремумом........................................................

228

7.4.6. Функции с несколькими экстремумами...........................................

230

7.4.6.1. Полиномиальная функция....................................................

230

7.4.6.2. Сплайн-функция ...................................................................

231

7.5. Нелинейная множественная регрессия........................................................

231

7.5.1. Некоторые процедуры преобразования аргументов

 

в уравнениях, нелинейных относительно независимых переменных........

232

7.5.1.1. Полиномиальная регрессия..................................................

232

7.5.1.2. Гипербола..............................................................................

234

7.5.2. Некоторые процедуры преобразование аргументов

 

в уравнениях, нелинейных относительно параметров..............................

235

7.5.2.1. Общие сведения....................................................................

235

5

7.5.2.2. Логарифмические преобразования для степенных,

 

показательных и экспоненциальных функций................................

236

7.5.2.3. Некоторые дополнительные процедуры

 

преобразования переменных ............................................................

240

7.5.3. Некоторые вопросы спецификации регрессионных моделей........

243

7.6. Фиксированная нелинейная регрессия........................................................

250

7.7. Нелинейное оценивание................................................................................

251

Заключение..........................................................................................................

257

Список использованных источников .............................................................

258

Приложения ........................................................................................................

265

Приложение А. Результаты анализов проб по полезному компоненту КCl.......

265

Приложение Б. Таблица данных к проверке соответствия нормальному

 

закону распределения значений переменных по критерию согласия χ2..........

266

Приложение В. Коэффициенты для вычисления статистики критерия

 

Шапиро – Уилка ..................................................................................................

268

Приложение Г. Критические значения максимального отклонения

 

выборочной интегральной функции распределения от теоретической,

 

Dкрит (для критерия Лиллиефорса)......................................................................

270

Приложение Д. Результаты обработки проб для линейной регрессии............

271

Приложение Е. Таблица остатков парной регрессии........................................

272

Приложение Ж. Статистика Дарбина – Уотсона:

 

d1 и d2 для уровня значимости 0,05.....................................................................

273

6

ВВЕДЕНИЕ

В литературе можно встретить разные определения термина «статистика» как в сфере общественной жизни, так и в отдельных отраслях науки и промышленности. Статистика горнодобывающей промышленности включает в себя две области: с одной стороны – науку, имеющую свой предмет изучения, с другой – наработанные технологии сбора, обработки и анализа данных [1; 12; 20; 21; 22; 27; 42; 54].

Применительно к отраслям производства, занимающимся добычей различного сырья из недр и изучением геологического строения объекта разработки, можно дать такое определение: статистика– это наука, изучающаязакономерностивхаосеслучайных данных, позволяет выделить среди них устойчивые связи, установить и предложить наиболее подходящие для массива информации совокупности методов обработки. Предмет изучается, с одной стороны, как математическая дисциплина, а применительно к горно- добывающейобласти–какприкладнаястатистика.

Математической основой прикладной статистики и статистических методов анализа данных в целом служит математическая дисциплина, известная под названием «Теория вероятностей и математическая статистика» [1; 12; 20]. Основой этой дисциплины является изложение теорем и их доказательств. Основные цели этой науки, как и многих других математических дисциплин, – это логическое построение самой теории, ее внутренняя безупречность и согласованность, поэтому теория математической статистики является, как правило, аксиоматической1. Теория вероятностей изучает случайные события. Это могут быть погрешности измерений, например погрешности измерений углов

1 Аксиоматический метод (греч. axioma – «значимое, принятое положение») – идеология построения теории, при которой первичные утверждения избираются в качестве истинных аксиом, из которых впоследствии доказываются остальные утверждения и теоремы этой теории.

7

двумя приемами или значение содержания хлористого калия по пробе. Вместе с тем случайное событие может быть и нечисловым: наличие или отсутствие газодинамического явления при разработке панели. Это событие может происходить, а может и не происходить. Или наличие замещения полезного ископаемого (сильвинитовой руды) разубоживающей породой (каменной солью) на отрабатываемом пласте рудника, визуально зафиксированное на стенке выработки геологом. Оно характеризуется пониженным содержанием сильвинита и одновременным повышением в составе пробы содержания хлористого натрия (компонента, понижающего качество сильвинитовой руды). При анализе зоны замещения как случайного события нас будет интересовать мощность сильвинитовой части пласта. Если она больше кондиционной2, пласт будем считать сильвинитового состава. Как только мощность сильвинита становится меньше кондиционной, эта граница считается границей зоны замещения. На этом примере случайного события нас в первую очередь интересует количественная величина мощности сильвинита, по которой определяется факт наличия замещения. В случаях, когда значение содержания полезного компонента в отобранных пробах меньше кондиционного значения, также можно делать выводы о появлении зоны замещения. Таким образом, в прикладной статистике понятие случайной величины первично, именно по её значению часто делают выводы о состоявшемся (или ожидаемом) событии.

Поиск соответствия между абстрактными математическими понятиями и реальными природными, геологическими, горными или иными объектами может присутствовать, но является побочной (вторичной) задачей теории математической науки. Для прикладной статистики, наоборот, важно иметь дело с реальными данными и делать на их основе осмысленные заключения, имеющие значение для практики. По этой причине некоторые специалисты считают, что прикладная статистика – это не-

2 Кондиции на минеральное сырье представляют собой совокупность требований к качеству полезных ископаемых.

8

сколько другая область знаний, чем математическая статистика [1; 42]. В отличие от математической статистики основной задачей прикладных статистических методов является методология анализа данных, а с широким внедрением электронно-вычисли- тельных машин (ЭВМ) ещё и алгоритмы расчетов. Использование геоинформации в анализируемых данных даёт возможность отображать результаты статистических исследований на цифровых планах и картах, совмещая их с горной обстановкой. Теоремы математической статистики в прикладных отраслях приводятся для обоснования разработанных алгоритмов в прикладной статистике и часто без доказательств.

Прикладную статистику нельзя полностью относить к математике ещё и потому, что она включает в себя и нематематические категории. Во-первых, технологию организации статистических исследований: как проводить исследование, как фиксировать данные (например, через какое расстояние проводить опробование в бороздах или скважинах), как подготавливать данные к обработке (какие методы сглаживания или фильтрации использовать). Во-вторых, прикладная статистика предусматривает методологию компьютерной обработки данных, последовательность и технологию проверки данных в базах данных и электронных таблицах, в статистических программных продуктах. В- третьих, форму представления результатов исследований – в табличном виде, графически на планах и картах земной поверхности или на геологической модели в виде изолиний или областей, в виде выделенных различным цветом (классифицированных) пикселей на планах или вокселей в трёхмерной графике. Табличная форма самая простая, но она ненаглядна. Графические способы отображения чрезвычайно понятны и доказательны, они дают возможность решить и другие задачи – например, определить площадь зоны на цифровых планах или объём полезного компонента в выработке при использовании воксельной модели. Эти примеры показывают использование статистики при анализе пространственно распределённых данных (их ещё именуют геопространственными). Особенности обработки распределённых в про-

9

странстве данных породили новое направление в статистических исследованиях – геостатистику [22; 27].

Основа профессиональных знаний исследователя – инже- нера-горняка, маркшейдера, геолога, геодезиста – закладывается на этапе обучения. Позднее знания дополняются и расширяются в том частном направлении, в котором специалист использует методы прикладного статистического анализа. В работах [21; 27; 47; 54; 72] показано, как математическую статистику можно использовать в горном и нефтегазовом деле для контроля величины погрешностей измерений, как разделить эти погрешности на случайные, систематические и грубые, как создавать и использовать модели на основе метода группового учёта аргументов (МГУА) для решения многих задач горного производства, включая области геометризации месторождений полезных ископаемых [27].

На многих горнодобывающих предприятиях широко внедряются цифровые технологии с хранением результатов наблюдений в базах данных. В этом случае объём информации, требующей обработки, многократно возрастает. В 2008 г. в специальном выпуске журнала Nature [71], посвящённом взрывному росту мировых объёмов информации, впервые появился термин big data – «большие данные». С широким внедрением компьютеров появились новые технологические возможности для анализа огромного количества данных. Обработка больших объёмов данных позволяет вскрыть неочевидные тенденции и закономерности. Для эффективного использования больших данных на современном этапе используются технологии машинного обучения, искусственные нейронные сети, системы распознавания образов, технологии прогнозирования, методы пространственного анализа, визуализация аналитическихданныхи,конечно,статистическиеметодыанализа.

В целом использование результатов статистического анализа в горном деле позволяет улучшить методики наблюдений и обработки, устранить воздействие одних или уменьшить последствия других погрешностей, составить статистические зависимости одних переменных от других, определить закономерности изменения исследуемых переменных.

10

Соседние файлы в папке книги