книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)
..pdfМинистерство науки и высшего образования Российской Федерации
Федеральное государственное автономное образовательное учреждение высшего образования
«Пермский национальный исследовательский политехнический университет»
А.В. Катаев, С.Н. Кутовой
ПРИКЛАДНОЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ В ГОРНОМ ДЕЛЕ (МНОГОМЕРНАЯ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА)
Рекомендовано Редакционно-издательским советом университета
в качестве учебного пособия
Издательство Пермского национального исследовательского
политехнического университета
2022
1
УДК 622:519.237(075.8) К29
Рецензенты:
докт. техн. наук, проф. С.Г. Ашихмин, (Пермский национальный исследовательский политехнический университет)
канд. техн. наук, доцент В.Б. Замотин (Центр экспертизы «Недра Урала», г. Пермь)
Катаев, А.В.
К29 Прикладной статистический анализ в горном деле (Многомерная математическая статистика) : учеб. пособие / А.В. Катаев, С.Н. Кутовой. – Пермь : Изд-во Перм. нац. исслед. политехн. ун-та, 2022. – 319 с.
ISBN 978-5-398-02787-7
Приведён теоретический и практический материал по дисциплинам «Математическая статистика в горном и нефтяном деле» и «Методы математической статистики в прикладной геодезии» в области многомерной статистики.
Предназначено для студентов 4-го курса специальностей «Горное дело», специализации «Маркшейдерское дело» и студентов 3–4-го курсов специальности «Инженерная геодезия». Может использоваться студентами в процессе выполнения курсовых работ и выпускной квалификационной работы.
УДК 622:519.237(075.8)
ISBN 978-5-398-02787-7 |
© ПНИПУ, 2022 |
2
ОГЛАВЛЕНИЕ |
|
ВВЕДЕНИЕ....................................................................................... |
8 |
1. МНОГОМЕРНЫЕ МЕТОДЫ СТАТИСТИКИ. |
|
ОБЩАЯ ИНФОРМАЦИЯ ............................................................. |
10 |
2. КЛАСТЕРНЫЙ АНАЛИЗ.......................................................... |
17 |
2.1. Введение в кластерный анализ.......................................... |
17 |
2.2. Меры близости объектов ................................................... |
26 |
2.3. Характеристики близости объектов ................................. |
27 |
2.4. Методы кластерного анализа ............................................ |
32 |
2.4.1. Иерархические алгоритмы ........................................ |
33 |
2.4.1.1. Сущность иерархических методов |
|
кластеризации.................................................................. |
33 |
2.4.1.2. Расстояния между кластерами.......................... |
34 |
2.4.1.3. Выбор числа кластеров...................................... |
36 |
2.4.2. Процедуры эталонного типа (метод k-средних)...... |
42 |
2.4.2.1. Сущность метода k-средних.............................. |
42 |
2.4.2.2. Условия выбора центров кластеров ................. |
43 |
2.4.2.3. Анализ кластеров ............................................... |
45 |
3. КАНОНИЧЕСКИЙ АНАЛИЗ.................................................... |
50 |
3.1. Общие сведения и предположения................................... |
50 |
3.2. Этапы выполнения канонического анализа..................... |
55 |
3.3. Формирование множеств, инструменты анализа ............ |
56 |
3.3.1. Отбор множеств.......................................................... |
56 |
3.3.2. Обзор инструментов канонического анализа .......... |
60 |
3.3.3. Канонические переменные........................................ |
61 |
3.3.4. Собственные значения............................................... |
63 |
3.3.5. Канонические корреляции |
|
и канонические корни.......................................................... |
65 |
3.3.6. Значимость канонических корреляций .................... |
66 |
3.3.7. Канонические веса ..................................................... |
67 |
3.3.8. Канонические веса и каноническое множество ...... |
68 |
3.3.9. Структура фактора и канонические веса ................. |
69 |
3
3.3.10. Практическая значимость |
|
канонических корней ........................................................... |
72 |
3.3.11. Лямбда Уилкса (λ).................................................... |
74 |
3.3.12. Очистка множеств.................................................... |
77 |
3.3.13. Извлеченная дисперсия и избыточность................ |
78 |
3.3.14. Собственные значения............................................. |
79 |
4. ДИСКРИМИНАНТНЫЙ АНАЛИЗ .......................................... |
81 |
4.1. Введение в дискриминантный анализ .............................. |
81 |
4.2. Статистические решающие функции ............................... |
84 |
4.3. Определение числа и состава |
|
дискриминирующих функций. Классификация |
|
объектов с помощью функции расстояния ............................. |
85 |
4.4. Этапы дискриминантного анализа.................................... |
87 |
4.5. Постановка задачи классификации |
|
в дискриминантном анализе..................................................... |
87 |
4.6. Дискриминантные функции .............................................. |
88 |
4.7. Коэффициенты дискриминантной функции.................... |
92 |
4.8. Процедура дискриминантного анализа ............................ |
95 |
4.8.1. Постановка задачи для прогнозирования |
|
газодинамических явлений.................................................. |
95 |
4.8.2. Создание модели ........................................................ |
99 |
4.8.3. Результаты дискриминантного анализа ................. |
101 |
5. ФАКТОРНЫЙ АНАЛИЗ ......................................................... |
116 |
5.1. Общие сведения................................................................ |
116 |
5.2. Методы проведения факторного анализа....................... |
119 |
5.3. Условия проведения факторного анализа...................... |
122 |
5.4. Формулировка задачи ...................................................... |
123 |
5.4.1. Линейная факторная модель ................................... |
123 |
5.4.2. Вычисление собственных значений ....................... |
127 |
5.4.3. Дисперсия, коэффициенты корреляции |
|
признаков и их составляющие .......................................... |
142 |
5.4.4. Общность .................................................................. |
144 |
5.5. Факторные нагрузки, общности и характерности......... |
155 |
6. ВРЕМЕННЫЕ РЯДЫ............................................................... |
160 |
6.1. Случайная функция.......................................................... |
160 |
6.1.1. Общие понятия ......................................................... |
160 |
4
6.1.2. Случайная функция и её реализации...................... |
162 |
6.1.3. Некоторые вероятностные статистические |
|
характеристики случайных функций ............................... |
164 |
6.1.4. Типы случайных функций по характеру |
|
изменения их статистических характеристик.................. |
167 |
6.1.5. Автокорреляционная функция................................ |
168 |
6.1.6. Сведения о спектральной теории |
|
случайных процессов......................................................... |
173 |
6.1.7. Периодограмма и ее использование....................... |
176 |
6.1.8. Стационарность случайной функции ..................... |
179 |
6.1.9. Эргодическое свойство случайной величины ....... |
183 |
6.2. Анализ временных рядов................................................. |
185 |
6.2.1. Обработка и анализ временных рядов.................... |
185 |
6.2.2. Пример временного ряда ......................................... |
186 |
6.2.3. Компоненты временного ряда................................. |
188 |
6.2.3.1. Общие сведения ............................................... |
188 |
6.2.3.2. Виды трендов.................................................... |
191 |
6.2.3.3. Периодичные колебания, сезонность............. |
195 |
6.2.3.4. Оценка качества в анализе |
|
временных рядов........................................................... |
203 |
6.2.3.5. Рекомендации по выявлению модели |
|
тренда и методы его выделения |
|
из временного ряда ....................................................... |
204 |
6.2.4. Инструменты обработки временных рядов ........... |
206 |
6.2.4.1. Общие сведения ............................................... |
206 |
6.2.4.2. Сглаживание временного ряда........................ |
208 |
6.2.5. Модели временных рядов........................................ |
216 |
6.2.5.1. Модели авторегрессии..................................... |
216 |
6.2.5.2. Модели скользящего среднего |
|
в прогнозировании ........................................................ |
219 |
6.2.5.3. Авторегрессионные модели |
|
скользящего среднего ................................................... |
220 |
6.2.5.4. Анализ модели нестационарных |
|
временных рядов........................................................... |
223 |
6.2.6. Теория моделирования и прогнозирования |
|
временных рядов ................................................................ |
226 |
5
6.2.6.1. Этапы моделирования |
|
случайных процессов.................................................... |
226 |
6.2.6.2. Простые методы прогнозирования |
|
временных рядов........................................................... |
229 |
6.2.7. Методы классической декомпозиции |
|
Census I, Census II и X-12 .................................................. |
230 |
6.2.8. Примеры моделирования и прогноза |
|
временных рядов ................................................................ |
232 |
6.2.8.1. Анализ временных рядов |
|
с разложением их на компоненты ............................... |
232 |
6.2.8.2. Анализ временного ряда с интервенцией ...... |
240 |
6.2.8.3. Анализ временного ряда |
|
и прогноз АRIMA.......................................................... |
244 |
7. ИСКУССТВЕННЫЕ НЕЙРОННЫЕ |
|
СЕТИ И ИХ УСТРОЙСТВО ....................................................... |
264 |
7.1. Введение в нейронные сети. |
|
История нейронных сетей ...................................................... |
264 |
7.2. Искусственный нейрон .................................................... |
266 |
7.3. Функции активации нейрона........................................... |
271 |
7.4. Обучение нейросети......................................................... |
274 |
7.5. Типы сетей ........................................................................ |
276 |
7.6. Особенности обучения нейронных сетей....................... |
280 |
7.7. Процедура построения искусственных |
|
нейронных сетей...................................................................... |
285 |
7.8. Архитектура нейронных сетей........................................ |
287 |
7.9. Ансамбли нейронных сетей............................................. |
291 |
7.10. Нейронные сети в программном |
|
продукте Statistica.................................................................... |
293 |
7.10.1. Функции нейронных сетей |
|
в программном продукте Statistica .................................. |
293 |
7.10.2. Применение нейронных сетей |
|
для задач классификации................................................... |
296 |
7.10.3. Применение нейронных сетей |
|
для проведения регрессии (аппроксимация функции |
|
и прогнозирование) ............................................................ |
299 |
6
7.10.4. Применение нейронных сетей |
|
для прогноза временных рядов ......................................... |
304 |
7.10.5. Применение нейронных сетей |
|
для прогноза остатков временных рядов ......................... |
307 |
ЗАКЛЮЧЕНИЕ ............................................................................ |
309 |
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ................... |
311 |
7
ВВЕДЕНИЕ
В математической статистике присутствует отдельная область исследований, в которую включены математические методы оптимальных способов отбора информации, предложены подходы к систематизации и обработке многомерных статистических данных, разработаны приёмы по выявлению характера и структуры взаимосвязей между компонентами исследуемого многомерного признака. Все перечисленные направления исследований, а также ряд других технологий статистической обработки совместно наблюдаемых переменных какого-либо процесса направлены на получение новых научных и практических выводов. Такой раздел именуется многомерным статистическим анализом [1; 2;14; 28; 42; 45; 47; 66; 73; 78].
К прикладным областям математической статистики можно отнести задачи, связанные с исследованием поведения рудных тел и пластов горнодобывающих предприятий [3; 7; 25; 26; 31; 33; 34; 49; 61; 66; 77], объектов земной поверхности, ландшафта или крупного горного предприятия, как представителя большой совокупности объектов земной поверхности и горных разработок на значительной территории. Во многих областях науки и промышленности применяется классификация изучаемых объектов или явлений [25; 66]. Её использование в геодезии, картографии, геологии, горном деле и других отраслях, связанных с территориями (или геопространством), имеет давнюю историю. Картографический подход к изучению таких территорий, явлений природы, нефтяных провинций, рудоносных полей или угольных бассейнов также предполагает использование методов классификации. По мнению Д.Л. Арманда, «классификация территорий, положенная на карту, является районированием» [7]. В горном деле нередко используется районирование месторождений полезных ископаемых по геологическим, горнотехнологическим или иным факторам [31; 34; 66]. А районирование отдельных элементов геологической среды зачастую яв-
8
ляются не только методами, но и целями картографических исследований. Например, выделение выбросоопасных зон на территории Верхнекамского месторождения калийно-магниевых солей (ВКМКС), районирование водозащитной толщи как мера предотвращения затопления горных выработок, зонирование подрабатываемой земной поверхности для охраны существующих объектов [65]. В общем случае основными задачами кластеризации и группировки являются выявление и выделение групп (или множеств, классов) одинаковых объектов среди всех анализируемых данных. В научной литературе, особенно изданной во второй половине XX в., можно встретить и иные термины: «распознавание образов без учителя», «автоматическая классификация без учителя», «таксономия» и др. [1; 40; 47].
Многомерность свойственна территориальным объектам и горно-геологическим данным по природе. Как правило, исследованиям подвергаются значительные по охвату территории. К примеру, ВКМКС имеет размеры 140 км с севера на юг и 60 км в широтном направлении. Месторождение сложное как по строению, так и по составу. Проводятся обширные наблюдения за поведением тех или иных характеристик природной среды, объектами разработки полезных ископаемых, процессами, сопровождающими горные разработки. Как раз для общего анализа подобных данных и разрабатывались многомерные статистические методы. Исследователи часто их привлекают в различных целях: для нахождения присущих промышленным пластам качественных и количественных характеристик; с целью проверки выдвигаемых гипотез в отношении исследуемых данных и для решения других задач [17; 21; 22; 36; 51; 52; 59; 67].
9
1. МНОГОМЕРНЫЕ МЕТОДЫ СТАТИСТИКИ. ОБЩАЯ ИНФОРМАЦИЯ
Многомерные методы обладают широким кругом статистических технологий, который расширяет свои границы [1; 48]. По назначению выделяют несколько центральных задач, решаемых с помощью многомерных методов.
1.Методы аппроксимации и экстраполяции: множествен-
ный регрессионный анализ, технологии искусственных нейронных сетей, частично дискриминантный анализ. Множественный регрессионный анализ позволяет получить значения одной переменной как функцию от нескольких других переменных, значения которых измерены у множества объектов. Нейронные сети решают задачи описания и предсказания результативнее регрессионного анализа.
Необходимость прогноза обусловлена желанием знать события или состояние объекта будущего. В горном деле эти знания необходимы на всех этапах производства – от планирования горных работ до реализации конечного продукта. В городской среде – прогноз развития населённого пункта, прогноз стоимости жилья и др. Труднее найти область, где прогноз не требуется.
2.Статистическое исследование структуры и характера
взаимосвязей, существующих между анализируемыми количе-
ственными переменными. При этом под переменными понимаются как регистрируемые на объектах признаки, включая параметры геопространства, так и время t. К ним можно отнести методы факторного анализа, технологии многомерного шкалирования. Отдельно выделяется анализ временных рядов и случайных процессов.
Ранее отмечалось, что объекты горного производства характеризуются множеством признаков, некоторые из них могут
10