Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MU_Geo_new_2.doc
Скачиваний:
28
Добавлен:
09.11.2019
Размер:
4.51 Mб
Скачать

189

Мартьянова А.Е. Математические методы моделирования в геологии

АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

А.Е. МАРТЬЯНОВА

Математические методы моделирования в геологии

Часть II

Учебное пособие для студентов направления

650100 «Прикладная геология»

Астрахань

2008

УДК 518 : 55

ББК 26.3

Рецензент:

зав. каф. ГНГ АГТУ,

д.г.-м.н., проф. Н.Н. Гольчикова

Учебное пособие рассмотрено и рекомендовано к печати на заседании кафедры ____________ (протокол № от г.)

Мартьянова А.Е. Математические методы моделирования в геологии. Часть II: Учебное пособие для студентов направления 650100 «Прикладная геология». – Астрахань: АГТУ, 2008. – 190 с.

Настоящее учебное пособие подготовлено по материалам учебного курса, посвященного математическим методам в геологии, который читался автором для направления 650100 «Прикладная геология». В пособии рассмотрены сущность и условия применения одномерных, двумерных и многомерных статистических моделей, методы математического описания пространственных геологических закономерностей. В процессе освоения материала пособия предполагается выполнение рассматриваемых примеров и задач на компьютере в двух популярных программных пакетах: электронных таблицах Excel корпорации Microsoft и статистическом пакете STATISTICA фирмы StatSoft.

СОДЕРЖАНИЕ

ПРЕДИСЛОВИЕ 3

ЛАБОРАТОРНАЯ РАБОТА № VI. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. МНОГОМЕРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ 5

ЛАБОРАТОРНАЯ РАБОТА № VII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. КЛАСТЕРНЫЙ АНАЛИЗ. ФАКТОРНЫЙ АНАЛИЗ 27

ЛАБОРАТОРНАЯ РАБОТА № VIII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ В ГЕОЛОГИИ 94

ЛАБОРАТОРНАЯ РАБОТА № IX. МОДЕЛИРОВАНИЕ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ. АППРОКСИМАЦИЯ ПОВЕРХНОСТЕЙ ТРЕНДА ПОЛИНОМАМИ 103

ЛАБОРАТОРНАЯ РАБОТА № X. ОПТИМИЗАЦИЯ 125

КОНТРОЛЬНЫЕ ВОПРОСЫ 134

ЛИТЕРАТУРА 136

ПРИЛОЖЕНИЯ 139

ПРЕДИСЛОВИЕ

Настоящее учебное пособие подготовлено по материалам учебного курса, который читался автором для студентов направления 650100 «Прикладная геология» по дисциплине «Математические методы моделирования в геологии». Пособие является уже вторым изданием и в значительной мере расширено и дополнено.

Пособие состоит из введения, списка литературы, приложений и десяти разделов: Лабораторная работа № I. «Одномерные статистические модели. Сущность и условия применения. Простейшие преобразования количественной геологической информации». Лабораторная работа № II. «Одномерные статистические модели. Статистические характеристики, используемые в геологии. Законы распределения. Интервальные оценки свойств геологических объектов». Лабораторная работа № III. «Одномерные статистические модели. Статистическая проверка геологических гипотез». Лабораторная работа № IV. «Одномерные статистические модели. Однофакторный и двухфакторный дисперсионный анализ в геологии». Лабораторная работа № V. «Двумерные статистические модели. Корреляционный анализ. Регрессионный анализ». Лабораторная работа № VI. «Многомерные статистические модели. Многомерный корреляционный анализ. Множественная регрессия». Лабораторная работа № VII. «Многомерные статистические модели. Кластерный анализ. Факторный анализ». Лабораторная работа № VIII. «Многомерные статистические модели. Задачи распознавания образов в геологии». Лабораторная работа № IX. «Моделирование пространственных переменных. Аппроксимация поверхностей тренда полиномами». Лабораторная работа № X. «Оптимизация». Каждый раздел содержит примеры, решение которых подробно рассматривается в пособии и задачи, для решения которых, как правило, приводятся необходимые указания и теоретические сведения. В основу учебного пособия положены материалы, подобранные из источников [1, 9 – 11, 17]. Обращение этим к источникам определяет круг используемых в пособии примеров и задач, решение которых рассматривается на основе использования современного программного обеспечения: электронных таблиц Excel корпорации Microsoft и статистического пакета STATISTICA 6.0 фирмы StatSoft, Inc. При рассмотрении теоретических вопросов широко использовались источники [4 – 6, 10 – 12, 19].

Для дополнительного изучения возможностей рассматриваемого программного обеспечения по обработке статистических данных можно порекомендовать обращение к источникам [2, 3, 7, 8, 16, 18, 20].

В конце пособия приводится список контрольных вопросов.

Из источника [3] в приложении XIII приводится англо-русский словарь терминов пакета STATISTICA и статистических терминов.

В приложении XIV приводится краткий справочник по основным функциям Excel, используемым в вычислениях, составленный по справочным материалам программы.

В приложении XV приводится краткий справочник по использованию пакета анализа Excel.

Учебное пособие адресовано студентам-геологам, изучающим математические методы моделирования в геологии, но также может быть полезно преподавателям и специалистам.

Хочу поблагодарить студентов потока ДХГ-III Астраханского государственного технического университета, во многом благодаря которым состоялось данное учебное пособие.

ЛАБОРАТОРНАЯ РАБОТА № VI. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. МНОГОМЕРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

Любое геологическое явление может быть охарактеризовано множеством признаков, поддающихся наблюдению и измерению. Геологические объекты должны рассматриваться как системы, зависящие от большого числа факторов и требующие для своего описания многомерного признакового пространства. Так, например, магматические породы сходного минерального и химического составов могут обладать некоторыми петрохимическими особенностями, определяющими их специфическую рудоносность. Эти особенности не поддаются выявлению с первого взгляда, однако они могут быть установлены путем целенаправленной статистической обработки результатов химических анализов пород. При решении подобных задач необходимо совместное рассмотрение комплекса изучаемых признаков, то есть создание многомерной статистической модели.

В качестве математической модели значений комплекса признаков рассматривается многомерная случайная величина, которая часто называется случайным вектором. Многомерные модели подразумевают вероятность нормального статистического распределения рассматриваемых случайных величин или хотя бы возможности их нормализации. Однако статистические критерии для большинства процедур многомерного анализа разработаны при очень сильных ограничениях или основываются на логических соображениях. Некоторые многомерные модели и методы (например, метод главных компонент и многие методы распознавания образов) вообще не имеют статистического обоснования, а критерии значимости для них еще не созданы.

Вследствие сложных стохастических взаимосвязей между изучаемыми признаками (переменными) часто не удается принять правильного решения относительно каждой из них. В таких случаях очень эффективно всестороннее исследование системы с выделением наиболее важных факторов, объединяющих влияние нескольких переменных.

Многомерные методы статистических исследований сложны как с теоретических, так и с методологических позиций.

В большинстве многомерных геологических задач приходится иметь дело со сложными сочетаниями действующих факторов, которые не удается выделить в чистом виде и изучить изолированно. Тем не менее, многомерные методы являются весьма перспективными и многообещающими средствами геологических исследований, поскольку они позволяют геологу одновременно работать с большим числом переменных, чем он может осознать сам. Совместное изучение комплексов взаимосвязанных переменных (признаков) способствует выявлению дополнительной, часто весьма существенной, информации об изменчивости свойств изучаемых объектов и обеспечивает возможность прогнозирования их неизвестных свойств.

МНОГОМЕРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Многомерный корреляционный анализ применяется для выявления зависимостей между наблюденными значениями различных геологических характеристик и разделения множества признаков по характеру их внутренних связей.

КОРРЕЛЯЦИОННАЯ МАТРИЦА

При большом числе наблюдений, когда коэффициенты корреляции необходимо последовательно вычислять из нескольких рядов числовых данных, для удобства получаемые коэффициенты сводят в таблицы, называемые корреляционными матрицами. Корреляционная матрица – это квадратная (или прямоугольная) таблица, в которой на пересечении соответствующих строки и столбца находится коэффициент корреляции между соответствующими параметрами. В Excel для вычисления корреляционных матриц используется процедура Корреляция. Процедура позволяет получить корреляционную матрицу, содержащую коэффициенты корреляции между различными параметрами. Реализация этой процедуры подробно рассмотрена в ЛАБОРАТОРНОЙ РАБОТЕ № V.

ПРИМЕР VI.1

В рудах полиметаллического месторождения, кроме основных полезных компонентов – цинка, свинца и меди, содержатся попутные полезные компоненты – золото, серебро, кадмий, сурьма, барий, извлекаемые из руд в процессе переработки. При наличии корреляционной связи между концентрациями основных и одного из попутных компонентов содержания последнего по отдельным участкам месторождения могут оцениваться по присутствию основных компонентов, что позволяет существенно уменьшить затраты на анализы. Для решения вопроса о возможности применения корреляционного метода подсчета запасов попутного компонента и расчета уравнения регрессии используются результаты анализов на основные и попутный компоненты по пробам (табл. VI.1 – VI.5).

Требуется

1) проверить гипотезу о наличии корреляционной связи между основными и одним из попутных компонентов;

2) определить, с каким из основных компонентов наиболее тесно связан попутный компонент;

3) получить корреляционную матрицу. Выделить значимые коэффициенты корреляции.

Таблица VI.1. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения

п/п

Cu, %

Pb, %

Zn, %

Au, г/т

п/п

Cu, %

Pb, %

Zn, %

Au, г/т

1

0,26

1,73

8,67

0,2

26

0,02

0,39

1,18

0,1

2

0,20

1,66

4,47

0,1

27

0,15

0,08

2,90

0,1

3

1,26

3,29

2,02

0,6

28

0,25

0,06

2,90

0,1

4

0,34

3,08

8,46

0,4

29

1,17

0,12

9,25

0,1

5

0,06

0,21

0,42

0,2

30

0,06

0,06

1,00

0,1

6

0,11

1,50

3,20

0,4

31

0,05

0,02

1,58

0,1

7

0,14

1,60

3,49

0,1

32

0,23

0,09

3,12

0,1

8

0,09

0,65

1,70

0,2

33

0,09

0,05

0,63

0,1

9

0,26

2,05

3,82

0,2

34

0,15

0,12

0,90

0,1

10

0,29

2,05

4,66

0,1

35

0,06

0,75

1,71

0,1

11

0,12

1,43

3,30

0,1

36

0,10

0,10

3,20

0,1

12

0,02

0,55

1,85

0,1

37

0,44

2,32

8,20

0,1

13

0,12

0,25

2,60

0,1

38

0,08

0,49

1,05

0,1

14

0,38

0,08

5,53

0,4

39

0,02

0,22

0,65

0,4

15

0,30

0,14

8,41

0,4

40

0,02

0,46

1,30

0,1

16

0,02

0,46

1,76

0,2

41

0,02

0,47

0,94

0,1

17

0,34

3,08

8,46

0,4

42

1,06

5,61

29,30

0,8

18

1,26

3,29

22,82

0,6

43

0,58

4,51

18,28

2,2

19

2,22

0,66

15,88

0,1

44

0,54

3,41

6,15

0,4

20

0,75

0,78

4,20

0,1

45

0,11

0,83

1,92

0,1

21

4,64

0,37

13,48

0,4

46

0,08

3,21

7,44

0,4

22

3,64

0,85

35,97

0,8

47

0,52

1,69

3,30

0,2

23

0,95

0,56

8,02

0,2

48

0,30

7,02

24,37

0,2

24

0,09

0,66

1,47

0,1

49

0,26

1,69

2,60

0,4

25

0,02

0,46

0,85

0,1

50

0,37

5,61

11,34

0,4

Таблица VI.2. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения

п/п

Cu, %

Pb, %

Zn, %

Ag, г/т

п/п

Cu, %

Pb, %

Zn, %

Ag, г/т

1

0,26

1,73

8,67

32,8

26

0,02

0,39

1,18

5,0

2

0,20

1,66

4,47

28,8

27

0,15

0,08

2,90

10,0

3

1,26

3,29

2,02

126,8

28

0,25

0,06

2,90

12,4

4

0,34

3,08

8,46

28,8

29

1,17

0,12

9,25

112,8

5

0,06

0,21

0,42

16,8

30

0,06

0,06

1,00

7,0

6

0,11

1,50

3,20

39,6

31

0,05

0,02

1,58

8,4

7

0,14

1,60

3,49

19,6

32

0,23

0,09

3,12

26,0

8

0,09

0,65

1,70

35,2

33

0,09

0,05

0,63

11,0

9

0,26

2,05

3,82

35,7

34

0,15

0,12

0,90

12,8

10

0,29

2,05

4,66

12,4

35

0,06

0,75

1,71

16,8

11

0,12

1,43

3,30

24,8

36

0,10

0,10

3,20

4,2

12

0,02

0,55

1,85

11,6

37

0,44

2,32

8,20

68,8

13

0,12

0,25

2,60

11,6

38

0,08

0,49

1,05

27,0

14

0,38

0,08

5,53

52,8

39

0,02

0,22

0,65

10,2

15

0,30

0,14

8,41

18,4

40

0,02

0,46

1,30

7,2

16

0,02

0,46

1,76

19,6

41

0,02

0,47

0,94

21,0

17

0,34

3,08

8,46

20,8

42

1,06

5,61

29,30

97,6

18

1,26

3,29

22,82

131,4

43

0,58

4,51

18,28

119,2

19

2,22

0,66

15,88

106,6

44

0,54

3,41

6,15

141,2

20

0,75

0,78

4,20

91,2

45

0,11

0,83

1,92

23,6

21

4,64

0,37

13,48

63,2

46

0,08

3,21

7,44

38,0

22

3,64

0,85

35,97

94,4

47

0,52

1,69

3,30

64,2

23

0,95

0,56

8,02

122,0

48

0,30

7,02

24,37

160,0

24

0,09

0,66

1,47

10,0

49

0,26

1,69

2,60

33,0

25

0,02

0,46

0,85

3,8

50

0,37

5,61

11,34

90,4

Таблица VI.3. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения

п/п

Cu, %

Pb, %

Zn, %

Cd, 10-4%

п/п

Cu, %

Pb, %

Zn, %

Cd, 10-4%

1

0,26

1,73

8,67

32

26

0,02

0,39

1,18

4

2

0,20

1,66

4,47

19

27

0,15

0,08

2,90

40

3

1,26

3,29

2,02

4

28

0,25

0,06

2,90

10

4

0,34

3,08

8,46

33

29

1,17

0,12

9,25

37

5

0,06

0,21

0,42

2

30

0,06

0,06

1,00

3

6

0,11

1,50

3,20

7

31

0,05

0,02

1,58

6

7

0,14

1,60

3,49

9

32

0,23

0,09

3,12

14

8

0,09

0,65

1,70

4

33

0,09

0,05

0,63

3

9

0,26

2,05

3,82

15

34

0,15

0,12

0,90

3

10

0,29

2,05

4,66

13

35

0,06

0,75

1,71

6

11

0,12

1,43

3,30

10

36

0,10

0,10

3,20

12

12

0,02

0,55

1,85

7

37

0,44

2,32

8,20

31

13

0,12

0,25

2,60

9

38

0,08

0,49

1,05

3

14

0,38

0,08

5,53

22

39

0,02

0,22

0,65

2

15

0,30

0,14

8,41

34

40

0,02

0,46

1,30

4

16

0,02

0,46

1,76

7

41

0,02

0,47

0,94

2

17

0,34

3,08

8,46

32

42

1,06

5,61

29,30

101

18

1,26

3,29

22,82

84

43

0,58

4,51

18,28

62

19

2,22

0,66

15,88

62

44

0,54

3,41

6,15

26

20

0,75

0,78

4,20

16

45

0,11

0,83

1,92

6

21

4,64

0,37

13,48

51

46

0,08

3,21

7,44

28

22

3,64

0,85

35,97

160

47

0,52

1,69

3,30

13

23

0,95

0,56

8,02

35

48

0,30

7,02

24,37

96

24

0,09

0,66

1,47

5

49

0,26

1,69

2,60

10

25

0,02

0,46

0,85

3

50

0,37

5,61

11,34

38

Таблица VI.4. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения

п/п

Cu, %

Pb, %

Zn, %

Sb, 10-4%

п/п

Cu, %

Pb, %

Zn, %

Sb, 10-4%

1

0,26

1,73

8,67

560

26

0,02

0,39

1,18

15

2

0,20

1,66

4,47

108

27

0,15

0,08

2,90

31

3

1,26

3,29

2,02

40

28

0,25

0,06

2,90

50

4

0,34

3,08

8,46

660

29

1,17

0,12

9,25

408

5

0,06

0,21

0,42

73

30

0,06

0,06

1,00

26

6

0,11

1,50

3,20

223

31

0,05

0,02

1,58

71

7

0,14

1,60

3,49

118

32

0,23

0,09

3,12

71

8

0,09

0,65

1,70

60

33

0,09

0,05

0,63

35

9

0,26

2,05

3,82

103

34

0,15

0,12

0,90

105

10

0,29

2,05

4,66

229

35

0,06

0,75

1,71

93

11

0,12

1,43

3,30

96

36

0,10

0,10

3,20

133

12

0,02

0,55

1,85

49

37

0,44

2,32

8,20

317

13

0,12

0,25

2,60

31

38

0,08

0,49

1,05

100

14

0,38

0,08

5,53

220

39

0,02

0,22

0,65

33

15

0,30

0,14

8,41

434

40

0,02

0,46

1,30

55

16

0,02

0,46

1,76

15

41

0,02

0,47

0,94

144

17

0,34

3,08

8,46

410

42

1,06

5,61

29,30

3100

18

1,26

3,29

22,82

2200

43

0,58

4,51

18,28

2310

19

2,22

0,66

15,88

464

44

0,54

3,41

6,15

920

20

0,75

0,78

4,20

55

45

0,11

0,83

1,92

220

21

4,64

0,37

13,48

684

46

0,08

3,21

7,44

164

22

3,64

0,85

35,97

3160

47

0,52

1,69

3,30

56

23

0,95

0,56

8,02

272

48

0,30

7,02

24,37

1980

24

0,09

0,66

1,47

57

49

0,26

1,69

2,60

164

25

0,02

0,46

0,85

9

50

0,37

5,61

11,34

638

Таблица VI.5. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения

п/п

Cu, %

Pb, %

Zn, %

Ba, %

п/п

Cu, %

Pb, %

Zn, %

Ba, %

1

0,26

1,73

8,67

9,92

26

0,02

0,39

1,18

2,21

2

0,20

1,66

4,47

5,07

27

0,15

0,08

2,90

4,19

3

1,26

3,29

2,02

19,95

28

0,25

0,06

2,90

3,12

4

0,34

3,08

8,46

9,41

29

1,17

0,12

9,25

2,52

5

0,06

0,21

0,42

2,54

30

0,06

0,06

1,00

1,94

6

0,11

1,50

3,20

7,63

31

0,05

0,02

1,58

2,45

7

0,14

1,60

3,49

6,87

32

0,23

0,09

3,12

4,84

8

0,09

0,65

1,70

2,18

33

0,09

0,05

0,63

4,10

9

0,26

2,05

3,82

7,34

34

0,15

0,12

0,90

4,81

10

0,29

2,05

4,66

8,01

35

0,06

0,75

1,71

4,21

11

0,12

1,43

3,30

10,15

36

0,10

0,10

3,20

3,41

12

0,02

0,55

1,85

2,19

37

0,44

2,32

8,20

27,78

13

0,12

0,25

2,60

3,06

38

0,08

0,49

1,05

1,73

14

0,38

0,08

5,53

4,00

39

0,02

0,22

0,65

1,73

15

0,30

0,14

8,41

3,36

40

0,02

0,46

1,30

1,89

16

0,02

0,46

1,76

2,24

41

0,02

0,47

0,94

1,88

17

0,34

3,08

8,46

9,41

42

1,06

5,61

29,30

23,82

18

1,26

3,29

22,82

10,95

43

0,58

4,51

18,28

18,53

19

2,22

0,66

15,88

0,92

44

0,54

3,41

6,15

35,00

20

0,75

0,78

4,20

2,56

45

0,11

0,83

1,92

2,00

21

4,64

0,37

13,48

6,29

46

0,08

3,21

7,44

9,98

22

3,64

0,85

35,97

5,58

47

0,52

1,69

3,30

6,65

23

0,95

0,56

8,02

3,25

48

0,30

7,02

24,37

19,92

24

0,09

0,66

1,47

3,01

49

0,26

1,69

2,60

7,76

25

0,02

0,46

0,85

1,66

50

0,37

5,61

11,34

9,00

Решение

Введите в диапазон A1:E1 листа 1 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Для выполнения корреляционного анализа введите в диапазон A2:E51 введите исходные данные из табл. VI.1 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Au, г/т.

Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция. В появившемся диалоговом окне укажите Входной интервал В1:E51. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите G2. Нажмите кнопку OK.

Результаты анализа. В выходном диапазоне получаем корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Au – 0,28 – линейную связь между содержанием меди и золота выявить не удалось, Pb и Au – 0,49 – можно говорить о наличии корреляционной связи между свинцом и золотом, Zn и Au – 0,545 – можно говорить о наличии корреляционной связи между цинком и золотом. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом.

Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично расположенные относительно диагонали).

Введите в диапазон A1:E1 листа 2 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Для продолжения корреляционного анализа введите в диапазон A2:E51 листа 2 рабочей книги Excel исходные данные из табл. VI.2 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Ag, г/т. Аналогично получите корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Ag – 0,48 – можно говорить о наличии корреляционной связи между содержанием меди и серебра, Pb и Ag – 0,62 – можно говорить о наличии линейной корреляционной связи между свинцом и серебром, Zn и Ag – 0,675 – можно говорить о наличии линейной корреляционной связи между цинком и серебром. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом.

Введите в диапазон A1:E1 листа 3 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Далее введите в диапазон A2:E51 листа 3 рабочей книги Excel исходные данные из табл. VI.3 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Cd, 10-4 %. Получите корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Cd – 0,64 – можно говорить о наличии линейной корреляционной связи между содержанием меди и кадмия, Pb и Cd – 0,48 – можно говорить о наличии корреляционной связи между свинцом и кадмием, Zn и Cd – 0,981 – между параметрами существует практически линейная зависимость между цинком и кадмием. Коэффициент парной корреляции между Zn и Cu, равный 0,628 показывает, что можно говорить также о наличии линейной корреляционной связи между цинком и медью.

Введите в диапазон A1:E1 листа 4 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Введите в диапазон A2:E51 листа 4 рабочей книги Excel исходные данные из табл. VI.4 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Sb, 10-4 %. Получите корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Sb – 0,49 – можно говорить о наличии корреляционной связи между содержанием меди и сурьмы, Pb и Sb – 0,60 – можно говорить о наличии линейной корреляционной связи между свинцом и сурьмой, Zn и Sb – 0,944 – можно говорить о наличии сильной линейной корреляционной связи между цинком и сурьмой. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом.

Введите в диапазон A1:E1 листа 5 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Введите в диапазон A2:E51 листа 5 рабочей книги Excel исходные данные из табл. VI.5 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Ba, %. Получите корреляционную матрицу.

Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Ba – 0,10 – можно говорить о том, что корреляционную связь между содержанием меди и бария выявить не удалось, Pb и Ba – 0,74 – можно говорить о наличии линейной корреляционной связи между свинцом и барием, Zn и Ba – 0,41 – можно говорить о наличии корреляционной связи между цинком и барием. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом.

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И ЕЕ ИСПОЛЬЗОВАНИЕ ДЛЯ ПРЕДСКАЗАНИЯ СВОЙСТВ ГЕОЛОГИЧЕСКИХ ОБЪЕКТОВ

В отличие от двумерной регрессии в методах множественной регрессии зависимая переменная Y рассматривается как функция не одной, а нескольких независимых переменных X1, X2 , ..., Xm.

Уравнение множественной регрессии зависимой переменной Y относительно т независимых переменных X1,2,…,m записывается как линеаризированная функция вида

, (VI.1)

где a0, a1, a2, …, am – требующие определения коэффициенты регрессии. Оно наилучшим способом (в смысле наименьших квадратов) описывает тенденцию расположения наблюденных точек в m-мерном пространстве и позволяет оценить совместное влияние всех изучаемых параметров на зависимую переменную.

Множественная регрессия строится на основе учета всех возможных взаимодействий между переменными и их сочетаниями. В ее задачи входит оценка общего вклада всех переменных (R2) в изменчивость Y, а также определение относительного влияния каждой из них с помощью коэффициентов ai,. Таким образом, множественный регрессионный анализ сводится к вычислению значений коэффициентов регрессионной модели a0, a1, a2, …, am по совокупности п наблюдений над переменными X1, X2 , ..., Xm и Y, оценке влияния каждой переменной и их общего вклада в оценку зависимой переменной Y. В матричной форме уравнение (VI.1) записывается как:

[ΣY] = [ΣX] [a],

где [ΣY] – вектор-столбец, состоящий из сумм квадратов и смешанных произведений переменной Y с переменными X1, X2 , ..., Xm; [ΣX] – матрица сумм квадратов и смешанных произведений X1, X2 , ..., Xm; [a] – вектор-столбец неизвестных коэффициентов регрессии. Коэффициенты регрессии ai рассчитываются как частные коэффициенты регрессии, характеризующие изменения данной независимой переменной при условии, что влияние всех остальных переменных устранено.

Для сравнительной оценки вклада каждой зависимой переменной коэффициент R2 сначала рассчитывается для пары Y и Xk с максимальным коэффициентом корреляции, а затем последовательно с тремя и более переменными (до т переменных).

Модели множественной регрессии используются для предсказаний значений зависимой переменной (например, содержаний ценного элемента, объемной массы руды и глубины формирования минерала и др.) по набору независимых переменных (например, содержаний породообразующих элементов, объемных масс тяжелых минералов в рудах, содержаний элементов-индикаторов в минералах и др.).

ПРИМЕР VI.2

Требуется

Используя результаты предыдущего ПРИМЕРА VI.1, при наличии корреляционных связей между основными и попутным компонентом, провести регрессионный анализ с учетом связей между основными и попутным компонентами. Рассчитать уравнение регрессии для оценки содержания попутного компонента по основным компонентам.

Решение

1. Откройте лист 1 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1.

2. В пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Регрессия. Нажмите кнопку OK.

3. В появившемся диалоговом окне задаем Входной интервал Y. Для этого наведите указатель мыши на верхнюю ячейку столбца зависимых данных (E1), нажмите левую кнопку мыши и, не отпуская ее, протяните указатель мыши к нижней ячейке (E51), затем отпустите левую кнопку мыши. (Обратите внимание, что зависимые данные – это те данные, которые предполагается вычислять).

4. Так же укажите Входной интервал X, то есть введите ссылку на диапазон независимых данных B1:D51. (Независимые данные – это те данные, которые будут измеряться или наблюдаться).

5. Установите флажок в поле Метки в первой строке. Установите флажок в поле График подбора.

6. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал (наведите указатель мыши и щелкните левой кнопкой), затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите на левую верхнюю ячейку выходного диапазона (G10). Щелкните левой кнопкой мыши. Нажмите кнопку OK.

7. В выходном диапазоне появятся результаты регрессионного анализа и графики предсказанных точек.

Интерпретация результатов. В таблице Дисперсионный анализ оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 0,000191, то есть p << 0,05 – заданный уровень значимости, гипотеза о незначимости регрессии отвергается и считается, что регрессия значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,346). Так как R-квадрат < 0,6, то точность аппроксимации недостаточна и модель требует улучшения.

Далее необходимо определить значения коэффициентов модели. Они определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,083; в строках соответствующих переменных приводятся значения коэффициентов при этих переменных Cu = 0,016, Pb = 0,058 и Zn = 0,015. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Все коэффициенты незначимы (0,146, 0,804, 0,093, 0,104), то есть для всех коэффициентов p > 0,05, и коэффициенты могут считаться равными нулю.

8. Поэтому в модель следует включить только те независимые переменные, которые коррелируют с зависимой переменной. Выполните регрессионный анализ с помощью меню Сервис/Анализ данных, установив Входной интервал X как C1:D51, то есть взяв в качестве независимых переменных – содержания Pb и Zn.

Интерпретация результатов. В таблице Дисперсионный анализ оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 4,75E-05, то есть p << 0,05 и модель значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,345). Так как R-квадрат < 0,6, то точность аппроксимации недостаточна.

Значения коэффициентов модели определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,086; в строках соответствующих переменных приводятся значения коэффициентов при этих переменных: Pb = 0,053 и Zn = 0,017. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Свободный член и коэффициент при Pb незначимы, то есть p > 0,05, и коэффициенты могут считаться равными нулю, а коэффициент при Zn значим, так как соответствующее p-значение – 0,0087.

9. Улучшим модель, взяв в качестве независимых переменных только содержание Zn. Отбросить фактор влияния Pb следует еще и потому, что между Zn и Pb, существует корреляционная связь, о чем свидетельствует коэффициент парной корреляции равный 0,572, который даже несколько выше коэффициента парной корреляции между Au и Zn, равного 0,545.

Выполним регрессионный анализ с помощью меню Сервис/Анализ данных, установив Входной интервал X как D1:D51.

Интерпретация результатов. В таблице Дисперсионный анализ оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 4,15E-05, то есть p << 0,05 и модель значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,297). Так как R-квадрат < 0,6, то точность аппроксимации недостаточна.

Значения коэффициентов модели определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,120; в строке переменной Zn значение коэффициента при переменной Zn = 0,023. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Свободный член значим, то есть p < 0,05, и коэффициент при Zn значим, так как соответствующее p-значение – 4,15E-05.

График подбора – см. рис. VI.1. Получено уравнение регрессии Au(Zn)=0,0236*Zn+0,1204.

Поскольку точность аппроксимации недостаточна, на следующем этапе можно попытаться подобрать нелинейную модель зависимости Zn – Au, например, Au(Zn)=–0,00045*Zn^2+0,03682*Zn+0,08112, для которой R-квадрат равен 0,309 (см. рис. VI.2).

Рис. VI.1. График подбора модели с помощью процедуры Регрессия

Рис. VI.2. График линейной и квадратической регрессии

10. Аналогично, для всех значимых независимых переменных произведите регрессионный анализ для данных, представленных в табл. VI.2 – VI.5.

Откройте лист 2 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. Рассмотрите в качестве независимых переменных переменные Pb и Zn. Регрессионная модель будет выглядеть как Ag(Pb,Zn)=9,300*Pb+2,670*Zn+15,426.

Откройте лист 3 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. Рассмотрите в качестве независимой переменной переменную Zn. Регрессионная модель будет выглядеть как Cd(Zn)=3,930*Zn–0,511.

Откройте лист 4 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. Рассмотрите в качестве независимой переменной переменную Zn. Регрессионная модель будет выглядеть как Sb(Zn)=92,459*Zn–161,693.

Откройте лист 5 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. Рассмотрите в качестве независимой переменной переменную Pb. Регрессионная модель будет выглядеть как Ba(Pb)=3,251*Pb+2,455.

ПРИМЕР VI.3

Требуется

По условию ПРИМЕРА VI.1:

1) проверить гипотезу о наличии корреляционной связи между основными и одним из попутных компонентов;

2) определить, с каким из основных компонентов наиболее тесно связан попутный компонент;

3) получить корреляционную матрицу, дать ее графическое изображение. Выделить значимые коэффициенты корреляции;

4) при наличии корреляционных связей между основными и попутным компонентом провести регрессионный анализ с учетом связей между основными и попутным компонентами. Рассчитать уравнение регрессии для оценки содержания попутного компонента по основным.

Решение

1. Создать файл данных в программе Statistica по табл. VI.1.

2. Провести корреляционный анализ всей выборки. Для этого в меню с основными процедурами Statistics выбрать Basic Statistics/Tables, а в появившемся его меню – Correlation matrices.

В появившемся диалоговом окне Product-Moment and Partial Correlations: нажать на вкладке Quick кнопку Summary: Correlation Matrix и в диалоговом окне Select one or two variable lists указать для First variable list: 1–3, а для Second variable list (optional): 4 (см. рис. VI.3). Далее нажать OK. Результатом будет расчет коэффициентов корреляции – рис. VI.4.

Вернувшись в диалоговое окно Product-Moment and Partial, нажать на вкладке Advanced/Plot кнопку 2D scatterplot и результатом будет – расчет scatterplot (доверительный интервал) для переменной Au зависимостей от Cu, Pb, Zn. На рис. VI.5 приведен доверительный интервал для зависимости Au(Zn). Сравните уравнение, находящееся в верхней части графика, с уравнением, полученным в электронных таблицах Excel (см. ПРИМЕР VI.2).

Рис. VI.3. Выбор переменных для корреляционного анализа

Рис. VI.4. Расчет коэффициентов корреляции

Рис. VI.5. Зависимость Au от Zn и ее доверительный интервал

3. Так как существует корреляция между концентрациями Au и Zn, то следует произвести регрессионный анализ. Для этого в начальном меню StatisticS выбираем Multiple Regression.

В открывшемся диалоговом окне Multiple Linear Regression нажимаем кнопку Variables и устанавливаем, как показано на рис. VI.6 в открывшемся диалоговом окне Select depended and independed variables lists:, зависимую и независимую переменные. Далее нажимаем OK.

Вернувшись в диалоговое окне Multiple Linear Regression, нажать OK.

Результатом будет Multiple Regression Results: – см. рис. VI.7.

Рис. VI.6. Установка зависимой и независимой переменных для регрессионного анализа

Рис. VI.7. Multiple Regression Results:

Далее, в этом диалоговом окне Multiple Regression Results:, нажать кнопку Summary: Regresion Results и получим таблицу статистик – см. рис. VI.8, где в столбце В указаны коэффициенты регрессии: 0,120947 – коэффициент при Zn и 0,120804 – свободный член; p-level – уровень значимости для каждого коэффициентов; beta – коэффициент корреляции. Сравните уравнение с уравнением, полученным в электронных таблицах Excel – см. ПРИМЕР VI.2.

Рис. VI.8. Таблица результатов Regresion Results

4. Аналогично, для всех значимых независимых переменных произведите регрессионный анализ для данных, представленных в табл. VI.2 – VI.5.

ЛАБОРАТОРНАЯ РАБОТА № VII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. КЛАСТЕРНЫЙ АНАЛИЗ. ФАКТОРНЫЙ АНАЛИЗ

СТАТИСТИЧЕСКИЕ МЕТОДЫ ВЫДЕЛЕНИЯ АССОЦИАЦИЙ ХИМИЧЕСКИХ ЭЛЕМЕНТОВ

Методы выделения парагенетических химических элементов сводятся к разделению исходных совокупностей на несколько классов по степени сходства, составляющих их объектов. При этом предполагается, что степень сходства объектов, объединяемых в один класс, должна быть существенно больше степени сходства между объектами из разных классов.

Основой классификации исходных совокупностей химических элементов служат корреляционные матрицы их содержаний в изучаемых объемах (минералах, породах или рудах), а мерой сходства – оценки парных коэффициентов их корреляции. Выделение парагенетических ассоциаций элементов сводится к выявлению внутри корреляционной матрицы [R] однородных блоков (подматриц типа [Ri]), соответствующих таким совокупностям элементов, содержания которых связаны линейной положительной зависимостью.

Строгое математическое решение задачи классификации исходных совокупностей по корреляционным характеристикам практически невозможно, поскольку коэффициенты парной корреляции элементов имеют стохастическую природу, в связи с чем во многих конкретных случаях возникают возможности многовариантного группирования объектов.

РАСПОЗНАВАНИЕ ОБРАЗОВ БЕЗ ОБУЧЕНИЯ

Классическими методами распознавания образов без обучения являются методы кластерного анализа (кластер-анализа).

Номера, получаемые в результате расчета кластеров, смыслового значения не имеют. Эти номера нужны только для того, чтобы отличить один кластер от другого, поэтому при использовании результатов кластерного анализа в других методах, например в распознавании образов с обучением, порядок следования кластеров может быть любым удобным для исследователя.

Все рассмотренные далее методы могут быть использованы как для классификации объектов, так и для классификации признаков.

МЕРЫ РАЗЛИЧИЯ И МЕРЫ СХОДСТВА

Виды используемых в кластерном анализе мер сходства и различия перекликаются с философской дилеммой: «ищите сходство» или «ищите различие». Меры сходства для кластерного анализа могут быть следующих видов:

  • Мера сходства типа расстояния (функции расстояния), называемая также мерой различия. В этом случае объекты считаются тем более похожими, чем меньше расстояние между ними, поэтому некоторые авторы называют меры сходства типа расстояния мерами различия.

  • Мера сходства типа корреляции, называемая связью, является мерой, определяющей похожесть объектов. В этом случае объекты считаются тем более похожими, чем больше связь между ними. Меры могут быть легко приведены к предыдущему типу.

  • Информационная статистика.

Меры различия и информационная статистика

Используемые при этом метрики – евклидово расстояние, манхеттенское расстояние, сюпремум-норма, расстояние Махалонобиса – они отражают все многообразие подходов к решению проблемы. Первая метрика используется традиционно, вторая метрика является наиболее известным представителем класса метрик Минковского. Расстояние Махаланобиса, по определению метрикой не являющееся, связано с помощью дисперсионно-ковариационной матрицы с корреляциями переменных (параметров), и широко применяется как в кластерном, так и в других методах анализа данных.

Меры сходства используются для методов:

  • ближней связи (этот метод имеет вариант и для мер сходства);

  • средней связи Кинга;

  • Уорда;

  • средних Мак-Куина.

Меры сходства

Связями могут быть: коэффициент корреляции, коэффициент ассоциативности (ассоциации) и т.д. Из этих связей для количественных признаков предназначены: коэффициент корреляционного отношения Пирсона, дисперсия-ковариация. Для порядковых признаков предназначены: показатель ранговой корреляции Спирмена, коэффициент ранговой корреляции Кендалла.

Перечисленные меры сходства используют методы:

  • ближней связи (этот метод имеет вариант и для мер различия);

  • корреляционных плеяд;

  • максимального корреляционного пути.

По умолчанию в последних двух методах обычно классифицируются параметры (в первом классифицируются объекты), что обусловлено их традиционной авторской реализацией и назначением, однако путем простого транспонирования матрицы исходных данных и перемены местами чисел строк и столбцов можно легко изменить тип классификации на противоположный.

В комбинации с различными метриками, связями и мерами сходства других типов, перечисленные алгоритмы дают большое число вариантов решения задачи классификации без обучения. Результаты классификации разными методами, как правило, принципиально не различаются, и выбор того или иного метода является делом вкуса исследователя и традиции школы.

КЛАСТЕРНЫЙ АНАЛИЗ

Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе) были более похожи друг на друга, чем на объекты других кластеров. В отечественной литературе синонимом термина «кластерный анализ» является термин «таксономия». В иностранной литературе под таксономией традиционно понимается классификация видов животных и растений.

Рассматриваются следующие методы кластерного анализа:

  • Иерархические методы:

    • метод ближней связи,

    • метод средней связи Кинга,

    • метод Уорда.

  • Итеративные методы группировки:

    • метод k-средних Мак-Куина.

  • Алгоритмы типа разрезания графа:

    • метод корреляционных плеяд Терентьева,

    • вроцлавская таксономия.

Классифицируемы могут быть как параметры, так и объекты.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]