Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

чения и обладает той же размерностью, что и исходные дан­ ные, можно воспользоваться стандартным отклонением. Оно определяется как квадратный корень из дисперсии и обознача­ ется символом а, являющимся параметром совокупности; соот­ ветствующая выборочная статистика обозначается через s.

Малое значение стандартного отклонения указывает, что наблюдения хорошо группируются около центрального значе­ ния. Наоборот, большое стандартное отклонение показывает, что наблюдения широко рассеяны относительно среднего значе­ ния н имеют слабую тенденцию к централизации. Это проил­ люстрировано на рис. 2.11, где изображены две симметричные кривые распределения, имеющие различные стандартные от­ клонения. Кривая А характеризует насыщение нефтью (в про­ центах) образцов керна из продуктивной зоны северо-восточ­ ной Оклахомы. Кривая В представляет те же величины для нефтеносной области западного Техаса. Среднее насыщение нефтью в этих двух регионах различно, но наибольшее разли­ чие между кривыми заключается в том, что для Техаса харак­ терна значительно более высокая изменчивость насыщения.

Весьма полезное свойство нормального распределения со­ стоит в том, что площадь под кривой в пределах некоторого заданного интервала может быть точно вычислена. Например, более 2/3 наблюдений (68,27%) попадают в интервал с цент­ ром в среднем значении и длиной, равной двум стандартным отклонениям. Примерно 95% всех наблюдений заключается в интервале от —2 до -г 2 стандартных отклонений и более 99% содержится в интервале от —3 до +3 стандартных отклонений. Это показано на рис. 2.12.

Распределение, указывающее степень насыщения нефтью пород северо-восточной Оклахомы (см. рис. 2.11, кривая А), имеет среднее значение 20,1% и стандартное отклонение 4,3%. Если предположить, что распределение нормально, то следует ожидать, что около 2/3 исследуемых образцов будет иметь на­ сыщение нефтью от 16 до 24%. Изучение исходных данных по­ казало, что 1145 проб характеризуются насыщением, которое находится в указанных пределах, что составляет около 68% всех данных. Только 101 образец, т. е. около 6%, имеет насы­ щение вне интервала (12—29%).

Те, кто не имел дела со статистическим анализом, обычно с трудом развивают интуитивное восприятие численного значе­ ния дисперсии или стандартного отклонения. Является ли дис­ персия, равная 10, большой или малой? Что значит стандарт­ ное отклонение 23? Оказывается, для интерпретации как дис­ персии, так и стандартного отклонения не требуется приписы­ вать каждому из них численного значения, а требуется срав­ нивать одну дисперсию с другой. Выборка, имеющая наиболь­ шую дисперсию или стандартное отклонение, характеризуется

42

500

40 0

5

|300

•£

о

о 200

Ц

и

S

т

100

Рис. 2.11. Частотное распределение процентного содержания насыщения неф­ тью в нефтяном поле Оклахомы (А) и Техаса (В)

Рис. 2.12, Площади стандартного нормального распределения, заключенные а пределах интервалов, кратных стандартному отклонению

большим разбросом наблюдаемых значений при условии, что все измерения сделаны в одних и тех же единицах.

Равенство (2.11), хотя и определяет дисперсию, обычно не используется для вычислении, так как содержит п операций вычитания, п — умножения и п — сложения. Вместо этой фор­ мулы для вычисления оценки дисперсии используется другая формула, которая имеет следующий вид:

2

х \ —~пХ*

s2 = -isi!------------

(2.14)

 

п--1

43

или

п

/ п

\ 2

п 2 * М

Ъ Х 1 j

S* = г=’

ч'=1

'

п( п — I)

Спомощью настольной вычислительной машины ЕХ,- и ЕХ,2 можно подсчитать одновременно, что позволяет уменьшить число требуемых операций на число п. На вычислительной ма­ шине формула (2.15) может быть использована для одновре­ менного нахождения среднего и дисперсии, что позволяет из­ бежать необходимости дважды использовать одни и те же дан­

ные.

Для вычисления оценок дисперсии н стандартных отклоне­ ний введем некоторые промежуточные величины, которые часто будут использоваться во многих процедурах, излагаемых в по­ следующих главах. Нецентрированная сумма квадратов — это просто ЕХ,-2; центрированная сумма квадратов (SS) определя­ ется по формуле

SS =

(2.16)

 

/=1

или, что алгебраически эквивалентно,

s s = t x i=i

Оценку дисперсии вычисляют путем деления этой величины на п—1, т. е.

2-,

с2

I

(2.18)

п(п— I)

 

Величина п—1, которая содержится как в формуле (2.14), так и в формуле (2.15), требует некоторого пояснения. Диспер­ сия определяется как среднее значение квадратов отклонений от среднего. Однако, имея дело лишь с выборкой, мы не знаем истинного среднего значения совокупности_р, но можем оце­ нить его с помощью выборочного среднего X, которое вычисля­

ется так, чтобы минимизировать квадраты отклонений от него.

П

Иначе говоря, операция X

дает значение X, для

i=i

44

п_

которого — X f имеет минимальное значение среди всех 1=1

возможных. В силу этого свойства выборочного среднего оценка дисперсии будет занижена, если использовать формулу (2.11).

П

Иными словами, х3 = — V (А'4— А';2 является смещенной оцен- r. Li

/—I

П

кой для о: = — ^ ( .А г—р.)2. Для того чтобы устранить смещение,

i=i

мы используем в качестве знаменателя в формуле для выбороч­ ной дисперсии п—1, увеличивая таким образом оценку диспер­ сии.

Вычисление этих величин можно показать на примере гео­ химических данных по содержанию хрома в глинистых слан­ цах, приведенных в табл. 2.1. Переписав эту таблицу так, что­ бы она содержала столбец квадратов, получим табл. 2.2.

Допуская, что содержания хрома распределены приблизи­ тельно по нормальному закону, можно ожидать, что около двух третей значении расположено в пределах 198—246 г/т. Анализ таблицы показывает, что три значения из пяти, т. е. 60%, дей­ ствительно попадают в этот интервал.

Заметим, что при вычислении сумм квадратов геохимичес­ ких данных появляются числа, содержащие семь знаков. Эта

Таблица 2.2

Вычисление сумм квадратов и дисперсий по данным табл. 2.1

X

 

X*

205

 

42 025

255

 

65 025

195

 

38 025

220

 

48 400

235

 

55 225

2А, = 1,110

 

1X^=248 700

(5А)2=1

232 100;

 

1232100

2280;

SS=248 700------:------=

 

5

 

s = 570= 23,88.

 

45

 

 

 

Таблица 2.3

 

Содержание хрома, никеля и ванадия

 

в сланцах

Канзаса, г/т

 

 

С г

N i

V

 

205

130

180

 

255

165

215

 

195

100

135

 

220

135

200

 

235

145

205

Суммы

П10

675

935

Средние

222

135

187

значения

тенденция к возникновению в процессе вычисления очень боль­

ших чисел приводит иногда к возникновению

затруднений в

ЭВМ, приспособленных для работы с числами,

содержащими

мало значащих цифр. Это также приводит к

возникновению

трудностей при выводе данных, если поля формата недостаточ­ но широки для того, чтобы вмещать числа, которые должны быть напечатаны.

Для большинства геологических исследований характерно, что на каждом изучаемом объекте измеряется более одной пе­ ременной. В качестве примеров можно привести результаты измерений коллекции кораллов, последовательности проб из ряда скважин или же определения параметров пород в коллек­

ции образцов песчаника.

Такие

данные обычно

записываются

в виде таблицы порядка

пХт,

где

п — число

наблюдений,,

а т — число изучаемых

переменных. Так, например,

полные

анализы, из которых извлечены данные табл. 2.1,

содержат 17

переменных. В табл. 2.3 представлены только

три

из них,

а именно содержания никеля, ванадия

и хрома.

Для

каждого

столбца можно подсчитать соответствующие суммы и оценить среднее значение и стандартное отклонение.

Однако различные переменные могут не быть независимы­ ми, между ними может существовать некоторая форма услов­ ной связи. Важно, что мы в состоянии оценить природу и силу этих условных связей, так же как было важно определить ус­ ловные вероятности появления дискретных событий.

Согласованное изменение двух переменных

Вычислительные процедуры, используемые для получения оценки дисперсии одной переменной, можно расширить для вычисления меры взаимной изменчивости пары переменных»

46

Эта мера, называемая ковариацией, является характеристикой совместного изменения двух переменных по отношению к их общему среднему значению. Это соотношение показано на рис. 2.13, где изображены формы поверхностей распределения вероятностей, порожденных двумя кривыми нормального рас­ пределения.

Пусть Х< и Х2 имеют кривые распределения вероятностей, аналогичные изображенным на рис. 2.12. Точно так же, как дисперсия характеризует разброс значений относительно цент­ ральной точки, как это показано на рис. 2.12, ковариация яв­ ляется мерой разброса значений распределения относительно

общего среднего.

Для вычисления оценки ковариации мы снова введем вели­ чину, аналогичную сумме квадратов. Эта величина называется

центрированной суммой смешанных произведений

(S P) и опре­

деляется по формуле

 

П

 

S P 2 ( X tJ- X , ) ( X tk- X k),

(2.19)

<■=!

 

где Хц — г-е значение /-и переменной, а Хщ— г'-е значение k-й переменной. Символ — сумма произведений центрирован­ ных /-й и fe-й переменных. Запишем это выражение в форме, удобной для вычисления:

i?i

jx,,jx„.

<2-20>

f=i i=i

 

47

Величина 'ЦХ-^Хт) называется нецентрированной суммой сме­ шанных произведений. Связь величины SPjh с суммой квадра­ тов можно легко установить, если выбрать j = k.

Тогда получаем

!=i

<=1

1=1

(2.21)

п

Если мы вычислим суммы смешанных произведений и сум­ мы квадратов для всех возможных комбинаций наших трех переменных из табл. 2.3, то получим следующую таблицу по­ рядка 3X3:

 

Сг

Ni

V

Сг

SScr

S P c - S l

S P c t - V

Ni

S P M - сг

S S s i

S P ^ - y

V

S P v - C г

S P v -NI

SSv

Легко заметить, что некоторые из величин встречаются в этой таблице дважды: например, сумма произведений для ва­ надия и никеля такая же, как и сумма произведений для нике­ ля и ванадия. Обобщая этот факт, можно написать SPjk = =SPkj. Это равенство будет нами использовано в следующих главах.

Подобно тому как мы при вычислении дисперсии делили величину SS на п—1, вычислим оценку ковариации, также раз­ делив величину SP на п—1:

- пт- ДГ7 [t Х “Х “ - Т t х “ t

L,=1 1=1 /=1

1 ( 2. 22)

л(п— 1)

Теперь, возвращаясь к геохимическим данным, приведен­ ным в табл. 2.3, можно вычислить оценки ковариаций для всех трех элементов. Обозначая содержания хрома и никеля соот­ ветственно через Х\ и Х2, можно вычислить величины, приве­ денные в табл. 2.4. Мы знаем теперь дисперсию Х\ (хрома) и оценку ковариации между Х\ и Х2 (хромом и никелем). У нас

48

Таблица 2Л

Вннисление оценки ковариаций между хромом (2fi) и никелем (Д2)

-V

X,

X iX ,

 

A'z

 

 

 

 

 

42 025

205

26 650

130

16 900

65 025

255

42 075

165

27 225

38 025

195

19 500

100

10 000

48 400

220

29 700

iЗо

18 225

55 225

235

34 075

145

21 025

2AV = 248 700

2 ^ = 1 1 1 0 2*,X2=152 000

2Х2=675

2Х22=93 375

 

(1110)

(675)

2150.

 

 

5 Л ,2 = 152 0 0 0 -

 

=

 

 

 

 

5

 

 

 

coVj2 =

2150

= 537,5.

 

 

 

~~

 

 

есть также все необходимые данные для вычисления дисперсии: Х2 (никеля) по формуле 2.12. Читатель может попытаться вы­ числить это значение, заполнив таблицу порядка 2x2, приве­ денную ниже.

Xi

Хром (Х\)

570

537.5

Никель ( Х 2)

537,5

S22

Чтобы закончить анализ геохимических данных, приведен­ ных в табл. 2.3, остается вычислить дополнительно три вели­ чины. Это оценки ковариаций для хрома и ванадия (covi3), никеля и ванадия (соугз) и дисперсию ванадия (s32). Следуя процедурам, использованным при построении табл. 2.4, вычис­ лите величину (cov13).

На рис. 2.14 приведена диаграмма совместного распределе­ ния двух переменных, которые тесно связаны и имеют доволь­ но высокое значение ковариации. Распределения двух перемен­ ных, изображенные на рис. 2.15, имеют те же дисперсии, что и приведенные на рис. 2.14, но не зависят одно от другого, о чем свидетельствует относительно низкое значение ковариации. Интерпретация значений оценок ковариаций должна прово­ диться таким же образом, как и дисперсий, но при этом следу­ ет помнить, что рассматриваемые значения не слишком содер­ жательны, так как они зависят от единиц измерения.

4— 201

49

10

 

i

j

1

1

Г

Н------ Г — 1------

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

-

 

 

 

 

 

о

 

 

-

7

-

 

 

 

 

 

 

 

 

-

6 -

 

 

 

 

 

9

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

©

 

 

 

 

1

4

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

Ч

3 -

 

 

 

 

 

 

 

 

-

 

 

 

 

 

 

 

 

 

2 j~

®

 

 

 

 

 

 

 

-

1

 

 

 

 

 

 

 

 

 

0

 

1

 

 

1

 

 

 

 

[

 

 

2

3

 

Ь

о

7

3

9

13

 

 

 

Рис. 2,14. Диаграмма

рассеяния двух переменных с высоким коэффициентом

 

 

 

 

 

ковариации

 

 

 

 

10 Г

 

 

 

 

 

 

 

 

 

 

9 г

«

 

 

 

 

 

 

 

 

 

7 h

 

 

 

 

 

 

 

 

 

I

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'|

}

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

е

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

гН

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j__ I

о

 

J

 

 

_1

5

6

_1

6

 

1 2 3 4

7

Э 10

Рис. 2.15. Диаграмма рассеяния двух переменных с низким коэффициентом ко­ вариации

Для оценки степени взаимной связи между переменными,, не зависящей от единиц измерения, используется коэффициент корреляции г, который представляет собой отношение ковариа­ ции двух переменных к произведению их стандартных отклоне­ ний:

rik = c°v}k/(s}sk).

(2.23)

Так как коэффициент корреляции является отношением, то эта величина безразмерная. При этом ковариация может рав­ няться величине произведения стандартных отклонений рас­ сматриваемых переменных, но не может превышать ее. Поэто­ му коэффициент корреляции принимает значения в интервалеот —1 до +1. Если коэффициент корреляции равен —1, этоуказывает на прямую линейную связь между двумя перемен­ ными. Если же коэффициент корреляции равен— 1, это указы­ вает на то, что одна переменная изменяется в противополож­ ном направлении по отношению к другой. Между двумя упо­ мянутыми крайними случаями находится спектр менее сильных, связен, включающий случай равенства коэффициента корреля­ ции нулю, что указывает на полное отсутствие любого типа, линейных зависимостей.

На рис. 2.16, а изображена ситуация, когда сильная корре­ ляция между переменными очевидна и коэффициент корреля­

та в

б

б

 

 

 

 

 

 

 

 

 

 

 

 

г = 0,98

 

 

г - 0,54

1

 

г = 0,16

• •

 

 

&

 

*2

е

 

 

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и = -0,90

1

г не

определено

1

 

г - 0,00

Рис. 2.16. Точечные диаграммы, иллюстрирующие различные коэффициенты кор­ реляции между двумя переменными

4* 5L

Соседние файлы в папке книги