Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 2

.pdf
Скачиваний:
0
Добавлен:
12.11.2023
Размер:
19.38 Mб
Скачать

ких

случайных событий

(появление скважин),

происходящих

на

географических площадях. Заметим

также,

что ЯЛ— это

просто среднее число скважин на участок, так

как оно

есть

произведение плотности

скважин на

площадь

участка.

На

практике мы оцениваем ЯЛ по общему числу скважин т н об­ щему числу участков Т:

ЯЛ = т/Т.

(5.12)

Мы можем теперь применить критерий %2 для проверки то­ го, согласуется ли ожидаемое число скважин на участок с чис­ лом скважин, вычисленным в предположении, что они распре­ делены случайно в соответствии с распределением Пуассона. Число участков, которое содержит в точности г скважин, мо­ жет быть найдено по формуле

nr = mPw . (5.13)

Если ЯЛ оценивается через пг/Т, то уравнение принимает вид

пт— me(- mlT) (~f~J

(5Л4)

Рис. 5.11 указывает расположенно скважин в части восточ­ ного шельфа пермского бассейна в Техасе. Площадь была раз­ делена на 160 участков (квадратов), площадь каждого из ко­ торых равна приблизительно 0,16 км2. Так как на .пощади имеется 168 скважин, то их среднее число на участок

т /Т = 168:160 = 1,05.

Мы можем подсчитать число участков на карте, которые не со­ держат ни одной скважины, содержат в точности одну, две и так далее. Мы также можем вычислить математическое ожи­ дание участков, которые содержат те же самые числа скважин, используя уравнение (5.14). Для площади Пермского бассейна ожидаемые и наблюденные числа участков приведены в табл. 5.2.

Таблица 5.2 содержит все числа, необходимые для вычис­ ления критерия соответствия %г, который есть не что иное как сравнение двух гистограмм, представленных на рис. 5.12. По­ следние три категории должны быть скомбинированы так, что­ бы наблюдаемое число участков было равно 5:

Я2 =

(70 — 56,0)г

 

(42 — 58,8)s

,

(26 — 30,9)а

+

 

56,0

+

 

58,8

30,9

 

,

(17— 10,8)а

,

(5 — 3,5)2

= 13,28.

 

 

^

10,8

 

+

3,5

 

 

 

Проверяемая статистика имеет с—2 степеней свободы, где с — число категорий (первая степень свободы теряется потому, что

22

Рио. 5.11. Расположение нефтяных поисковых скважин в восточной части шельфа пермского бассейна, графства Фишер и Ноланд, Техас

ожидаемые частоты подчинены условию равенства их суммы 1Г,0 и вторая степень свободы требуется для оценки параметра --.г. Для с = 5 имеется три степени свободы. Критическое значе- н о х2 для v= 3 и а=0,05 равно 7,81. Проверяемая статистика значительно превышает это значение, поэтому мы должны от­ клонить гипотезу о равенстве между наблюденным и ожидае- ч..1М распределениями и заключить, что пуассонова модель неколвомерна. Скважины не разбросаны случайно на этой пло*

ктди пермского бассейна.

Впроцессе подбора модели Пуассона к этим данным мы

излучили некоторую информацию, которая могла бы пролить о•.толнительный свет на природу пространственного распреде­ ления, Среднее число екзажпн на участок оценивается уравпе-

23

Таблица 5.2

Вычисление ожидаемых чисел участков, содержащих т открытий, в восточной

части пермского бассейна, Техас. Предполагается, что распределение пуассоново

Число

от­

 

 

Вероятность

Число

участков

Уравнение Пуассона

того, что

 

!

крытий

на

участок СО'

ожидаемое

гаг,людеиное

участок

(г)

 

 

держит г от»

 

 

 

 

крытнй

 

 

0

 

 

1,05°

0,3499

56,0

70

 

Р(о,=е< -'05) 0|

I

 

 

l,05i

0,3674

58,8

42

 

Р(и—е -1,05> „

2

 

Р{

1,052

0,1929

30,9

26

 

2[

3

 

>

1,05»

0,0675

10,8

17

 

31

4

 

Р(4)=а<->.=>

1,051

0,0177

2,8

3

 

4|

5

 

 

1,055

0,0038

0,6

1

 

 

5[

С

 

 

1,05е

0,0007

0,1

1

 

Р(Ь,~ е

б|

 

 

 

 

 

Суммы:

 

 

 

0,9998

160,0

160

нием (5.12). Дисперсия числа скважин на участок есть

г

- " f - !---------

.

(5.15)

где гi — число скважин в г'-м участке. Суммирование распрост­ раняется на все Т участков. При сравнении среднего и диспер­ сии альтернативы таковы:

m /T> s2— схема ближе к равномерной, чем к случайной; m/7’= s2— случайная схема;

m /T< s2— схема ближе к кластеризованной, чем к случайной.

глубина структуры=60+&1 (время возвращения сейсмической волны), глубина структуры—1388,6—1692,5 (время возвращения сейсмической

волны).

Конечно, некоторые различия между т/Т и s2 могут возникнуть в силу случайного изменения выбора конкретного множества участков. Статистическая значимость наблюденной разности может быть проверена с помощью /-критерия, основанного на

И

70

Рис. 5,12. Гистограммы, показывающие наблюдаемые числа скважин на уча­ сток на площади пермского бассейна (о) и ожидаемые числа, если поля рас­

пределены случайно в соответствии с пуассоновской моделью (б)

стандартном отклонении среднего, равном корню квадратному из дисперсии, которая могла бы быть получена в точке т/Т, если бы бассейн был повторно опробован другим множеством участков того же размера. Стандартное отклонение среднего числа скважин, приходящихся на участок, есть

st = V 2 / ( T - l ) .

(5.16)

С помощью /-критерия сравнивается отношение т/Т к s2, ко­ торое должно быть равным 1,0 при условии, что две статисти­ ки одинаковы:

t = \(m/T)ls*-\,0}/se.

(5.17)

Этот критерий имеет Т—1 степеней свободы.

Для площади восточной части пермского бассейна диспер­ сия числа скважин на участок есть s2 = 231,6 : 159= 1,46. Стан­ дартное отклонение среднего числа скважин на участок может

быть оценено так: s2 = ^2: 159=0,112; /-статистика для провер-

25

ки эквивалентности среднего и дисперсии есть

t = [(1,05/1,46) - 1,0]/0,112 = -8,86.

Для уровня значимости а = 0,05 и 159 степеней свободы кри­ тическое значение t для двустороннего критерия равно ±1,96; вычисленное значение значительно превышает это значение, и потому мы можем заключить, как мы это делали в разделе о критерии х2, что пространственное распределение неслучай­ но. Так как дисперсия значительно больше среднего, то мы должны заключить, что скважины образуют группы на изучае­ мой площади.

Схемы группирования

Многие встречающиеся в природе распределения обнаружи­ вают ярко выраженную тенденцию к группированию. Это осо­ бенно верно для некоторых биологических переменных, таких, как наличие специфических организмов или присутствие ин­ фекции. Потомки древних, непередвигающихся родителей, как, например, кораллы или деревья, имеют тенденцию к росту в ближайшей окрестности, что приводит к развитию плотно за­ селенных площадей, окруженных относительно пустынными регионами. Схемы группирования точек могут быть представ­ лены различными моделями распределений, большинство из которых можно рассматривать как комбинации двух или более простых распределений. Одно из этих распределений описывает положения центров групп, в то время как другие описывают расположение точек вокруг этих центров.

Отрицательное биномиальное распределение молено ис­ пользовать для моделирования расположения групп в прост­ ранстве таким же образом, каким пуассоновское распределе­ ние использовалось для моделирования случайного расположе­ ния точек. Подробное обсуждение этого распределения с при­

мерами его приложений во многих

отраслях приводится в

[65]. Гриффитс [31, 32] приводит

длинное обоснование при­

годности отрицательного биномиального распределения в каче­ стве модели частоты появления нефтяных полей и рудных тел.

Один из способов получения отрицательного биномиального распределения — это композиция пуассоновского и логарифми­ ческого распределений, когда группы точек случайно располо­ жены в пределах некоторого региона и индивидуальные точки внутри групп подчиняются логарифмическому распределению. В формулировке, пригодной для описания пространственных схем, отрицательное биномиальное распределение есть

(5.18)

26

В терминах проблем разведки нефти, как мы уже

видели, г

есть число скважин на участок,

р — вероятность того, что не­

которая заданная разведочная

площадка содержит

скважину,

и к есть мера степени группирования скважин. Если к велико, го группирование менее ярко выражено и пространственное распределение приближается к пуассоновскому или случайно­ му. Если k стремится к нулю, то схемы группирования стано­ вятся более явными. Плотность равна

X=kp. (5.19)

Если к не есть целое (и вообще оно не должно быть та­ ким), то это комбинаторное уравнение не может быть реше­ но. Тогда следует использовать следующую аппроксимацию

 

1

(5.20)

 

Р ( 0) = (1 + р)к

 

 

Р(г)

<* + '— ^ (п п г ) ■Р( г ~ 1).

( 5. 21)

Как и г пуассоновском распределении, X оценивается как сред­ няя плотность скважин на участок т/Т. Параметр группирова­ ния k оценивается по формуле

k =

(5.22)

где s2— дисперсия числа скважин на участок. Тогда вероят­ ность оценивается по формуле

p=X/k=(m/T)fk. (5.23)

Можно применить отрицательную биномиальную модель к данным по скважинам в восточной части пермского бассейна ’(см. рис. 5.11) для того, чтобы установить, может ли это рас­ пределение адекватно описывать их пространственное распре­ деление. Среднее значение и дисперсия числа скважин на уча­ сток уже были найдены п равны т/Т= \,05 и s2 = 1,46. Эффект группирования можно оценить, используя уравнение (5.22), как

к= 1,052/ ( 1,46 — 1,05) = 2,69.

Всвою очередь вероятность встретить скважину на некотором участке равна

р= 1,05/2,69=0,390.

27

Используя приближенные уравнения, получаем вероятность того, что данный участок не будет содержать скважин:

Р ( 0) =

1

0,4124.

(1 + 0,390)2-69

 

Вероятность того, что некоторый участок будет содержать точности одну скважину, есть

Р(1) = (2I®L 1 ^И0,Э90/1,Э90)0)4124 :== 0,3112.

Вероятности того, что участок будет содержать в точности две, три или больше скважин, могут быть вычислены аналогично. Тогда ожидаемое число участков, содержащих г скважин, может быть определено просто умножением этих вероятностей на 160 — общее число участков. В табл. 5.3 представлены вероятности, соответствующие числам скважин вплоть до шести от­ крытий на участок.

Числа участков, содержащих в точности г скважин, вычис­ ленные с помощью отрицательного биномиального закона рас­ пределения, сравниваются с соответствующими наблюденными числами участков, приведенными на рис. 5.13. Соответствие отрицательного биномиального распределения может быть про­ верено с помощью критерия %2 в точности аналогично тому, как проверялось соответствие пуассоновской модели. Если необхо­ дима комбинация окончательных трех категорий, то получается пять частот. Проверяемая статистика есть ^2 = 4,82 с 5—2 сте­ пенями свободы. Это меньше, чем критическое значение %2 для

а = 0,05 и v = 3,

поэтому мы не можем отклонить

гипотезу

об

отрицательном

биномиальном

распределении как

модели про-

 

 

 

 

Т а б л и ц а

5.3

Ожидаемое число участков, содержащих г открытий, в восточной части

пермского бассейна. Предполагается отрицательное

 

 

биномиальное распределение

 

 

Число открытий

Вероятность

того,

Число •<7частков

 

на участок (г)

что участок

содер­

наблюденное

 

 

жит г открытий

ожидаемое

 

0

0,4124

66,0

70

 

1

0,3112

49,8

42

 

2

0,1611

 

25,8

26

 

3

0,0706

11,3

17

 

4

0,0281

 

4,5

3

 

5

0,0106

1,7

1

 

6

0,0038

0,6

1

 

Сумма

0,9988

159,7

160

 

28

Рис. 5.13. Гистограммы, показывающие наблюдаемые числа разведочных скважин на участок на одной из площадей пермского бассейна (а) и ожи­ даемые числа в отрицательной биномиальной модели (б)

странственного распределения скважин в восточной части пермского бассейна. Необходимо иметь в виду, что полученный вывод не эквивалентен доказательству того, что скважины под­ чиняются отрицательной биномиальной модели. Вполне воз­ можно, что некоторые другие модели группирования могут да­ вать более точную аппроксимацию. Однако отрицательное би­ номиальное распределение генерирует некоторое пространст­ венное распределение, которое статистически не отличимо от наблюденного распределения.

Метод ближайшего соседа

Существует еще один метод исследования подмножеств, на ьоторые разбита некоторая область — метод ближайшего сосе­ да. Анализируемые данные в этом случае представляют собой не множество точек, расположенных внутри некоторой задан­ ной области, а расстояния между наиболее близкими парами точек. Так как не обязательно выбирать размеры квадрата, процедуры поиска ближайших соседей исключают возможность

29

получения схемы, которая является случайной в одном масшта­ бе и не является случайной в другом. Поскольку обычно име­ ется намного больше пар ближайших соседей, чем квадратов, этот анализ более чувствителен. Хорошее введение в методы ближайшего соседа дают Джетис и Бутс [29J; Риплай [65J, а также Клифф и Орд [15] приводят обзор теории с применени­ ями в разных областях.

Метод ближайшего соседа основан на сравнении наблюдае­ мого множества расстояний между парами ближайших точек с характеристиками, которые ожидались бы в том случае, если бы точки были случайно распределены. Характеристики теоре­ тической случайной схемы можно вычислить из пуассоновского распределения. Если мы игнорируем эффект краев нашей кар­

ты, то ожидаемое

расстояние между ближайшими соседями

есть

1-4-К?.

<524>

 

где А — площадь

карты; п — число точек. Напомним,

что ~

есть плотность точек X. Выборочная дисперсия величины б за­

дается по формуле

 

 

of = (4 —к)АЦ4ш2).

(5.25)

Проведя действия с константами, получим

 

 

o f = 0,06831 А/п2.

(5.26)

Стандартное отклонение среднего расстояния между ближай­ шими соседями есть квадратный корень из о^2:

se = 0,26136//А/а*.

(5.27)

Распределение б нормально при условии, что п больше 6, так что мы можем использовать простой Z-критерий, приведен­ ный в гл. 2, для проверки гипотезы о том, что наблюденное среднее расстояние между ближайшими соседями d равно зна­ чению б для случайной схемы точек той же плотности. Значе­ ние критерия есть

Z = ( d b)/se.

(5.28)

Это — общепринятый вид критерия ближайшего соседа, одна­ ко, к сожалению, он имеет значительный дефект в большинстве

практических случаев.

При построении

ожидаемого значения

б

предполагается, что

краевой эффект

полностью отсутствует,

а

это означает, что наблюденные схемы точек могут быть рас­

30

пространены неограниченно во всех направлениях, если а! и б обоснованно сравниваются. Так как карта не распространяется неограниченно, то ближайшие окрестности точек вблизи краев должны лежать внутри поля карты и потому d смещено в на­ правлении больших значений. Имеется несколько поправок в решении этой задачи. Если данные за пределами исследуемой площади доступны, то карту можно окружить охранной обла­ стью. Тогда расстояния, вычисленные по методу ближайшего соседа между точками внутри карты и точками в охранной области, можно включить в вычисление d. Другой способ со­ стоит в том, что мы можем считать нашу карту вычерченной не на плоскости, а на торе. Это значит, что правый край карты считается склеенным с левым краем, а нижний край — склеен­ ным с верхним. Тогда ближайшая соседняя точка к точке, ле­ жащей у правого края, может быть расположена вблизи ле­ вого края (такое использование точек хорошо известно всяко­ му, кто имел дело с построением изолиний плотностей по сте­ реосетям). Еще один способ построения поправок состоит в построении повторений во всех направлениях, подобно мозаи­ ке. Для любой точки, примыкающей к краю карты, имеется точка, которую можно с большим основанием считать ближай­ шим соседом, чем ближайшую точку внутри заданной карты.

Третий способ построения поправок состоит в изменении 6 так, чтобы граничный эффект был включен в ожидаемое зна­ чение. Используя численное моделирование, Доннелли [24J нашел эти альтернативные выражения для теоретического зна­ чения средних расстояний по методу ближайшего соседа н его выборочного среднего:

5 = 4 У ? + (°’514+ Т ? ) ТГ

(5.29)

И

4 « 0 ,0 7 0 -4 . + 0,035/7 -5^4. , (5.30)

В этой аппроксимации р есть периметр прямоугольной карты. Заметим, что если карта не имеет краев, как это имело место на торе, то р равно нулю, и эти уравнения тождественны урав­ нениям (5.24) и (5.26).

Ожидаемые и наблюденные средние значения расстояний по методу ближайшего соседа могут быть использованы для по­

строения индекса пространственной схемы. Отношение

 

R = d j f

(5.31)

есть статистика ближайшего соседа и изменяется от 0,0 для распределения, в котором все точки совпадают и разделены

31