Вариационная статистика
.pdfН. Н. СВАЛОВ
ВАРИАЦИОННАЯ
СТАТИСТИКА
Издательство
«ЛЕСНАЯ ПРОМЫШЛЕННОСТЬ:о
ПРЕДИСЛОВИЕ
В лесотехнических вузах нашей страны «Вариационная ста тистика» как учебная дисциплина имеет полувековую историю.
Большую роль в развитии данной. дисциплины сыграли труды
профессорав-математиков М. Ю. Поморского, В. В. Голубева, А. Н. Дьячкова, А. К. Митропольского, читавших этот курс
в лесотехнических вузах.
Ряд содержательных пособий по вариационной статистике
в последнее время написали специалисты-лесоводы - К. Е. Ни китин (1961}, М. Л. Дворецкий (1961, 1971}, Н. Л. Леонтьев
(1966), О. А. Трулль (1966), И. И. Гусев (1970), Э. Н. Фала
леев, П. М. Верхунов, Л. П. Зайченко, 3. В. Медведева (1974). Возросшие возможности применения статистического ана
лиза опытных данных, в связи с широким внедрением электрон
но-вычислительной техники, привели в последнее время к рас ширению курса «Вариационная статистика» в лесотехнических
вузах.
В данной книге изложено содержание курса для студентов
лесохозяйственных факультетов в его новом, расширенном объ
еме. По сравнению с ранее изданными пособиями в настоящей книге более значительное место отведено методам анализа
малых выборок, рассмотрены основы дисперсионного, корреля
ционного и регрессионного анализа, введены понятия теории пла нирования эксперимента.
ВВЕДЕНИЕ
Статистическая теория количественного описания и анализа
массовых явлений берет свое начало в XVI-XVII вв. Особенно стремительное развитие она получила во второй половине ХХ в.
Разработка английским ученым Р. А. Фишером методов стати
стического анализа малых выборок привела к широкому внед
рению этих методов в практику принятия рациональных решений
и в экспериментальные исследования.
3
Статистические методы многочисленны и разнообразны.
Однако в целом они представляют единый систематический и ло
гический подход к изучению явлений, имеем ли мы дело с при родными феноменами, комплексами физических единиц или ре
зультатов массовых измерений одного и того же предмета. Ста
тистические методы обеспечивают исследователям и специали стам, управляющим хозяйством, правильную постановку опытов (наблюдений), получение кратких сводок и небольшага числа
характеристик многочисленных опытных данных.
Главная черта современных статистических методов исследо вания явлений состоит в том, что они дают возможность полу чать оценки и обобщения, распространяющиеся за пределы непо
средственно изученных выборочных данных. Это могут быть
решения, которые принимают или отвергают гипотезы.
В основе статистических методов лежит предположение,
называемое по-разному: единообразием или ограничением неза
висимой вариации в природе, статистической устойчивостью опы
та, законом больших чисел. Суть предположения состоит в том,
что поведение отдельно взятого индивидуума или результата
наблюдения случайно, непредсказуемо. Если такое поведение
или результат наблюдения рассматривать в сочетании с подоб
ными, то получим совокупности, в которых наблюдается едино образие, поддающееся численной оценке.
Единообразие в природных явлениях не строгое. Поэтому
оценки явлений, получаемые по выборочным данным, даются
не однозначно, а выражаются в вероятностной форме. Эти оцен
ки можно успешно использовать для познания массовых явле
ний и в практике принятия рациональных решений. Теоретические основы для указанных статистических оце
нок яв.r1ений изложены в главах I и II.
Статистическое исследование может охватить одно изучае мое явление. В этом случае получают числовые характеристики
распределения отдельных единиц (индивидуумов), составляю
щих исследуемое явление,- среднюю величИну, показатели раз
нообразия или вариации. При значительном объеме опытных
данных ( 100 единиц и более) возможно найти показатели формы кривой распределения, подобрать теоретическую модель, обес
печивающую выравнивание распределения опытных данных.
Статистические методы исследования отдельных явлений
изложены в главах 111-,У, VIII.
Нередко исследования проводят в виде многогруппового опы
·та, когда одно изучаемое явление подразделяют на группы, про
веряя, например, эффект удобрения, действие препарата на рас
тение, животных или насекомых и т. д. Статистические методы
при таком опыте позволяют найти обоснованные решения на
~снове сравнения статистических характеристик для групп.
Методы анализа данных многогруппового опыта; называемо
го дисперсионным анализом, изложены в главе VII.
4
Часто приходится изучать одновременно два ИJ!'И более явле
ния, например, размеры деревьев по высоте и толщине, рост
деревьев в связи с возрастом и т. д. Статистические методы дают
возможность количественно измерить связь между явлениями,
выразить ее конкретным математическим уравнением.
Изложению статистических методов оценки связи посвящены
главы IX-XI.
Опытной основой статистического исследования являются
данные наблюдений, которые обычно составляют выборку из
некоторой общей совокупности данных. Для правомерности индуктивных статистических заключений о совокупности по вы
борочным данным неоqходимо, чтобы последние были репрезен
тативными, т. е. достаточно полно представляли совокупность.
Вопросы планирования выборочных наблюдений кратко изло жены в главе XII.
Статистические методы в этой книге изложены в прикладнам лесабиологическом аспекте.
Глава 1
ПРЕДМЕТ И МЕТОД ВАРИАЦИОННОй СТАТИСТИКИ
§ J. ПРЕДМЕТ ВАРИАЦИОННОЯ СТАТИСТИКИ
П р е д м е т в ар и а ц и о н н ой с т а т и с т и к и - изучение
свойств массовых явлений в биологии, экономике, технике и дру
гих областях. Эти явления обычно представляются сложными вследствие разнообразия (варьирования) отдельных индивиду
умов или единиц. Чтобы получить правильное представление об
изучаемых свойствах массовых явлений и дать им определенные
количественные оценки, их подвергают совместному рассмотре
нию и анализу. Отдельные единицы или индивидуумы, обладаю щие некоторым общим свойством, объединяют в совокупности. Наблюдаемые единицы называют в а р и а н т а м и, а образуе
мую совокупность единиц - с т а т и с т и ч е с к о й с о в о к у п -
н о с т ь ю.
Единицами совокупности могут быть, например, деревья опре деленной породы, возраста, состояния. Ими могут быть семена
деревьев одной какой-либо породы или взятые с одного дерева
или ветви. Общее свойство, каким в данном примере являЮтся
порода, возраст, состояние деревьев, масса, размер или качество
семян, называют п р из н а к о м.
Статистическая совокупность может быть образована по одному или по нескольким признакам. Она может состоять из одной или нескольких однородных в отношении изучаемого свой
ства групп. Так, можно изучать деревья· данного вида и возраста
вотношении, например, размера ствола, кроны или других их
частей. Однако часто бывает целесообразно подразделить от
дельные наблюдаемые единицы на группы для достижения боль
шей однородности их внутри этих групп.
Теорию и методы изучения свойств массовых явлений, вычис
ления и анализа их количественных характеристик излагает нау ка, носящая названиевар и а ц и о н н а я с т а т и с т и к а.
6
Раньше других начали изучать массовые явления в биологии, rлавным образа!'/ размерные характеристики человека. В 80-е
годы XIX в. науку, излагающую методы изучения массовых явле
ний в биологии, английский ученый Ф. Гальтон назвал б и о м е три ей (от лат. Ьiosжизнь, metron- мера).
Термин «вариационная статистика» был введен позднее. Он
шире и точнее отражает сущность данной науки и означает, что
вариационная статистика измеряет все массовые явления. Одна
ко и этот термин не единственный. Теория и методы наблюдений
и интерпретации массовых явлений излагаются в последнее вре
мя под различными названиями, среди которых наиболее общим
является термин «статистические методы».
§ 2. МЕТОД ВАРИАЦИОННОЯ СТАТИСТИКИ
Метод изучения массовых явлений, применяемый статисти кой, основан на теории вероятностей. Теория вероятностей уста навливает закономерности событий, наступающих случайно и на зываемых случайными. Статистика предполагает анализ массо
вых явлений, имеющих также случайный характер в распределе нии значений отдельных единиц, составляющих явление.
Вместе с тем метод статистики принципиально иной. Теория
вероятностей имеет дело с исходными явлениями, структура
которых известна, например, содержание шаров в урне (сколько белых и сколько черных). В самом общем смысле задача теории вероятностей состоит в том, чтобы математически-дедуктивным путем (идя от общего к частному) вывести теоремы о наступле
нии того или иного события в серии испытаний.
Дедуктивные выводы имеют такую общую форму: Б о .1 ь ш а я посыл к а: все зерна в ящике белые.
М а л а я посыл к а: эти зерна (определенная приrоршня) из данного
ящика.
3 а к л ю ч е н и е: эти зерна (прнгоршня) белые.
Дедуктивное заключение не может быть ошибочным, если посылки пра nильны. Здесь налицо вся .информация, содержащаяся в посылках. Заключе·
ние является только выражением подразумеваемой в посылках закономер·
!ЮСТИ.
Статистика имеет дело с открытыми системами, не охвачен
ными сплошным изучением. Центральной задачей вариационной
статистики как метода исследования являются заключения,
выходящие за рамки изученного материала, т. е. заключения
о свойствах статистических совокупностей, принимая во внима
ние и неизученную их часть.
Всю статистическую совокупность, в отношении которой
делают статистические обобщения и заключения, называют
о б щ е й, или г е н ер а ль н ой с о в о к у п н о с т ь ю, а часть
ее, охваченную непосредственным наблюдением, называют в ы -
б о р о ч н о й с о в о к у п н о с т ь ю.
7
Вариационная статистикаприменяет метод оценки общей
совокупности на основе изученных отдельных единиц или на
основе выборочных совокупностей.
Метод изучения явлений, при котором приходят к обобще
ниям, изучив отдельные случаи этого явления, называется м е
т о д о м и н д у к ц и и.
Следовательно, вариационная статистика использует метод индуктивных заключений.
Индуктивное заключение, как общий логический процесс, идущий от боль
шой и малой посылки, имеет такую форму: |
|
||
Большая |
посыл к а: |
эти зерна (определенная пригоршня) |
из дан- |
ного ящика. |
|
|
|
М а л а я посыл к а: эти зерна белые. |
|
||
3 а к л ю ч е н и е: все зерна |
в ящике белые. |
|
|
Очевидно, что заключение с индуктивной аргументацией шире. чем посыл |
|||
ки. В заключении |
добавляется |
нечто новое, расширяющее знания об |
изучае |
мом явлении. Это потенциальное расширение знаний требует осторожности.
Оно может быть плодотворно, но существует векоторая опасность получить необоснованные и ложные выводы.
ЛоГическим оанованием индуктивного заключения является предположе ние о единообразии в системе фактов, относящихся к посылкам и заключе
нию. Это предположение, называемое по-разному- единообразием в природе,
статистической устойчивостью опыта, ограничением независимой вариации
в природе,- всегда представЛяет как бы невысказанную посылку индукции.
Если бы единообразие в естественных процессах не проявлялось, природе был бы свойствен полный хаос. При этом никакое нагромождение фактов не могло бы оправдать индукцию. Нельзя был~ бы ничего сказать об усло виях за пределами опыта. Но природе свойственно определ~нное единообра
зие в поведении отдельных единиц, составляющих то или иное массовое явле
ние. Однако это единообразие в природе не столь ст,рого, чтобы можно было сделать точную оценку массового (общего) явления наблюдаемых единиц. Поэтому статист,ические заключения о свойствах генеральных совокупностей по выборочным всегда имеют вероятностный характер, т. е. делаются с опре деленной степенью безошибочности и никогда не делаются с полной досто
верностью.
Следует отметить, что конструкция выборочных оценок оказывается более
предпочтительной даже в тех случаях, когда все единицы, составляющие-то
или иное явление, могут быть измерены, т. е. относятся к ограниченным гене· ральным совокупностям. Это положение, затронувшее различные виды гене
ральных совокупностей, нуждается в более широком пояснении. На практике встречаются обследуемые генеральные совокупности конечные и бесконечные.
Примерам первой может служить выборочное обследование, допустим, бюд
жетов семей в определенном городе.
С бесконечными совокупностями имеют дело при различных эксперимен
тальных исследованиях, когда вопрос заключается не в том, чтобы получить точный результат в данном эксперименте, но главным образом в оценке того,
каковы будут результаты массового применения данного процессабиоло гического, технологического или эконо~1ического. Предположим, производитсн
оценка степени повреждае:~~ости подроста на нескольких десятках лесосек при
данной технологии лесосечных работ (в % от обследованных единиц). В дан но:~~ случае генеральная совокупность бесконечна, ибо для оценки не столь уж
важно, сколько поврежден{) подроста на данных лесосеках, как то, сколько
его будет повреждаться при подобных условиях на всех других лесосеках,
не исследованных в опыте. Здесь научный эксперимент становится как бы «механизмом» нолучения случайной выборки.
Возможны обстоятельства, когда полезно прибегнуть к особой логиче
ской конструкциипшотетической генеральной сверхсовокупности. Иногда мы
8
ыожем располагать данными даже сплошного обследования реально суЩест вующей совокупности, и все же бывает полезно рассматривать эти данные как выборку из векоторой сверхсовокупности. Так поступают, когда не только нужны полученные факты, но и необходимо выявить общую закономерность, но отношению к которой статистический материал представляется лишь част
ным случаем.
ПредполоЖим, что из статистиЧеских обследований рождаемости 11 стране за ряд лет установлено, что 52% из числа родившихся составили мальчики.
Эти данные получены путем сплошного обследования и характеризуют явление однозначно. Однако, есл.и нас интересует результат и за пределами обследо
ванных лет или проверяется заключение о том, что мальчиков рождается
больше, тогда полученные данные следует рассматривать как выборку из некоторой бесконечной сверхсовокупности различных возможных . пропорций рождений по полу. На основе таких данных, пользуясь методами статистики, нредставляется возможным исследовать, приемлемо ли предположение о более
частой рождаемости мальчиков. Заметим, что определяемая таким образом
сверхсовокупность не ограничена ни численностью, ни территорией, в которой
произведен эксперимент.
Глава 11
ОСНОВЬI ТЕОРИИ ВЕРОЯТНОСТЕН
Статистическая индукция или статистические заключения, как главная составная часть метода исследования массовых явлений, имеют свои отличи тельные черты. Статистические заключения делают с численно выраженной определенностью. Теоретической основой для их построения является раздел математики, изучающий закономерности случайных событий и называемый тео рией вероятностей. Предпосылка, что результаты статистического наблюдения отобраны в случайном порядке из соответствующих генеральных совокупно
стей, дает возможность в соответствии с теорией вероятностей оценить сте
пень отклонения результатов наблюдения от соответствующих показателей генеральной совокупности. Таким образом, вероятностная основа вариацион
ной статистики позволяет оценить степень точности получаемых результатов
опыта.
Внастоящей -главе рассматриваются основополагающие понятия, теоремы
иметоды теории вероятностей, основные модели распределений случайных
собьпнй. Вопросы теории статистической оценки изложены в главе VI, т. е.
110сле рассмотрения в главе V техники вычисления статистических характе ристик выборки. Это сделано с тем, чтобы теорию оценки излагать на опыт ной основе.
§ 1. ПОНЯТИЕ СЛУЧАйНОГО СОБЬIТИЯ
Основу изучения природ11ых процес-сов составляет выявление причинно
следственных связей между явлениями экспериментальным путем.
Осуществив по своему желанию одно или несколько первоначальных явле
ШIЙ (в дальнейшем они называются факторами), экспериментатор получает IJозможность нзучать появляющиеся явленияследствия. Иногда в процессе эксперимента удается сделать случайное открытие, т. е. обнаружить явле ние-следствие, о которо~I ранее ничего не было известно. Но, как правило,
экспериментатор заранее намечает явления-следствия, появление которых он
ожидает. При этом самое сложное явление можно разбить на частные, мел
кие явления, относительно которых остается выяснить: произошли они или
не произошлн.
Например, обрабатывая семена на всхожесть определенным препаратом,
экспериментатор мог поставить задачу оценить эффект различных его доз.
9
в качестве результата эффекта могло быть принято число всхожих и невсхо
жих семян.
Измеряя массу какого-либо вещества, в качестве отдельных частных явле ний можно рассматривать всевозможные априорные значения этой массы. Задача экспериментатора, таким образом, сводится к наб.1юдению того, какие·
из значений массы осуществились.
Явления, рассматриваемые с той точки зрения, осущестоолись они или
не осуществялись, называются с о бы т и я м и. Применительно к событиям
ставится основная задача: предсказать, появится ли изучаемое событие при осуществлении некоторого наперед заданного комплекса факторов (явлений-
причин). Событие, которое при заданном комплексе факторов обязательно про
изойдет, называется д о с т о в ер н ы м. Событие, которое при заданном комп
лексе факторов не может произойти, |
называется н е в о з м о ж н ы м |
с о б ы - |
т я е м. Суждения о достоверности |
или невозможности пекотарого |
собы'!'ия |
являются категорическими суждениями. Такие суждения принято считать. окончательным результатом исследования. Отсюда возникает интерес к об
ратной задаче: указать комплексы факторов, при которых о заданном собы
тии можно сделать категорические суждения.
Однако каждое событиерезультат действия многих факторов, часть из
которых иногда .нельзя предсказать или организовать в опыте. В этом случае категорическое суждение о событии невозможно. Получается ситуация: задан ные факторы благоприятствуют собыmю, и, следовательно, оно может про
изойти. С д-ругой стороны, действия этих факторов недостаточно, чтобы гаран
тировать появление события, и, значит, оно может и не произойти.
Событие, которое при заданном комплексе факторов может либо про изойти, либо не произойти, называется с луч а й н ы м с о бы т и е м. Случай
ные события связаны с действием не вошедших в организованный комплеJ\С факторов, называемых случайными факторами в отличие от другой группы факторов, включаемых в комплекс и называемых основными, или неслучай
ными.
Предположим, исследуется численность возобновления в лесу. Такие фак
торы, как порода, возраст, полнота или густота материнского древостоя, тип
леса, можно организовать в опыте, т. е. учесть. Эти факторы являются основ
ными. Другая группа факторов является нензвестной, или не поддающейся
учету. Эти факторы nри статистическом анализ~ получили" название слу
чайных.
§2.8ЕРОЯТНОСТЬ СЛУЧАйНОГО СОБЫТИЯ
Для того чтобы выяснить, произойдет или не произойдет событие при
заданном комплексе факторов, нужно осуществить этот комплекс, т. е. про вести испытание. Испытаннем является любой эксПеримент, в результате кото-
рого производят наблюдения. |
· |
Предсказать результат единичного испытания можно только для досто
верных или невозможных событий. Случайность же события не видна нз еди
ничного яспытания. Любое случайное событие по единичному испытанию
было бы оценено как достоверное, если оно произошло, и как неQозможное
если не произошло. Такие оценки, однако, были бы сами случайными, как
и результат ед:иничного испытания. Теория оценки случайных событий строится
на большом числе испытаний, т. е. для массовых событий.
Важным условием при этом является неизменность комплекса основных
факторов. События, происходящие при одном и том же комплексе факторов,.
называются о д н о родным и. Установлено, что однородные случайные
события в большой их массе подчиняются некоторым закономерностям. Эти
закономерности получили название вероятностных.
Характер вероятностных закономерностей можно уяснить на следующих
примерах.
Пр и м е.р. Предположим, мы подбрасываем монету. При этом событием
будем считать выпадение герба. Никто не может предсказать определенно,.
10
произойдет ·или не nроизойдет событие при одном nодбрасывании: одинаково
возможно как его настуnление, так и ненастуnление.
События с одинаковыми возможностями осуществления называются р а в -
11 0 в 0 з м о ж н ы м и. Так, при оимметричной монете выпадение герба и циф
рыравновоэможны.
Однако, если бы было произведено, например, 1000 бросаний, и из них
600 раз выпал герб, то для следующей серии испытаний можно было бы
предсказывать, что герб nоявится в 60% |
случаев. Причем такое отклонение |
||
от ожидае~ых 600 |
появлений герба из |
1000 бросаний можно было |
бы счи |
тать связанным с неснмметричностью монеты. |
|
||
Установленное в |
,результате опыта отношение числа nоявления |
события |
|
к общему числу всех |
испытаний называется ч а с т о т о й с о бы т и я. |
В ука |
|
.занном примере с монетой частота выпадения герба равна 0,6. |
|
Из примера можно заключить, что частота события, выступающая как
пекоторая статистическая закономерность, связана с внутренними характери
стиками события. Частота является, мерой этих внутренних характеристик·
события. Она тем надежнее, чем большее число испытаний было произве
дено. При очень большом числе испытаний частота почти перестает изменяться,
нриближаясь к некоторой величине. Эту величину и можно принять за инте
ресующую нас числовую характеристику. |
Так, при бросании монеты |
4, 12 |
н 24 тыс. раз частота появления герба соответственно равнялась 0,5080; |
0,5016; |
|
|
1 |
|
0,5005. Очевидно, что она здесь приближается к числу /2- |
|
|
Числовая характеристика случайного события, обладающая тем свойст |
||
вом, что для любой достаточно большой |
серии испытаний частота события |
лишь незначительно отличается от этой характеристики, называется в ер о я т н о с т ь ю события.
Из этого рассмотрения устанавливаем, что вероятность является как бы
тем теоретическим пределом, к которому стремится частость при увеличении
числа испытаний. Вероятностьидеальное выражение частости.
L{анное определение вероятности называется статистическим. Это опреде ление не является достаточно строгим с точки зрения математики. По стати-
пическому определению трудно изучать свойства вероятности. |
1 |
Однако имеется и ряд положительных его свойств. Статистический под ход позволяет находить вероятности событнй, структура которых неизвестна.
Например, только статистический подход позволил
определить вероятность рождения мальчиков, рав-
ную 0,52, н девочек- 0,48.
Существуют два других, более удобных с фор
мальной точки зрения, определения вероятности:
классическое и геометрич€ское. Однако для них тре буется знать структуру рассматриваемых событий.
Понятие о |
г е о м е т р и ч е с к о м о п р е д е л е - |
|
н и и в е р о я т н о с т и можно |
получить из следую- |
|
щего прнмера испытаний. |
· |
|
П р и м е р. |
Предположим, |
в некотором квадрате |
случайным образом выбирается точка. Какова веро ятность, что она окажется в области D (рис. 1).
Очевидно, что вероятность эта будет тем большей,
чем больше область D. В качестве мерила вероятно сти выступает эдесь площадь. Вероятность того, что случайная точка попадет в область .D (осуществление
событня D) равна: p(D) =Sn/S (11.1), где Sn -пло-
•
Рис. 1. Иллюстра
ция понятия гео
метрической веро-
ятности
щадь области D; S - п.1ощадь всего квадрата.
Геометрическое определение вероятности пригодно не только для плос
кости, но и для nрямой или пространства.
В первом случае основой для определения вероятности служит некото рый отрезок, а случайным событиям соответствуют его части. Вероятность
вычисляется как отношение длины частей к общей длине отрезка. Во втором
.случае основой к испытанию принимают некоторый куб, случайным событиям