- •Ю.Ю. Герасимов, в.К. Хлюстов
- •Математические методы и модели в расчетах на эвм: применение в лесоуправлении и экологии
- •Часть 1. Вариационная статистика
- •Глава 1.
- •1.1. Общие положения
- •1.2. Основные понятия статистики
- •1.3. Основы теории вероятностей
- •1.3.1. Понятие случайной величины
- •1.3.2. Классическое и статистическое определения вероятности события
- •1.3.3. Основные теоремы теории вероятностей
- •1.4. Контрольные вопросы и задания
- •Глава 2.
- •2.1. Постановка задачи
- •2.2. Классификация и группировка вариант
- •2.3. Графическое представление вариационных рядов
- •2.4.1. Показатели центральной тенденции
- •2.4.2. Показатели вариации
- •2.4.3. Достоверность статистических показателей
- •2.4.4. Показатели скошенности и крутизны
- •2.5. Доверительный интервал
- •2.6. Контрольные вопросы и задания
- •Глава 3.
- •3.1. Постановка задачи
- •3.2. Нормальное распределение
- •3.3. Логнормальное распределение
- •3.4.2. Бета-распределение
- •3.5. Распределение Пуассона
- •3.6. Семейство кривых распределения Джонсона
- •3.7. Семейство кривых Пирсона
- •Контрольные вопросы и задания
- •Глава 4.
- •4.1. Постановка задачи
- •4.3. Сравнение эмпирического распределения с теоретическим (критерий "хи-квадрат")
- •4.5. Сравнение дисперсий двух эмпирических совокупностей
- •4.6. Сравнение частот взвешенных рядов по критерию
- •4.7. Использование пакетов прикладных программ
- •4.8. Контрольные вопросы и задания
- •Глава 5.
- •5.1. Постановка задачи
- •5.2. Однофакторный комплекс
- •5.3. Двухфакторный комплекс
- •5.4. Использование ms Excel для проведения дисперсионного анализа
- •5.4.1. Однофакторный дисперсионный анализ
- •5.4.2. Двухфакторный дисперсионный анализ без повторения
- •5.5. Контрольные вопросы и задания
- •Глава 6.
- •6.1. Постановка задачи
- •6.2. Коэффициент корреляции
- •6.3. Корреляционное отношение
- •6.4. Схема полного корреляционного анализа
- •6.5. Использование пакетов прикладных программ Вычисление коэффициента корреляции с использованием ms Excel
- •Контрольные вопросы и задания
- •Глава 7.
- •7.1. Постановка задачи
- •7.2. Статистический анализ одномерных моделей
- •Уравнение прямой линии
- •Уравнение гиперболы
- •Уравнение показательной кривой
- •Окончательный выбор типа уравнения регрессии
- •7.4. Множественная регрессия
- •7.5. Применение ms Excel для расчета регрессии
- •Часть 2. Исследование операций
- •Глава 8.
- •8.1. Общие положения
- •8.2. Основные понятия системного анализа
- •8.3. Основные понятия исследования операций
- •8.4. Постановка задач принятия оптимальных решений
- •8.5. Контрольные вопросы и задания
- •Глава 9.
- •9.1. Постановка задачи
- •9.2. Графическое решение задачи линейного программирования
- •9.3. Задача линейного программирования в стандартной форме
- •Преобразования неравенств
- •Преобразование неограниченных по знаку переменных
- •2.4. Основы симплекс - метода линейного программирования
- •9.5. Метод искусственных переменных
- •9.6. Анализ чувствительности в линейном программировании
- •9.7. Решение задач линейного программирования на эвм
- •9.8. Контрольные вопросы и задания
- •Глава 10.
- •10.1. Постановка задачи
- •10.2. Метод ветвей и границ
- •10.3. Рекомендации по формулировке и решению задач цп
- •10.4. Задачи оптимизации раскроя
- •XA 0, xB 0, k 0 - целые.
- •XA 0, xB 0, k 0 - целые.
- •10.5. Постановка задачи дискретного программирования
- •Решение задач целочисленного и дискретного программирования на эвм
- •10.7. Контрольные вопросы и задания
- •Глава 11.
- •11.1. Общие понятия
- •11.2. Практические рекомендации при постановке задач динамического программирования
- •11.3. Оптимальное распределение ресурсов
- •11.4. Оптимальное управление запасами
- •11.5. Оптимальная политика замены оборудования
- •11.6. Контрольные вопросы и задания
- •Глава 12.
- •12.1. Постановка задачи
- •12.2. Применение стохастического программирования
- •12.3. Метод статистического моделирования
- •12.4. Контрольные вопросы и задания
- •Глава 13.
- •13.1. Постановка задач нелинейного программирования
- •13.2. Безусловная однопараметрическая оптимизация
- •13.2.1. Методы исключения интервалов
- •13.2.2. Методы полиномиальной аппроксимации
- •13.2.3. Методы с использованием производных
- •13.2.4. Сравнение методов безусловной однопараметрической оптимизации
- •13.3. Безусловная многопараметрическая оптимизация
- •13.3.1. Постановка задачи
- •13.3.2. Методы прямого поиска
- •13.3.3. Градиентные методы
- •13.4. Нелинейная условная оптимизация
- •13.4.1. Постановка задач условной нелинейной оптимизации
- •13.4.2. Методы штрафных функций
- •13.4.3. Методы прямого поиска
- •13.4.4. Методы линеаризации
- •13.5. Решение задач нелинейной оптимизации на эвм
- •13.6. Контрольные вопросы и задания
- •Приложение 1 Значения t - распределения Стьюдента при доверительной вероятности р и числе степеней свободы k
- •Плотность вероятности нормального распределения
- •Приложение 3 Значения χ2 при доверительной вероятности р и числе степеней свободы k
- •Продолжение приложения 3
- •Значения -функции
- •Приложение 5 Значения - в распределении Джонсона
- •Продолжение приложения 5
- •Продолжение приложения 5
- •Продолжение приложения 5
- •Приложение 6
- •Продолжение приложения 6
- •Продолжение приложения 6
- •Продолжение приложения 6
- •Приложение 7
- •Продолжение приложения 7
- •Продолжение приложения 7
- •Продолжение приложения 7
7.4. Множественная регрессия
Взаимовлияния в лесных объектах обусловливают широкое применение множественной регрессии, т. е. регрессионных уравнений с несколькими аргументами.
Если x1, х2, ..., хk - k независимых переменных или факторов, а у - функция (или отклик), то множественное линейное (относительно коэффициентов и независимых переменных) регрессионное уравнение имеет вид:
у=a0+a1х1 + a2x2 + . . . +akxk , (7.32)
где
a0 - свободный член;
a1, a2, …, ak - коэффициенты регрессии.
Модели со многими переменными, нелинейно связанными с откликом у, как правило, приводят заменами (если это возможно) к линейному виду
у=a0+a1z1 + a2z2 + . . . +akzk , (7.33)
где
z1, z2, …, zk – некоторые функции от исходных переменных x1, х2, ..., хk.
Идеи и методы множественной регрессии являются прямым обобщением методов статистического анализа линейных моделей с одной переменной. Но здесь возникают многочисленные трудности при подборе уравнения, определении количества переменных, их оценке и интерпретации полученных результатов. Причины этих трудностей следующие:
набор элементарных функций и их возможные сочетания в уравнении регрессии очень обширны;
аргументы, как правило, коррелированы между собой;
ориентация на физический смысл и сущность изучаемого явления затруднена; даже если парные регрессии у=f(xi) высоко значимы, то влияние взаимодействия факторов может менять не только величину коэффициентов регрессии, но и придавать им знаки, противоречащие представлениям специалиста о характере влияния того или иного фактора на отклик;
с увеличением количества независимых переменных возрастают сложности с соблюдением основных предпосылок регрессионного анализа. Все это приводит к тому, что в задачах множественной регрессии, как нигде больше в статистическом анализе информации, требуются осторожная и вдумчивая оценка результатов чисто статистических процедур и весьма частое внесение корректив, продиктованных пониманием сути исследуемого явления.
Рассмотрение основ теории и вычислительных схем множественной регрессии при числе независимых переменных больше двух требует очень громоздких вычислений и практически невозможно без применения матричной алгебры. Множественная регрессия, особенно при большом числе наблюдений, является исключительно сферой использования ЭВМ, следовательно, в лесном деле при использовании множественных регрессионных моделей основное внимание должно быть уделено интерпретации результатов и оценке адекватности и корректности модели.
В настоящее время есть много программ множественной регрессии на ЭВМ. Порядок практической работы по расчету и оценке уравнений в значительной мере зависит от структуры машинной программы. Ниже на реальном примере показаны основные способы обоснования регрессионных уравнений с многими переменными при работе на ЭВМ.
Данные для использования в ЭВМ могут представляться по-разному. Некоторые программы имеют достаточно широкий набор преобразований, выполняемых (по желанию пользователя) непосредственно машиной для каждой переменной, другие предусматривают только стандартную процедуру преобразования всех переменных по одному типу (логарифмическое, степенное, показательное и пр.). В первом случае поиск наилучшего преобразования возможен на машине, во втором—требуется предварительное приведение модели к линейному виду. То же относится и к нелинейным моделям—соответствующие комбинации независимых переменных (х, х2, х1х22 и др.) следует вводить в компьютер как значения независимых переменных zi.
Возможен и другой путь: на ЭВМ оценивают получаемые стандартным путем уравнения регрессии, имеющие только значимые переменные, которые затем улучшаются путем преобразований.
Уравнения со многими переменными. Выбор и оценка переменных.
Наилучшим является такое уравнение регрессии, которое объясняет возможно максимальную долю изменчивости зависимой переменной у; для этой цели используют величину множественного коэффициента детерминации R2 или величину остаточной дисперсии. Однако большое количество независимых переменных требует значительных затрат при сборе информации и затрудняет содержательную трактовку модели. Поэтому будем считать наилучшим такое уравнение, которое обеспечивает устанавливаемый заранее минимум R2 при возможно меньшем количестве переменных.
Переменные, входящие во множественную модель, имеют, как правило, различную ценность. Во-первых, суждения о том, какие переменные предпочтительнее, могут лежать вне статистических соображений. Простота и точность измерений приобретают большую роль в уравнениях, предназначенных для массового практического использования. Например, если нужно сделать выбор между диаметром на высоте 1,3 м и объемом растущего дерева как независимыми переменными, то в любом случае предпочтение отдают диаметру, который легче и надежнее определяется. Во-вторых, переменные могут быть управляемыми и неуправляемыми. Термин этот понимают в широком смысле: количество вносимых удобрений или интенсивность рубок ухода - переменная управляемая; диаметр деревьев в древостое в определенных пределах тоже управляемая величина, по крайней мере, в смысле возможности измерения деревьев различного диаметра. Напротив, средняя температура воздуха в некотором месяце есть величина неуправляемая. По возможности, предпочтение следует отдавать переменным первого вида, особенно в моделях, предназначенных для управления некоторым процессом или объектом.
В моделях связи, разрабатываемых для природных объектов, в частности для леса, переменные большей частью взаимно коррелированы. Наиболее информативными, т. е. первыми «кандидатами» на включение в регрессионное уравнение при прочих равных условиях, являются переменные, во-первых, наиболее коррелированные с откликом у, а во-вторых, с наименьшим числом других переменных. Соблюдение этих условий позволяет уже на предварительном этапе исключить некоторые переменные.
Приведенное обсуждение позволяет еще раз подчеркнуть, что наилучшее уравнение регрессии нельзя выбрать, ориентируясь только на статистические процедуры.
Ряд методов разработан для отбора переменных и обоснования наилучшего уравнения регрессии с использованием ЭВМ:
метод всех регрессий;
метод исключения;
метод включения;
шаговый регрессионный анализ;
метод "чистой регрессии";
каскадный регрессионный анализ и др.
В машинных программах обычно используют комбинации перечисленных методов. Мы остановимся на трех методах, связанных между собой и в совокупности наиболее целесообразных в практической работе: методе исключения, методе включения и методе всех регрессий.
Метод всех регрессий предполагает вычисление всех возможных по данной программе регрессионных уравнений. В чистом виде он непригоден для практического применения из-за большой трудоемкости и значительных затрат машинного времени. Так, если имеется k неизвестных, то, ограничившись только линейной моделью на двух уровнях (переменная хi включена—переменная хi исключена), можно вычислить и оценить 2k уравнений. Для рассматриваемого ниже обычного примера с семью аргументами требуется 27= 128 уравнений; понятно, что самый простой предварительный анализ позволяет значительно сократить это число. В качестве же вспомогательного средства этот метод полезен, поскольку можно рассчитать несколько наиболее полных (т. е. содержащих все переменные) уравнений, которые затем улучшают методами исключения и включения.
Метод исключений на первой стадии использует наиболее полное уравнение, включающее все переменные. Исключение переменных возможно в трех вариантах:
если переменные некоррелированы (или слабо коррелированы), то их можно оценить по t-критерию с помощью стандартных ошибок; при тех же условиях заключения о силе влияния xi на у можно сделать по -коэффициентам—масштабированным коэффициентам регрессии для нормированных значений;
если переменные упорядочены, то их последовательно исключают и на каждом шаге оценивают величину дополнительной суммы квадратов и значимость частичного F-критерия; переменные, для которых Fф < Fst при заданном уровне значимости, исключают;
если переменные равноправны, то на каждом шаге вычисляют частичный F-критерий для каждой переменной при условии, что дополнительную сумму квадратов, связанную с испытуемой переменной, определяют при наличии в уравнении всех остальных переменных. Наименьшее значение частичного F-критерия сравнивают с табличным при уровне значимости α; если оно меньше, соответствующую переменную исключают, после чего продолжают вычисления.
Метод включения использует процедуру, в некотором смысле обратную методу исключения: независимые переменные включают до тех пор, пока регрессионное уравнение обеспечит желаемую точность. Первой вводят переменную, наиболее коррелированную с откликом. Основой для включения следующей переменной служат частные коэффициенты корреляции между вычисленными по полученному парному уравнению расчетными значениями у и еще не включенными переменными. В первую очередь вводят переменную, для которой значение частного коэффициента корреляции наибольшее. После каждого этапа (очередная переменная) вычисляют множественный коэффициент детерминации R2 и частный F-критерий для переменной, введенной последней. По значению F-критерия оценивают дополнительную сумму квадратов, обусловленную введением последней переменной: переменные вводят до тех пор, пока величина частного критерия станет меньше табличной при заданном уровне значимости. Недостаток метода включения заключается в том, что он не оценивает изменения роли ранее введенных переменных, которая, в силу их обычной коррелированности, может существенно меняться. Этот недостаток преодолен в шаговом регрессионном анализе, являющимся развитием метода включения.