Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо. В остатках могут быть выбросы, это аномальные изменения временного ряда, связанные с редко происходящими событиями, которые резко, но лишь очень кратковременно отклоняют ряд от общей тенденции, по которой он следует.

Чаще всего первые компоненты временного ряда T, S, C являются закономерными, неслучайными, именно этот довод закладывает основу прогнозирования временных рядов. Важнейшей классической задачей при исследовании временных рядов является выявление и статистическая оценка каждой компоненты развития изучаемого процесса и отклонений от них. Рассмотрим некоторые из них.

6.2.3.2.Виды трендов

Вобщем случае тренд – основная тенденция изменения чего-либо. В случайных функциях нас интересует три основные статистические характеристики: математическое ожидание, дисперсия (или стандарт) и структура ряда, заданная автокорреляционной функцией и коррелограммой. Характер изменения этих статистик и требуется для анализа ряда.

Чаще всего под трендом понимается тенденция изменения среднего, когда СФ представлена колебательным процессом в окрестности медленно возрастающего или убывающего направления.

Второй тип трендов – это тренд дисперсии. В этом случае

во времени меняется амплитуда колебаний переменной. Иными словами, наблюдаемый процесс гетероскедастичен7. Случайные функции могут иметь возрастающее/убывающее среднее и возрастающую/убывающую дисперсию. Разброс (границы) реали-

7 Гетероскедастичность (англ. heteroscedasticity) – понятие, используемое в прикладной статистике, означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной модели.

191

заций СФ, а соответственно и дисперсии, может иметь и хаотический характер (рис. 6.10, в).

Отдельный тип тренда, который по реализации СФ не всегда фиксируется, – изменение величины корреляции между текущими и предшествующими значениями ряда, т.е. тренд автоковариации и автокорреляции.

Проводя разложение ряда на компоненты, мы, как правило, подразумеваем под трендом изменение среднего уровня переменной, т.е. тренд среднего. В рамках анализа тренда среднего выделяют следующие основные способы аппроксимации временных рядов и соответствующие основные виды трендов среднего.

Как правило, временные ряды в промышленности имеют очень сложный вид. В них могут проявляться, например, как общая тенденция возрастания/убывания, так и некоторые сезонные изменения, на которые могут накладываться случайные флуктуации. По этой причине для анализа временных рядов оказывается полезным выделить и рассмотреть отдельно каждую компоненту. Для того чтобы можно было разложить конкретный ряд на эти составляющие, требуется сделать какие-то допущения о том, какими свойствами должны обладать эти составляющие.

Желательно также построить сначала формальную статистическую модель, которая бы включала в себя в каком-то виде эти составляющие, затем оценить ее, а после этого на основании полученных оценок вычленить составляющие. Однако построение формальной модели является сложной задачей. В частности, из содержательного описания не всегда ясно, как моделировать те или иные компоненты. Например, тренд может быть детерминированным или стохастическим.

Аналогично сезонные колебания можно комбинировать с помощью детерминированных переменных или с помощью стохастического процесса определенного вида. Компоненты временного ряда могут входить в него аддитивно или мультипликативно. Аддитивная модель применяется в тех случаях, когда анализируемый временной ряд имеет приблизительно одинако-

192

вую амплитуду колебаний на протяжении всей длины ряда. Мультипликативная модель применяется в тех случаях, когда анализируемый временной ряд имеет возрастающую (уменьшающуюся) амплитуду колебаний на протяжении всей длины ряда. Более того, далеко не все временные ряды имеют достаточно простую структуру, чтобы можно было разложить их на указанные составляющие.

В процессе анализа тренда среднего чаще всего используют следующие основные способы аппроксимации временных рядов и соответствующие основные виды трендов среднего. Полиномиальный тренд:

xt a0 a1 t1

ap tp .

(6.8)

Компоненты временного ряда могут входить в уравнение тренда аддитивно или мультипликативно. Если степень уравнения р = 1, имеем линейный тренд. Он используется, если имеется отчетливая тенденция графика к равномерному росту или снижению. Экспоненциальный тренд:

xt ea0 ea1 t

... eap tp .

(6.9)

Гармонический тренд:

 

 

xt R cos t ,

(6.10)

где R – амплитуда колебаний, – угловая частота, – фаза. Тренд, выражаемый логистической функцией:

xt k / 1 b e at .

(6.11)

Методология оценивания параметров полиномиального и экспоненциального трендов производится с помощью метода наименьших квадратов. Гармонический тренд оправдан, когда в составе временного ряда отчетливо прослеживаются периодические колебания, например сезонные. При этом, если частота ω известна (или ее можно оценить), то функцию (6.10) несложно представить в виде линейной комбинации синуса и косинуса:

193

xt = α cos(ωt) + β sin(ωt) и, рассчитав векторы cos(ωt) и cos(ωt),

также воспользоваться методом наименьших квадратов (МНК) для оценивания параметров α и β.

а

 

б

 

 

 

 

 

 

в

г

Рис. 6.10. Варианты трендов: а – линейный тренд среднего, дисперсия стационарна; б – нелинейный тренд среднего, дисперсия стационарна; в – линейный тренд среднего, дисперсия нестационарна; г – нелинейный тренд среднего, дисперсия нестационарна, она увеличивается (гетероскедастичность)

Логистическая функция имеет ограниченную сферу применения, её использование оправдано лишь в том случае, если наблюдения в исходном временном ряду представлены строго через равные интервалы.

Кроме перечисленных функций, могут быть подобраны и другие математические формулы, адекватно отражающие вре-

194

менные изменения анализируемого показателя. Зависимость уровней динамического ряда от фактора времени можно считать частным случаем корреляционной зависимости. Параметры уравнения, как правило, определяются методом наименьших квадратов. Использование линейных уравнений позволяет выявить направление основной тенденции и дать её функциональное описание. Как правило, строится несколько моделей, из них выбирается та, которая наиболее адекватно отражает существующую динамику. Полиномиальные модели более высоких порядков будут точнее описывать исходный временной ряд. Однако при выборе трендовой модели из достаточно схожих уравнений стоит отдавать предпочтение более простым функциям, поскольку надежность определения их параметров, как правило, выше. Остатки от этой модели можно аппроксимировать сезонной или циклической составляющей. Построенная динамическая модель может использоваться для прогнозирования дальнейшего развития изучаемого явления.

6.2.3.3. Периодичные колебания, сезонность

Временной ряд, приведенный на рис. 6.9, можно отнести к стационарному, для приведения его к полностью стационарному виду из него можно удалить тренд. На рис. 6.11 показан остаток после удаления тренда, он по-прежнему имеет циклический характер, но колебания уже относительно нулевого среднего значения. Границы циклических колебаний значений относительно нуля на всём протяжении графика и среднее значение на разных участках графика не имеют строго линейного характера, что свидетельствует о необходимости использования в дальнейшем более сложного нелинейного уравнения для тренда.

Построим автокорреляционную функцию для временного ряда с удалённым трендом (рис. 6.12). Из графика видно, что автокорреляционная функция имеет высокие значения с шагом четыре лага как в области положительных корреляций, так и в области отрицательных значений, что подтверждает циклический характер изменения суммарного содержания солей в рас-

195

солах в разное время года. Корреляция уменьшается с – 0,689 (лаг 2) до –0,578 на лаге 14.

В области положительных значений наблюдается аналогичный спад корреляций по мере увеличения лага.

15

10

5

0

5

10

15

Рис. 6.11. Временной ряд с удалённым линейным трендом, где С – концентрация солей

Выводы о наличии либо отсутствии сезонности можно сделать на основе опыта исследователя, анализа графиков и аналитическим методом выявления сезонности. Последний заключается в построении коррелограммы исходного ряда данных и оценке значимости коэффициентов автокорреляции и частной автокорреляции. Существуют следующие индикаторы, сигнализирующие о наличии сезонности в исходном ряде данных:

коэффициент автокорреляции оказывается значимым на лаге выше третьего порядка, что указывает на наличие сезонности данного порядка [80];

коэффициент частной автокорреляции оказывается значимым на лаге выше третьего порядка, что также указывает на

196

наличие сезонности данного порядка либо порядка, следующего за данным лагом;

АКФ (автокорреляционная функция) затухает по сину-

соиде;

ЧАКФ (частная автокорреляционная функция) затухает по синусоиде [53; 80].

Аналогично сезонные колебания можно комбинировать с помощью детерминированных переменных или с помощью стохастического процесса определенного вида. Компоненты временного ряда могут входить в него аддитивно или мультипликативно. Аддитивная модель применяется в тех случаях, когда анализируемый временной ряд имеет приблизительно одинаковую амплитуду колебаний на протяжении всей длины ряда (рис. 6.10, а, б). Мультипликативная модель применяется в тех случаях, когда анализируемый временной ряд имеет возрастающую (уменьшающуюся) амплитуду колебаний на протяжении всей длины ряда. Более того, далеко не все временные ряды имеют достаточно простую структуру, чтобы можно было разложить их на указанные составляющие.

Рис. 6.12. График автокорреляционной функции

197

Вычислим сезонную декомпозицию временного ряда с удалённым трендом и выведем их на график (рис. 6.13).

Рис. 6.13. Описание циклической составляющей

График представлен в виде строгих циклических колебаний от нулевого среднего. Вычислить тренд и сформировать сезонный остаток можно иначе. Выведем в окне Фурье («Спектральный анализ») переменную (Пер 7) и активируем опцию «Результаты спектрального анализа» (рис. 6.14).

Рис. 6.14. Анализ Фурье в программе Statistica

198

Теория спектрального анализа основана на равносильности представления функций во временной и частотной областях с помощью преобразования Фурье. Фундаментом СА временных рядов является теорема Винера – Хинчина, которая устанавливает связь между двумя характеристиками случайного процесса: спектральной плотностью мощности автоковариационной функцией [64]. На практике из-за неполноты имеющейся информации приходится иметь дело не со строгими характеристиками (спектральная плотность, АКВФ), а только с их оценками – периодограммой и коррелограммой соответственно [64].

Рис. 6.15. Окно спектрального анализа

СА позволяет оценить наличие циклических (сезонных) компонентов в имеющихся данных. По полученной периодограмме (графическому изображению спектральной плотности) временного ряда в частотной области можно выявить наличие или отсутствие выбросов, а по ним судить о присутствии периодического компонента в исследуемом сигнале. Такая возможность появляется вследствие того, что находящаяся под знаком интеграла показательная функция представляет собой так называемую базисную функцию, состоящую из набора гармонических составляющих.

Спектральная плотность определяет распределение энергии сигнала по частоте. Например, при исходном сигнале, представляющем собой гармонический сигнал (синусоиду опреде-

199

ленной частоты), его график показывает только одну вертикальную составляющую: вся энергия сосредоточена на одной частоте. Если сигнал – белый шум, то график такого сигнала представляет собой горизонтальную линию – равномерное распределение энергии [64].

В верхней части окна на рис. 6.15 показаны некоторые общие статистики для этого ряда и, кроме того, пять наибольших пиков периодограммы по частоте. Первые три самых больших пика имеют место на частотах: 0,25; 0,5 и 0,375. Эта информация полезна при анализе очень длинных рядов (например, содержащих порядка 100 000 наблюдений), которые не могут быть отображены на одном графике. Однако в этом случае может быть легко получена периодограмма, при построении которой используется вся информация (см. рис. 6.16). Периодограмма появляется после инициирования в окне на рис. 6.15 кнопки «Периодограмма». Периодограмма – графическое изображение оценки модуля преобразования Фурье автокорреляционной функции стационарного временного ряда или случайного процесса. Это графическая форма оценки спектра функции автокорреляции. Ее еще можно рассматривать как график зависимости мощности процесса, или квадрата амплитуды, от частоты. При анализе периодограммы нужно обращать особое внимание на ее пики. Большой пик в области некоторой частоты ω0 указывает на то, что в спектральном разложении автокорреляционной функции присутствует соответствующая гармоническая компонента. Чем выше и резче выделен пик, тем большая часть мощности сосредоточена около частоты ω0 и тем большую роль играет эта частота в описании соответствующего случайного процесса или временного ряда [64; 80].

На нашей периодограмме наблюдается самый большой пик, который находится на частоте, равной 0,25. Для просмотра значений всей периодограммы необходимо вернуться в окно «Результаты спектрального анализа» и щелкнуть кнопку «Итог», чтобы увидеть все значения периодограммы (и другие результаты) в таблице результатов [64]. В табл. 6.3 отображены результаты с наибольшим пиком, установленным по периодо-

200

Соседние файлы в папке книги