Лекция 13
.pdfТема 13 Основные типы задач, решаемых на предприятиях автомобильного транспорта
1 Регрессионный анализ результатов экспериментов
2 Эмпирические функции регрессии
3 Метод наименьших квадратов
4 Алгоритм определения параметров эмпирической формулы методом наименьших квадратов в Excel
5 Определение уравнений регрессии с помощью функций в Excel
13.1 Регрессионный анализ экспериментальных данных
Часто целью исследования является определение функциональной связи между факторами и откликом (реакцией модели) по данным, полученным при экспериментах с моделью объекта или непосредственно с объектом. Такая цель достигается регрессионным анализом значений факторов х и отклика у.
Под регрессией в теории вероятностей и математической статистике понимают зависимость среднего значения какой-либо величины от некоторой другой (других) величины.
Уравнение регрессии выражает среднюю величину одного признака как функцию другого.
Построение уравнение регрессии осуществляется в два этапа:
–определение вида аналитической зависимости y=f(x);
–оценка параметров выбранной модели.
Регрессионный анализ – это совокупность методов построения и исследования регрессионной зависимости между величинами (в нашем случае между факторами и откликом) по статистическим данным. Статистические данные накапливаются при проведении эксперимента.
Формальная схема эксперимента представлена на рисунке 13.1.
Рисунок 13.1 – Формальная схема эксперимента
Прямоугольник представляет исследуемый объект или его математическую модель.
xi - значения факторов,
ξ - случайный фактор, помеха. Будем считать, что эта случайная величина имеет нормальное распределение с математическим ожиданием равным нулю.( атемати еское о идание – среднее значение случайной величины при стремлении количества выборок или количества её измерений (иногда говорят – количества испытаний) к бесконечности.) Влияние помехи на отклик аддитивное, то есть ее случайные значения прибавляются к значениям отклика;
у - искомая функциональная зависимость между факторами и откли-
ком.
Регрессионный анализ – это инструмент для количественного определения значения одной переменной на основании другой.
13. 2 Эмпири еские функции регрессии
Парная (простая) линейная регрессия даёт нам правила, определяю-
щие линию регрессии, которая лучше других предсказывает наиболее вероятные значения одной переменной на основании другой (переменных всего две).
По оси Y располагают переменную, которую необходимо предсказать (зависимую), а по оси Х – переменную, на основе которой будет осуществляться предсказание (независимую).
Зависимая переменная – это переменная в регрессии, которую нельзя изменять, её изменение является следствием влияния независимой переменной (переменных).
Независимая переменная – это та переменная в регрессии, которую можно изменять.
Коэффициенты регрессии – это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой.
Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Наиболее часто для характеристики связей экономических показателей используют следующие типы функций: линейная, гиперболическая, показательная, логарифмическая, параболическая или степенная функции.
Наиболее часто при проведении исследований встречаются линейные, параболические, гиперболические, степенные, экспоненциальные зависимости (рисунок 13.2).
Рисунок 13.2 – Виды аналитических зависимостей
Парная (простая) линейная регрессия
yi bxi a
Yi – зависимая переменная Xi – независимая переменная
a – константа, определяет точку пересечения прямой с осью Y.
b – угловой коэффициент, характеризует наклон прямой. Коэффициент регрессии b показывает, на какую величину в среднем изменится результативный признак Yi, если переменная Xi увеличится на единицу своего измерения.
Построение оценки для функции f (x) существенно упрощается, если функция f (x) допускает параметризацию, т.е. зависит от набора коэффициен-
тов (параметров), которые и необходимо определить. На практике в качестве функции f (x) для парной регрессии используются следующие виды функций (таблица 13.1).
Таблица 13.1 – Виды функций регрессии
№ п/п |
Вид |
Функция |
|
|||
|
|
|
|
|
|
|
1. |
Линейная |
yi |
bxi |
a |
||
|
|
|
|
|
|
|
2. |
Гиперболическая |
yi |
|
b |
a |
|
|
||||||
|
|
|
|
xi |
|
|
3. |
Экспоненциальная |
y bexi |
a |
|||
|
|
i |
|
|
|
|
|
|
|
||||
4. |
Степенная |
y ax b |
||||
|
|
i |
|
|
i |
|
|
|
|
||||
5. |
Показательная |
y abxi |
||||
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
Таким образом, задача регрессионного анализа сводится к определению коэффициентов а и b
Возникает вопрос: какой тип функции взять? Для ответа на этот вопрос используют следующие подходы.
1 Аналити еский.
Анализируется априорная информация о содержательной экономической сущности исследуемой зависимости. На основе этого анализа выбирается подходящий вид функции f(x).
Например, для шахт другого угольного района было установлено, что зависимость между производительностью шахтера и толщиной угольного пласта является линейной. Поэтому в качестве функции f(x) для примера
2.1.1также можно принять линейную функцию f (x) 0 1 x.
2 Графи еский.
Вдекартовой системе координат строят n точек с координатами (xi, yi), определяемыми заданной пространственной выборкой. Построенная диаграмма называется диаграммой рассеяния (или полем корреляции). Затем на основе визуального анализа расположения точек принимают решение о типе функции f(x).
Заметим, что из-за наличия случайной составляющей εi , значения yi имеют определенный разброс и не нужно подбирать f(x), проходящую через все точки (тем самым возмущение ε было бы включено в функцию регрессии f (x) ). Необходимо, чтобы f (x) в «равной степени близости» проходила около всех точек диаграммы рассеяния.
3 Экспериментальный.
Для нескольких наиболее подходящих функций регрессий строятся соответствующие уравнения регрессии (т.е. вычисляются коэффициенты уравнения регрессии). Выбор «наилучшего» уравнения осуществляется путем сравнения некоторых показателей, характеризующих близость уравнения регрессии к заданным значениям yi .
Однако, при таком выборе вида регрессии необходимо помнить о приведенном ниже принципе минимальной сложности. В силу своей трудоемкости экспериментальный метод подразумевает применение вычислительной техники и соответствующего программного обеспечения (например, табличного процессора Excel).
Принцип минимальной сложности можно сформулировать следующим образом: при наличии нескольких альтернативных функций f (x) первоначально принимают самую простую (линейную) и, если она не адекватна заданной выборке, то переходят к более сложной функции f (x) .
13.3 етод наименьших квадратов ( НК)
Для определения наилучшей линии регрессии применяют метод наименьших квадратов (МНК), т.е.– подбирают такую линию регрессии чтобы общая сумма квадратов отклонений значений зависимой переменной была наименьшей. Другими словами в МНК критерием оптимизации служит условие
n
S(а,b) ( yi (bxi a))2
i 1
Найденные из этого условия коэффициенты a и b обеспечивают минимальные отличия значений функции yi bxi a от наблюдаемых ординат yi.
Чем больше абсолютное значение коэффициента регрессии, тем значительнее влияние факторного признака на результативный признак.
Знак коэффициента регрессии говорит о характере влияния на результативный признак. Если коэффициент регрессии имеет знак плюс, то с увеличением фактора результатный признак возрастает. Если коэффициент регрессии имеет знак минус, то с его увеличением результативный признак уменьшается.
13.4 Алгоритм определения параметров эмпири еской формулы методом наименьших квадратов в Excel
1. Перенести в таблицу Excel результаты экспериментальных данных и построить точечный график для определения вида уравнения регрессии (рисунок 13.3).
Рисунок 13.3 – Построение графика экспериментальных данных
2.Включить в Excel надстройку “Поиск решения”.
3.Выделить в Excel ячейки для постоянных коэффициентов регрессии и записать само уравнение регрессии используя относительные (для xi) и абсолютные (для a и b) ссылки (рисунок 13.4).
Рисунок 13.4 – Заполнение таблицы Excel
4. Создать в Excel (рисунок 13.5) целевую ячейку с формулой для определения суммы наименьших квадратов =СУ КВРАЗН(B3:G3;B7:G7)
Рисунок 13.5 – Создание целевой ячейки
5. Вызвать функцию Поиск решения и заполнить ДО Поиск решения следующим образом (рисунок 13.6):
вполе Установить целевую ячейку устанавливаем ссылку на целевую ячейку в Excel;
переключатель Равной ставим на минимальному зна ению;
вполе Изменяя значения ячейки вводим ссылки на ячейки с числовыми значениями постоянных коэффициентов регрессии.
Нажимаем кнопку Выполнить.
Рисунок 13.6 – Заполнение ДО Поиск решения
6 Сохраняем полученное решение (рисунок 13.7).
Рисунок 3.7 – Сохранение решения
7. Добавить на область Диаграммы полученную теоретическую линию регрессии (рисунок 13.8).
Рисунок 13.8 – Результаты построения линейной регрессии
8. Проверить квадратичную зависимость (см. п. 3-7) (рисунок 13.9)
Рисунок 13.9 – Результаты построения параболической регрессии
13.5 Определение уравнений регрессии с помощью функций Excel
Так как задача отыскания регрессионной зависимости очень важна, в Excel введен набор функций, которые позволяют решать эту задачу. Эти функции основаны на методе наименьших квадратов. В качестве результата выдаются не только коэффициенты аппроксимирующей функции, но и статистические характеристики полученных результатов.
ВExcel имеется несколько функций для построения линейной регрессии,
вчастности: ЛИНЕЙН, НАКЛОН и ОТРЕЗОК.
А также несколько функций для построения экспоненциальной линии тренда, в частности: РОСТ, ЛГРФПРИБЛ.
Достоинствами инструмента встроенных функций для регрессионного анализа являются:
достаточно простой однотипный процесс формирования рядов данных исследуемой характеристики для всех встроенных статистических функций;
стандартная методика построения линий тренда на основе сформированных рядов данных;
возможность прогнозирования поведения исследуемого процесса на необходимое количество шагов вперед или назад.
А к недостаткам относится то, что в Excel нет встроенных функций для создания других (кроме линейного и экспоненциального) типов линий тренда. Это обстоятельство часто не позволяет подобрать достаточно точную мо-
дель исследуемого процесса, а также получить близкие к реальности прогнозы.
Функция ЛИНЕЙН
Функция ЛИНЕЙН вычисляет коэффициенты а и b прямой линии y=ax+b, которая наилучшим образом аппроксимирует имеющиеся данные, а также дополнительную регрессионную статистику. Функция возвращает массив данных, который описывает полученную прямую. Синтаксис функции:
ЛИНЕЙН(известные_y, [известные_x], [константа], [статистика])
Известные_y. – Обязательный аргумент. Множество значений y, которые уже известны для соотношения y=ax+b.
Известные_x. Необязательный аргумент. Множество значений x, которые уже известны для соотношения y=ax+b
Константа. Необязательный аргумент. Логическое значение. Если аргумент Константа = 0, то b принудительно полагается равным нулю,
т.е. y=ax.
Статистика. Необязательный аргумент. Логическое значение. Если аргумент Статистика = 0 или опущен, то вычисляются только коэффициенты a и b, а если = 1, то выдаются дополнительные статистические характеристики.
На рисунке 13.10 показан пример использования функции ЛИНЕЙН для решения задач.
Рисунок 13.10 – Пример использования функции ЛИНЕЙН