- •В.Л. Шарстнёв компьютерные информационные технологии Курс лекций
- •1. Введение в курс “Компьютерные информационные технологии”
- •Тема 1.1. Основные понятия информационных технологий
- •Составляющие информационных технологий
- •Классификация информационных технологий.
- •Тема 1.2. Информационные ресурсы автоматизированных систем обработки экономической информации
- •Тема 1.3. Техническое обеспечение систем обработки экономической информации Классификация компьютеров
- •Периферийные устройства
- •Тема 1.4. Программное обеспечение обработки экономической информации Классификация компьютерных программ
- •Тема 1.5. Математическое обеспечение обработки экономической информации
- •Регрессионный и корреляционный анализ
- •Информационная поддержка процессов моделирования и управления
- •Тема 1.6. Технологии искусственного интеллекта
- •2. Сетевые информационные технологии
- •Тема 2.1. Компьютерные сети: основные понятия и принципы построения
- •Тема 2.2. Internet / Intranet – технологии
- •Обзор браузеров
- •Группы тегов нтмl
- •Назначение заголовка
- •Основные контейнеры заголовка
- •Теги тела документа
- •Теги управления разметкой
- •Теги управления отображением символов
- •Теги, управляющие формой отображения шрифта
- •Создание списков в html
- •Комментарии в языке html
- •Гипертекстовые ссылки
- •Использование графики в html
- •Активные изображения (map)
- •Средства описания таблиц в html
- •Задание формы в html
- •Тема 2.3. Специализированные компьютерные сети
- •Электронные деньги
- •Интернет-банкинг
- •Интернет-трейдинг
- •3. Корпоративные информационные технологии
- •Тема 3.1. Корпоративные информационные системы
- •Тема 3.2. Информационное обеспечение корпоративных информационных систем
- •4. Технологии обеспечения безопасности информационных систем
- •Тема 4.1. Информационная безопасность: основные понятия
- •Тема 4.2. Обеспечение безопасности информационных систем
- •5. Системы автоматизации в предметной области
- •Тема 5.1. Предметная область как объект автоматизации
- •Тема 5.2. Уровни автоматизации бизнес – процессов
- •6. Основы проектирования компьютерных информационных технологий
- •Тема 6.1. Реинжиниринг бизнес – процессов
- •Тема 6.2. Проектирование автоматизированных систем обработки информации
- •Шарстнёв Владимир Леонидович компьютерные информационные технологии
- •Редактор: н.С. Любочко
Регрессионный и корреляционный анализ
Регрессионный и корреляционный анализ позволяет установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других величин X, и делать прогнозы значений Y. Параметр Y, значение которого нужно предсказывать, является зависимой переменной. Параметр X, значения которого нам известны заранее и который влияет на значения Y, называется независимой переменной. Например, X – величина затрат компании на рекламу своего товара, Y – объем продаж этого товара и т.д.
Корреляционная зависимость Y от X – это функциональная зависимость вида
,
где – среднее арифметическое (условное среднее) всех возможных значений параметра Y, которые соответствуют значению . Уравнение называется уравнением регрессии Y на X, функция – регрессией Y на X, а ее график – линией регрессии Y на X.
Основная задача регрессионного анализа – установление формы корреляционной связи, т.е. вида функции регрессии (линейная, квадратичная, показательная и т.д.).
Метод наименьших квадратов
Метод наименьших квадратов позволяет определить коэффициенты уравнения регрессии таким образом, чтобы точки, построенные по исходным данным , лежали как можно ближе к точкам линии регрессии. Формально это записывается как минимизация суммы квадратов отклонений (ошибок) функции регрессии и исходных точек
,
где – значение, вычисленное по уравнению регрессии; – отклонение (ошибка, остаток); n – количество пар исходных данных.
Простейший вариант модели - прямая линия на плоскости.
где b - значение y при x=0; a=tg(α) - тангенс угла наклона прямой по отношению к оси x.
Возможные варианты модели Анализ отклонений Первый шаг Второй шаг
Третий шаг
Четвертый шаг
Пятый шаг
Понятие отклонения для случая линейной регрессии
В регрессионном анализе предполагается, что математическое ожидание случайной величины равно нулю и ее дисперсия одинакова для всех наблюдаемых значений Y. Отсюда следует, что рассеяние данных возле линии регрессии должно быть одинаково при всех значениях параметра X. В случае, показанном на рисунке, приведенном ниже, данные распределяются вдоль линии регрессии неравномерно, поэтому метод наименьших квадратов в этом случае неприменим.
Неравномерное распределение исходных точек вдоль линии регрессии
Основная задача корреляционного анализа
Основная задача корреляционного анализа – оценка тесноты (силы) корреляционной связи. Теснота корреляционной зависимости Y от X оценивается по величине рассеяния значений параметра Y вокруг условного среднего . Большое рассеяние говорит о слабой зависимости Y от X, либо об ее отсутствии и, наоборот, малое рассеяние указывает на наличие достаточно сильной зависимости.
Коэффициент детерминации (по другому – детерминированности) показывает, на сколько процентов () найденная функция регрессии описывает связь между исходными значениями параметров X и Y
,
где – объясненная вариация; – общая вариация.
Графическая интерпретация коэффициента детерминации
для случая линейной регрессии
Соответственно, величина показывает, сколько процентов вариации параметра Y обусловлены факторами, не включенными в регрессионную модель. При высоком () значении коэффициента детерминации можно делать прогноз для конкретного значения .
Линейная регрессия
Коэффициенты линейной регрессии вычисляются по следующим формулам (все суммы берутся по n парам исходных данных)
.
Нелинейная регрессия
Рассмотрим наиболее простые случаи нелинейной регрессии: гиперболу, экспоненту и параболу. При нахождении коэффициентов гиперболы и экспоненты используют прием приведения нелинейной регрессионной зависимости к линейному виду. Это позволяет использовать для вычисления коэффициентов функций регрессии формулы линейной зависимости.
Гипербола
При нахождении гиперболы вводят новую переменную , тогда уравнение гиперболы принимает линейный вид . После этого используют формулы для нахождений линейной функции, но вместо значений используются значения
; .
Экспонента
Для приведения к линейному виду экспоненты проводят логарифмирование
;
;
.
Введя переменные и , тогда , откуда следует, что можно применять формулы линейной зависимости, в которых вместо значений надо использовать
; .
При этом получаем численные значения коэффициентов и , от которых надо перейти к и , используемых в модели экспоненты. Исходя из введенных обозначений и определения логарифма, получаем
, .
Парабола
Для нахождения коэффициентов параболы необходимо решить линейную систему из трех уравнений
При вычислении коэффициента детерминации экспоненты все значения параметра Y (исходные, регрессионные, среднее) необходимо заменить на их логарифмы, например, – на и т.д.