4459
.pdf11
ЗАДАНИЕ 7
Для расчета значения вероятности использовать функцию «ХИ2ТЕСТ», срав-
нить полученный результат с результатом из задания 5
Лабораторная работа № 3
Программно-статистический комплекс Microsoft Excel. Корреляционный и регрессионный анализ
Цель работы: изучение принципов корреляционного и регрессионного анали-
за, а также научиться рассчитывать и оценивать значимость регрессии в табличных процессорах
ЗАДАНИЕ 1
В соответствии с полученным индивидуальным заданием вычислить значение коэффициента корреляции для двух вариантов распределения случайных величин X
и Y и сделать выводы о существовании связи между этими величинами для каждого варианта.
Расчет коэффициента корреляции произвести двумя способами:
1.Либо через пакет анализа, либо, используя функции «КОРЕЛЛ»
2.Используя следующую формулу расчета коэффициента корреляции
|
|
|
|
n |
|
|
|
|
|
n |
|
n |
|
|
|
|
|
|
|
|
|
n x j y j |
|
|
|
|
|
y j |
|
|
|
|
|||
|
|
|
|
|
x j |
|
|
|
|
||||||||
rxy |
|
|
|
j 1 |
|
|
|
|
|
j 1 |
|
j 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
n |
|
n |
|
2 |
|
n |
|
|
n |
2 |
|
|
||||
|
|
|
n x2j |
|
x j |
|
|
n y2j |
|
y j |
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j 1 |
j 1 |
|
|
|
|
j 1 |
|
|
j 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ЗАДАНИЕ 2
Объясните следующее утверждение: «Независимые переменные всегда некор-
релированы, но не все некоррелированные величины независимы».
12
Для этого определите корреляцию по ковариации и дисперсии для первого и второго варианта задания 1.
|
|
(x j |
|
|
|
|
|
|
|
sxy |
|
x)(yi |
y) |
rxy |
|
||||||
sxy |
|
|
|
|
|
|
|
sxsy |
||
n 1 |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
ЗАДАНИЕ 3 |
|
|
В соответствии с полученным индивидуальным заданием, по выборочным данным, представленным в таблице, требуется установить наличие взаимосвязи ме-
жду указанными показателями.
ЗАДАНИЕ 4
Использование пакета анализа для расчетов параметров уравнения линейной
регрессии и проверки его адекватности исследуемому процессу. |
Методиче- |
|
ские указания: |
Режим |
работы |
«Регрессия» может быть вызван из пункта «Анализ данных» |
|
|
В диалоговом окне данного режима задаются следующие параметры: |
1. |
|
Входной интервал Y - вводится ссылка на ячейки, содержащие данные по результи- |
||
рующему признаку (1 столбец); |
2. Входной |
интер- |
вал X - вводится ссылка на ячейки, содержащие факторные признаки (до 16 столб-
цов);
3. Флажок Метки - устанавливается в активное состояние, если первая строка во входном диапазоне содержит заголовки. 4. Уро-
вень надежности - установите данный флажок, если необходимо ввести уровень на-
дежности отличный от уровня 95%, который применяется по умолчанию.
5. Константа ноль - установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т.е. свободный
|
13 |
коэффициент равен 0); |
6. Остатки - |
выводить остатки (разность между значением функции регрессии и эмпирических
данных); 7. Стандартизированные остат-
ки - установите данный флажок в активное состояние, если требуется включить в выходной диапазон столбец стандартизированных остатков
8. График остатков - Выводит на рабочий лист точечные графики зависимости остатков от факторных признаков;
9.График подбора - Выводит на рабочий лист точечные графики зависимости теоретических результативных значений от факторных признаков;
10.График нормальной вероятности - Выводит на рабочий лист точечный
график зависимости наблюдаемых значений от интервалов.
Постройте анализ регрессии, используя пакет анализа для случаев, представ-
ленных в индивидуальном задании.
Методические указания для описания столбцов и строк полученных при ис-
следовании данных:
1. Столбец df - число степеней свободы
Для строки регрессия число степеней свободы определяется количеством фак-
торных признаков Для строки
остатки число степеней свободы определяется числом наблюдений за минусом ко-
личества переменных в уравнении регрессии. |
|
2. Столбец SS - сумма квадра- |
тов отклонений. |
Для |
строки регрессия это сумма |
квадратов отклонений теоретических данных от среднего |
||
Для строки остатки это сумма квадратов отклонений эмпирических данных от |
||
среднего |
|
|
3. Столбец MS - дисперсия (SS/df) |
|
|
Для строки регрессия это факторная дисперсия |
|
|
Для строки остатки остаточная дисперсия |
4. |
14
Столбец F - расчетное значение F - критерия Фишера, Вычисленное по формуле
«MS(Регрессия)/MS(Остатки)» |
5. |
Столбец |
|
значимость F - значение уровня значимости, соответствующее вычисленному значе- |
|||
нию F. Определяется с помощью функции «FРАСП(F;df(регрессия);df(остатки))» |
|
||
6. Коэффициенты, посчитанные по методу наименьших квадратов |
|
7. |
|
Стандартная ошибка - стандартные ошибки коэффициентов |
|
8. |
t- |
статистика - расчетные значения t-критерия, вычисляемая по формуле «Коэффици-
енты/Стандартная ошибка»
9.P-значение - значение уровней значимости, соответствующие вычисленным значениям. Определяется с помощью функции «СТЬЮДРАСП(t,n-m-1)»
10.Нижние 95% и Верхние 95% - соответственно нижние и верхние границы
доверительных интервалов для коэффициентов регрессии; 11. В таблице
ВЫВОД ОСТАТКА - сгенерированы теоретические значения результативного при-
знака и значения остатков. 12. В таблице ВЫВОД
ВЕРОЯТНОСТИ - сгенерированы интервалы перцентилей и соответствующие им эмпирические значения.
Методические указания по функции «Анализ данных «Коэффициенты регрес-
сии», которая позволяет построить уравнение регрессии:
1. Значение множественного коэффициента детерминации R^2
Чем больше значение данного показателя, тем отчетливее зависимость резуль-
тативного признака от факторных, при R^2>0.7, говорят, что выбранные факторы существенно влияют на результативный признак и подтверждается правильность
включения их в модель. |
2. Уровень значимости |
|
Если данный показатель меньше уровня доверия, указанного при регрессион- |
||
ном анализе, то подтверждается значимость R^2. |
Еще |
один |
способ проверки значимости R^2 основан на проверке попадания значения F в кри-
тическую область, границы этой обасти рассчитываются по формуле:
(Fпркр, , )
Fпркр, FРРАСПОБ( , k Ф , k о )
k Ф , k О число степеней свободы
15
Если рассчитанный показатель из таблицы регрессии попадает в критический интервал, то гипотеза о незначительности влияния отвергается, т.е. коэффициент де-
терминации является значимым. 3. Проверка значи-
мости коэффициентов регрессии Значения коэффициентов должны быть меньше своих стандартных ошибок.
Коэффициенты, для которых это требование не выполняется можно исключить из уравнения регрессии. О значимости можно судить и по значению показателя P-
значение в таблице коэффициентов. Это значение должно быть меньше заданного уровня значимости.
Лабораторная работа № 4
Общие сведения о программно-статистическом комплексе STATISTICA. Основные приемы работы
Цель работы: изучение основных приемов работы в программно-
статистическом комплексе STATISTICA
STATISTICA – это интегрированная система анализа и управления данными.
Все аналитические инструменты, имеющиеся в системе, доступны пользова-
телю и могут быть выбраны с помощью альтернативного пользовательского интер-
фейса. Пользователь может всесторонне автоматизировать свою работу, начиная с применения простых макросов для автоматизации рутинных действий вплоть до уг-
лубленных проектов, включающих в том числе интеграцию системы с другими при-
ложениями или Интернет. Технология автоматизации позволяет даже неопытному пользователю настроить систему на свой проект.
Процедуры системы STATISTICA имеют высокую скорость и точность вы-
числений.
Гибкая и мощная технология доступа к данным позволяет эффективно рабо-
16
тать как с таблицами данных на локальном диске, так и с удаленными хранилищами данных.
Система обладает следующими общепризнанными достоинствами:
-содержит полный набор классических методов анализа данных: от основных методов статистики до продвинутых методов, что позволяет гибко организовать анализ;
-является средством построения приложений в конкретных областях;
-в комплект поставки входят специально подобранные примеры, позволяю-
щие систематически осваивать методы анализа;
- отвечает всем стандартам Windows, что позволяет сделать анализ высокоин-
терактивным;
-система может быть интегрирована в Интернет;
-поддерживает web-форматы: HTML, JPEG, PNG;
-данные системы STATISTICA легко конвертировать в различные базы дан-
ных и электронные таблицы;
- поддерживает высококачественную графику, позволяющую эффектно визуа-
лизировать данные и проводить графический анализ;
- является открытой системой: содержит языки программирования, которые позволяют расширять систему, запускать ее из других Windows-приложений, на-
пример, из Excel.
STATISTICA состоит из набора модулей, в каждом из которых собраны тема-
тически связные группы процедур. При переключении модулей можно либо остав-
лять открытым только одно окно приложения STATISTICA, либо все вызванные ра-
нее модули, поскольку каждый из них может выполняться в отдельном окне (как самостоятельное приложение Windows).
При исполнении модулей STATISTICA как самостоятельных приложений в любой момент времени в любом модуле имеется прямой доступ к «общим» ресур-
сам (таблицам данных, языкам BASIC и SCL, графическим процедурам).
17
Настройка системы STATISTICA. В системе предусмотрена возможность на-
стройки множества характеристик и интерфейса программы в соответствии с пред-
почтениями пользователя. Можно изменить, например, процесс запуска, а именно
— отменить установленный по умолчанию полноэкранный режим, изменить вид стартовой панели, панели инструментов, таблиц с данными и другие параметры.
Настройка общих параметров системы. Настройку общих параметров системы изменить в любой момент работы с программой. Эти параметры определяют:
- общие аспекты поведения программы (максимизация окна STATISTICA при запуске, Рабочие книги, инструмент Перетащить и отпустить - Drag-and-Drop, авто-
матические связи между графиками и данными, многозадачный режим и т. д.),
- режим вывода (например, автоматическая распечатка таблиц или графиков,
18
форматы отчетов, буферизация и т. д.),
-общий вид окна приложения (значки, панели инструментов и т. д.),
-вид окон документов (цвета, шрифты).
Каждый из этих параметров можно настроить в соответствующем окне, дос-
туп к которому осуществляется через меню Сервис. На следующих рисунках пока-
заны два примера таких окон.
Все общие параметры могут быть настроены независимо от типа окна доку-
мента (например, таблица или график), которое активно в данный момент.
Настройка пользовательского интерфейса. При работе с системой
STATISTICA имеется возможность настройки пользовательского интерфейса про-
19
граммы таким образом, чтобы он стал более «продуманным» с точки зрения потреб-
ностей конкретного пользователя.
В зависимости от требований задачи и личных предпочтений (а также эстети-
ческих соображений) можно использовать разнообразные «режимы» и условия ра-
боты программы.
Поддержка нескольких различных конфигураций системы STATISTICA. До внесения специальных изменений STATISTICA будет хранить все текущие настрой-
ки и параметры по умолчанию.
20
ЗАДАНИЕ К ЛАБОРАТОРНОЙ РАБОТЕ
С целью закрепления изученного теоретического материала, необходимо под-
готовить в тезисной форме выступление (порядка 2-3 минут) посвященное основ-
ным приемам работы в программно-статистическом комплексе STATISTICA, а так-
же предоставить тезисы выступления в письменном и (или) электронном виде.
Лабораторная работа № 5
Методы описательной статистики в программно-статистическом комплексе STATISTICA
Цель работы: изучить методы описательной статистики в программно-
статистическом комплексе STATISTICA
В качестве примера используется файл «Adstudy.sta», который находится в папке «Examples» и поставляется вместе с программно-статистическом комплексом
STATISTICA.
Файл «Adstudy.sta» содержит 25 переменных и 50 наблюдений. Эти данные бы-
ли собраны путем социологического опроса в одном рекламном исследовании, где мужчины и женщины оценивали качество двух рекламных роликов. Каждому рес-
понденту случайным образом предлагался на просмотр один из двух рекламных ро-
ликов (ADVERT: 1 = CokeВ,2 = PepsiВ). Затем респонденты оценивали привлека-
тельность рекламы по 23 различным шкалам (с Меры 1 — Measur 1 до Меры 23 — Measur 23).
В каждой из шкал респонденты могли дать ответы по десятибалльной шкале, то есть выставить от 0 до 9 баллов. Пол респондента кодировался: 1 — МУЖЧИНА, 2 -
ЖЕНЩИНА.
Нажмите кнопку «Описательные статистики». Далее нажмите кнопку «Пере-