Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторния работа №1.doc
Скачиваний:
71
Добавлен:
12.03.2015
Размер:
242.69 Кб
Скачать

2. Практическое задание по работе с таблицами данных.

  1. Создать таблицу для ввода данных, которая содержит 2 переменных и 11 строк. Ввести сведения об авторе (авторах) – фамилию (фамилии), номер группы.

  2. Первой переменной присвоить имя К, второй - t.

  3. В качестве первого значения переменной t ввести номер группы (1, 2, ….21), остальные ячейки заполнить по арифметической прогрессии с шагом 10.

  4. В качестве первого значения переменной К ввести любое число в интервале от 0,1 до 0,9, остальные ячейки заполнить числами, близкими к геометрической прогрессии с шагом 2 или 3.

  5. Добавить переменные Y и X, значения переменных вычислить по формулам:

Y = ln(K), X = 1/(273+t).

Пример таблицы, полученной, если принять номер группы 5, а шаг геометрической прогрессии 2 приводится ниже.

  1. Сохранить таблицу в файле Arr№группы_№компьютера, например Arr305_11 или Arr226_05, в папке своей группы.

  2. Освоить операции по добавлению и удалению столбцов и строк таблицы данных.

3. Модуль Линейная множественная регрессия (MultipleRegression).

Математический анонс.

Одна из наиболее распространённых задач статистического исследования состоит в изучении связи между некоторыми наблюдаемыми переменными. Переменные, значения которых в эксперименте варьируются, называются факторами, а переменная, значения которой измеряются – откликом. Регрессионный анализ предназначен для установления (идентификации) функциональной зависимости между откликом Y и несколькими или одним факторами X1, X2,…Xn. В линейном регрессионном анализе эта зависимость предполагается линейной. В самом простом случае имеются две переменные Y и X. Требуется по m парам наблюдений (X1, Y1), (X2, Y2),,,,, (Xm, Ym) подобрать прямую линию, которая наилучшим образом приближает наблюдаемые значения. Понятие «наилучшим образом» может быть определено по-разному. Как правило, линия подбирается из условия минимума суммы квадратов отклонений расчетных значений отклика от экспериментальных значений по всем опытам, т.е. методом наименьших квадратов (МНК). Математически задача регрессионного анализа может быть сформулирована следующим образом. Значениям независимой переменной X отвечают значения зависимой переменной Y:

Yi = β0 + β1 * Xi + εi , i = 1,…m, (2.1)

где εi есть независимые случайные ошибки со средним 0, которые интерпретируются как ошибки наблюдений; β0, β1 - неизвестные параметры, описывающие прямую линию, которые следует оценить по наблюдениям (Xi, Yi), i = 1, … m. Уравнение (2.1) называется уравнением регрессии. По результатам наблюдений можно получить лишь приближенные значения (оценки) параметров β0, β1, которые обозначим b0, b1. Уравнение связи, в которое входят оценки параметров, называется приближенной или выборочной регрессией и записывается в виде:

Ŷ = b0 + b1 * X (2.2)

Коэффициенты b0 и b1 определяются из условия минимума Ф:

Ф = Ŷi - Yi )2.

Разность Ŷi - Yi называется остатком в i-ом опыте. По величине остатков можно судить о качестве подгонки линейной зависимости.

Выборочная регрессия (2.2) позволяет найти значение отклика при любом значении фактора не выполняя эксперимента.

Поиск приближенной однофакторной регрессии в модуле.

Осваивать модуль будем на примере решения конкретной задачи. Сознательно предлагается довольно простая задача однофакторной регрессии, чтобы сосредоточить внимание на инструментарии модуля. Освоив этот инструментарий, можно перейти к более сложным задачам, что и будет сделано в следующей лабораторной работе.

Задача. По экспериментальным значениям константы скорости реакции, полученным при различной температуре, определить параметры уравнения Аррениуса K0 и E. Уравнение Аррениуса представляет зависимость константы от температуры в виде:

K = K0 * e - (2.3)

Эту зависимость путем логарифмирования можно привести к линейному виду

Ŷ = b0 + b1 * X , (2.4)

где Y= ln(K), b0 = ln(K0), b1 = - , X = , размерность T - кельвины.

В таком случае для решения задачи необходимо найти значения коэффициентов линейной регрессии b0 и b1 и от них перейти к искомым параметрам:

К0 = e b0 (2.5)

E = b1 * R = b1 * 8,31 (2.6)

Обработка данных в модуле Линейная множественная регрессия выполняется в строго определенной последовательности, которая не зависит от характера анализируемых данных и включает четыре основных этапа:

1. Ввод исходных данных. В качестве экспериментальных данных в нашей задаче используем данные из файла, подготовленного в разделе 2. Пусть переменная K содержит значения константы, переменная t значения температуры в 0С, X - фактор, Y отклик в линейной регрессии (2.4). В качестве примера используем следующую таблицу, полученную в практическом задании.

2. Визуализация данных. Вполне логично приступая к поиску регрессии сначала построить графики зависимостей по данным. Графики можно построить в виде точек или в виде линии.

График зависимости K(t) в виде точек.

  • Щелкнуть ЛКМ в меню команд Graphs, выбрать Scatterplots;

  • В окне 2D Scatterplots выбрать закладку Quick, щелкнуть кнопку Variables;

  • В окне Select Variables for Scatterplot в левом списке выбрать ось абсцисс (X)– щелкнуть по t, в правом списке выбрать ось ординат (Y) – щелкнуть по K, опцию Linear fit отключить, щелкнуть по клавише ОК;

  • График появляется в окне Scatterplot, при этом окно 2D Scatterplots оказывается свёрнутым и соответствующая клавиша появляется в нижней части окна пакета, для построения следующего графика достаточно щелкнуть по кнопке 2D Scatterplots.

График зависимости Y(X) в виде прямой.

  • Щелкнуть ЛКМ по кнопке 2D Scatterplots на панели анализа в нижней части окна пакета;

  • В окне 2D Scatterplots выбрать закладку Advanced, щелкнуть кнопку Variables;

  • В окне Select Variables for Scatterplot в левом списке выбрать ось абсцисс – щелкнуть по X , в правом списке выбрать ось ординат – щелкнуть по Y и по ОК;

  • В поле Graph type выбрать Regular, в поле Fit выбрать Linear – линейный вид подбираемой зависимости, щелкнуть по клавише ОК;

  • На графике показаны точками данные из таблицы и линия регрессии, подобранная методом наименьших квадратов, причем над графиком приводится уравнение этой линии.

Линия регрессии

График зависимости Y(X) в виде прямой с указанием доверительных границ.

  • Проделать те же действия, что и при построении предыдущего графика, в окне закладки Advanced в группе Regression bands включить опцию Confidence level;

  • На графике пунктирными линиями указывается доверительная трубка. Все точки внутри трубки с вероятностью 95% соответствуют уравнению регрессии.

Доверительная

трубка

3. Вызов стартовой панели модуля и выбор переменных для регрессии. В стартовой панели задаются анализируемые переменные, выбирается метод (стандартный, с шагом вперёд, с шагом назад), определяется форма вывода результатов.

  • В меню команд выбрать Statistics, в контекстном меню щелкнуть Multiple Regression;

  • В окне стартовой панели Multiple Linear Regression выбрать закладку Quick или Advanced, щелкнуть по кнопке Variables, в левом списке открывшегося окна щелчком ЛКМ выбрать зависимую переменную (Dependent var.), в нашей задаче это Y, а в правом списке – независимую переменную (Independent var), в нашей задаче – X, щелкнуть по кнопке ОК;

  • В окне Multiple Linear Regression проверить сделанные назначения переменных и выбрать способ вывода результатов. Вывод результатов можно организовать в рабочую книгу Workbook или в индивидуальные окна. Для этого щелкнуть по кнопке Options, выбрать Output, в окне Analysis/Graph Output Manager выбрать Workbook или Individual windows (в данном случае рекомендуется Individual windows), щелкнуть по кнопке ОК.

4. Вывод результатов и их анализ. Вывод результатов в наиболее удобной форме осуществляется в виде таблицы Regression Summary. Для получения таблицы в окне Multiple Regression Results щелкнуть по кнопке Summary: Regression results на закладке Quick или Advanced.

Regression Summary for Dependent Variable: Y (Arr305_01)

R= ,99613381 R?= ,99228256 Adjusted R?= ,99142507

N=11 F(1,9)=1157,2 p<,00000 Std.Error of estimate: ,21200

Beta

Std.Err.

B

Std.Err.

t(9)

p-level

Intercept

25.54

0.6589

38.7572

0.000000

X

-0.996134

0.029283

-7248.22

213.0732

-34.0175

0.000000

В столбце В таблицы выводятся коэффициенты регрессии (2.4), b0 – в строке Intercept , b1 – в строке Х, следовательно приближённая регрессия имеет вид

Ŷ = 25,54 - 7248,22 * X

Насколько точно описывает полученная зависимость результаты эксперимента можно судить по величине коэффициента корреляции (R) и коэффициента детерминации (R?) - их значения достаточно близки к 1. Визуально судить о точности можно по графику соответствия наблюдаемых (Observed) Y и рассчитанных по регрессии (Predicted) Ŷ значений отклика. Для вывода графика необходимо щелкнуть по кнопке Multiple Regression… на панели анализа окна пакета, перейти на вкладку Residuals/assumptions/prediction и щелкнуть по клавише Perform residual analysis (Анализ остатков). В окне анализа остатков Residual Analysis выбрать вкладку Scatterplots и щелкнуть по клавише Predicted vs. Observed. Если все точки находятся внутри доверительной трубки, найденная регрессия достаточно точно отражает экспериментальные данные (с вероятностью 95%). Если точка лежит точно на прямой, это означает, что при одном и том же значении фактора экспериментальное значение отклика совпадает с расчётным.

Теперь можно перейти к параметрам уравнения Аррениуса:

К0 = e 25,54 = 1,24*1011,

E = 7248,22 * 8,31 = 60232,7082

Для расчета К0 и E по вашим данным следует в таблицу данных добавить две переменных К0 и Е, ввести для них расчетные формулы (2.5) и (2.6) с найденными коэффициентами и выполнить расчёт по этим формулам.

Уравнение Аррениуса с найденными параметрами для рассматриваемого примера запишем в виде

K = 1,24*1011 * e -