- •1.Прикладные статистические исследования. Роль в них пск.
- •2.Основные типы данных в прикладных стат. Исследованиях
- •3.Общая характеристика стат. Комплексов общего назначения.
- •4.Работа с переменными в среде стат пакета spss.
- •5.Работа с переменными Statistica.
- •6.Управление данными в среде spss.
- •11. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: принцип метода и условия применения.
- •12. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: реализация в статистических пакетах.
- •1.Прикладные статистические исследования. Роль в них пск.
- •2.Основные типы данных в прикладных стат. Исследованиях .
- •3.Общая характеристика стат. Комплексов общего назначения.
- •Статистическая проверка наличия корреляции Гипотеза: : отсутствует линейная связь между выборками и (
- •26. Регрессионные модели в статпакетах
- •25. Мультиколлинеарность предикторов множественной регрессии: диагностика и пути устранения
- •27. Нелинейная регрессия
- •28. Регрессионные модели для предсказания переменных с бинарным откликом: логистическая регрессия. Анализ roc-кривых.
- •29. Кластерный анализ.
- •30. Метод деревьев решений в задачах классификации.
- •19.Корреляция Спирмона
12. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: реализация в статистических пакетах.
1) 2 гр. независ. SPSS
На выходе SPSS даёт 2 таблицы: 1) Описываемые статистики. В опис. стат-х приводятся название группы, число наблюд., сред. знач, СКО, ошибка среднего. 2) Представляет набор статистик, стат. расчёты, детализация, как проверялась H нулевое.
В табл. результатов – наименование сравниваемого показателя, следующие 2 столбца пакет SPSS посвещает проверке стат. гипотезам о равенстве дисперсий. Leven’s test – по умолчанию. Основан на разности медиан и средних. Разработчики сделали Leven’s test для того, чтобы пользователь осознавал корректно ли он применяет сравнение групп по t-тесту (критерий стьюдента). Если дисп. различ-ся сильно, то уровень значимости (sig) будет меньше критического, sig <0.05 => H1 принимаем. След. столбцы показ-ют рез-ты t-стат-ки: степень свободы (df), средняя разность, ошибка разности, доверит. интервал для разности.
2) 2 гр. независ. Statistica.
Одна таблица: 1 столбец – переменные, кот. сравнив-ся; сред значения 1 и 2 группы: P – статистич-я значимость, F – критерий Фишера..
Удобство: Цвет. подсветка статистика разных показателей. Польз-лю предлаг-ся построить разные графики.
13. Непараметрические критерии сравнения 2х независимых и связанных выборок: принцип метода и условия проведения Сравнивая (по процентным соотношениям) результаты до и после какого-либо воздействия, исследователь приходит к заключению, что если наблюдаются различия, то имеет место различие в сравниваемых выборках. Подобный подход категорически неприемлем, так как для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Чтобы доказать эффективность какого-либо воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Для решения подобных задач исследователь может использовать ряд критериев различия. Ниже будет рассмотрены непараметрические критерии: критерий знаков и критерий хи-квадрат.
ШПОРА ШПОР
1.Прикладные статистические исследования. Роль в них пск.
2.Основные типы данных в прикладных стат. Исследованиях .
3.Общая характеристика стат. Комплексов общего назначения.
4.Работа с переменными в среде стат пакета SPSS.
5.Работа с переменными Statistica.
6.Управление данными в среде SPSS.
7. Управление данными в среде STATISTICA.
8. Оценка закона распределения эксперементальных данных.
9.10. Оценивание статистических характеристик выборки в среде статистического пакета Statistica/SPSS.
11. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: принцип метода и условия применения.
12. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: реализация в статистических пакетах.
13. Непараметрические критерии сравнения 2х независимых и связанных выборок: принцип метода и условия проведения
14. Непараметрические критерии сравнения 2х независимых и связанных выборок реализация в стат. пакетах.
15. однофакторный дисперсионный анализ. Принцип метода и усл. применения
16. однофакторный дисперсионный анализ. в среде стат. пакетов .
17. Непараметрический дисперсионный анализ
18 Коэффициент корреляции Пирсона
25. Мультиколлинеарность предикторов множественной регрессии: диагностика и пути устранения
26. Регрессионные модели в статпакетах
27. Нелинейная регрессия
28. Регрессионные модели для предсказания переменных с бинарным откликом: логистическая регрессия. Анализ ROC-кривых.
29. Кластерный анализ.
30. Метод деревьев решений в задачах классификации.
14 Непараметрические критерии сравнения 2х независимых и связанных выборок реализация в стат. пакетах. 1) Критерий знаков (G-критерий) Критерий предназначен для сравнения состояния некоторого свойства у членов двух зависимых выборок на основе измерений, сделанных по шкале не ниже ранговой.Имеется две серии наблюдений над случайными переменными X и У, полученные при рассмотрении двух зависимых выборок. На их основе составлено N пар вида (хi, уi), где хi, уi — результаты двукратного измерения одного и того же свойства у одного и того же объекта.В педагогических исследованиях объектами изучения могут служить учащиеся, учителя, администрация школ. При этом хi, уi могут быть, например, балловыми оценками, выставленными учителем за двукратное выполнение одной и той же или различных работ одной и той же группой учащихся до и после применения некоторого педагогическою средства.Элементы каждой пары хi, уi сравниваются между собой по величине, и паре присваивается знак «+», если хi < уi , знак «—», если хi > уi и «0», если хi = уi. Нулевая гипотеза формулируются следующим образом: в состоянии изучаемого свойства нет значимых различий при первичном и вторичном измерениях. Альтернативная гипотеза: законы распределения величин X и У различны, т. е. состояния изучаемого свойства существенно различны в одной и той же совокупности при первичном и вторичном измерениях этого свойства. Статистика критерия (Т) определяется следующим образом: допустим, что из N пар (х, у,) нашлось несколько пар, в которых значения хi и уi равны. Такие пары обозначаются знаком «0» и при подсчете значения величины Т не учитываются. Предположим, что за вычетом из числа N числа пар, обозначенных знаком «0», осталось всего n пар. Среди оставшихся n пар подсчитаем число пар, обозначенных знаком «-», т.е, пары, в которых xi<yi. Значение величины Т и равно числу пар со знаком минус. Нулевая гипотеза принимается на уровне значимости 0,05, если наблюдаемое значение T<n-ta, где значение n-ta определяется из статистических таблиц для критерия знаков .
2) Критерий χ2 (хи-квадрат) Критерий χ2 (хи-квадрат) применяется для сравнения распределений объектов двух совокупностей на основе измерений по шкале наименований в двух независимых выборках. Предположим, что состояние изучаемого свойства (например, выполнение определенного задания) измеряется у каждого объекта по шкале наименований, имеющей только две взаимоисключающие категории (например: выполнено верно — выполнено неверно). По результатам измерения состояния изучаемого свойства у объектов двух выборок составляется четырехклеточная таблица 2X2. (см. табл. 6). В этой таблице Оij — число объектов в i-ой выборке, попавших в j-ую категорию по состоянию изучаемого свойства; i=1,2 – число выборок; j=1,2 – число категорий;; N — общее число наблюдений, равное О11 + О12 + О21 + О22 или n1+n2.тогда на основе данных таблицы 2X2 (см. табл. 6) можно проверить нулевую гипотезу о равенстве вероятностей попадания объектов первой и второй совокупностей в первою (вторую) категорию шкалы измерения проверяемого свойства, например гипотезу о равенстве вероятностей верного выполнения некоторого задания учащимися контрольных и экспериментальных классов.При проверке нулевых гипотез не обязательно, чтобы значения вероятностей р1 и р2 были известны, так как гипотезы только устанавливают между ними некоторые соотношения (равенство, больше или меньше).Для проверки рассмотренных выше нулевых гипотез по данным таблицы 2X2 (см. табл. 6) подсчитывается значение с татистики критерия Т по следующей общей формуле:где n1, n2 — объемы выборок, N = n1 + n2 — общее число наблюдений.Проводится проверка гипотезы H0: p1£p2 — при альтернативе Н1: р1>р2. Пусть a — принятый уровень значимости. Тогда значение статистики Т, полученное на основе экспериментальных данных, сравнивается с критическим значением статистики х1-2a,, которое определяется по таблице c2 c одной степенью свободы (см. Приложение 2) с учетом выбранного значения a. Если верно неравенство T<x1-2a, то нулевая гипотеза принимается на уровне a. Если данное неравенство не выполняется, то у нас нет достаточных оснований для отклонения нулевой гипотезы.В связи с тем что замена точного распределения статистики Т распределением c2 c одной степенью свободы дает достаточно хорошее приближение только для больших выборок, применение критерия ограничено некоторыми условиями.
Критерий не рекомендуется использовать, если: 1) сумма объемов двух выборок меньше 20; 2) хотя бы одна из абсолютных частот в таблице 2X2, составленной на основе экспериментальных данных, меньше 5.Применение критерия хи-квадрат возможно и в том случае, когда объекты двух выборок из двух совокупностей по состоянию изучаемого свойства распределяются более чем на две категории. Например, учащиеся экспериментальных и контрольных классов распределяются на четыре категории в соответствии с отметками (в баллах: 2, 3, 4, 5), полученными учащимися за выполнение некоторой контрольной работы.Результаты измерения состояния изучаемого свойства у объектов каждой выборки распределяются на С категорий. На основе этих данных составляется таблица 2ХС, в которой два ряда (по числу рассматриваемых совокупностей) и С колонок (по числу различных категорий состояния изучаемого свойства, принятых в исследовании).
.На основе данных таблицы 8 можно проверить нулевую гипотезу о равенстве вероятностей попадания объектов первой и второй совокупностей в каждую из i (i=l, 2, ..., С) категорий, т. е. проверить выполнение всех следующих равенств: р11= р21, p12 = p22, …, p1c = p2c. Возможна, например, проверка гипотезы о равенстве вероятностей получения отметок «5», «4», «3» и «2» за выполнение учащимися контрольных и экспериментальных классов некоторого задания.Для проверки нулевой гипотезы с помощью критерия c2 на основе данных таблицы 2ХС подсчитывается значение статистики критерия Т по следующей формуле: где п1 и п2 — объемы выборок. Значение Т, полученное на основе экспериментальных данных, сравнивается с критическим значением х1-a, которое определяется по таблице c2 с k=С—1 степенью свободы с учетом выбранного уровня значимости a. При выполнении неравенства Т> х1-aа нулевая гипотеза отклоняется на уровне а и принимается альтернативная гипотеза. Это означает, что распределение объектов на С категорий по состоянию изучаемого свойства различно в двух рассматриваемых совокупностях.
15. однофакторный дисперсионный анализ. Принцип метода и усл. применения Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений.Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп
16. однофакторный дисперсионный анализ. в среде стат. пакетов .Пусть – i – элемент ( ) -выборки ( ), где m – число выборок, nk – число данных в -выборке. Тогда – выборочное среднее -выборки определяется по формуле
Общее среднее вычисляется по формуле
, где
Основное тождество дисперсионного анализа имеет следующий вид: где Q1 – сумма квадратов отклонений выборочных средних от общего среднего (сумма квадратов отклонений между группами); Q2 – сумма квадратов отклонений наблюдаемых значений от выборочной средней (сумма квадратов отклонений внутри групп); Q – общая сумма квадратов отклонений наблюдаемых значений от общего среднего .Расчет этих сумм квадратов отклонений осуществляется по следующим формулам:
В качестве критерия необходимо воспользоваться критерием Фишера:
.
Если расчетное значение критерия Фишера будет меньше, чем табличное значение – нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений, в противном случае, независимый фактор оказывает существенное влияние на разброс средних значений (λ– уровень значимости, уровень риска, обычно для экономических задач λ=0,05).Недостаток однофакторного анализа: невозможно выделить те выборки, которые отличаются от других. Для этой цели необходимо использовать метод Шеффе или проводить парные сравнения выборок.
17. Непараметрический дисперсионный анализ Непараметрические методы как раз и разработаны для тех ситуаций, достаточно часто возникающих на практике, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов - непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными. Краткий обзор непараметрических процедур. По существу, для каждого параметрического критерия имеется, по крайней мере, один непараметрический аналог. Эти критерии можно отнести к одной из следующих групп: 1критерии различия между группами (независимые выборки); 2критерии различия между группами (зависимые выборки); 3критерии зависимости между переменными. Различия между независимыми группами. Обычно, когда имеются две выборки (например, мужчины и женщины), которые вы хотите сравнить относительно среднего значения некоторой изучаемой переменной, вы используете t-критерий для независимых выборок. Непараметрическими альтернативами этому критерию являются: критерий серий Вальда-Вольфовица, U критерий Манна-Уитни и двухвыборочный критерий Колмогорова-Смирнова. Если вы имеете несколько групп, то можете использовать дисперсионный анализ. Его непараметрическими аналогами являются: ранговый дисперсионный анализ Краскела-Уоллиса и медианный тест. Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке, то обычно используется t-критерий для зависимых выборок. Альтернативными непараметрическими тестами являются: критерий знаков и критерий Вилкоксона парных сравнений. Если рассматриваемые переменные по природе своей категориальны или являются категоризованными (т.е. представлены в виде частот попавших в определенные категории), то подходящим будет критерий хи-квадрат Макнемара. Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ (ANOVA) с повторными измерениями. Альтернативным непараметрическим методом является ранговый дисперсионный анализ Фридмана или Q критерий Кохрена (последний применяется, например, если переменная измерена в номинальной шкале). Q критерий Кохрена используется также для оценки изменений частот (долей).
Зависимости между переменными. Для того, чтобы оценить зависимость (связь) между двумя переменными, обычно вычисляют коэффициент корреляции. Непараметрическими аналогами стандартного коэффициента корреляции Пирсона являются статистики Спирмена R, тау Кендалла и коэффициент Гамма. Если две рассматриваемые переменные по природе своей категориальны, подходящими непараметрическими критериями для тестирования зависимости будут: Хи-квадрат, Фи коэффициент, точный критерий Фишера. Дополнительно доступен критерий зависимости между несколькими переменными так называемый коэффициент конкордации Кендалла. Этот тест часто используется для оценки согласованности мнений независимых экспертов (судей), в частности, баллов, выставленных одному и тому же субъекту.
18 Коэффициент корреляции Пирсона характеризует существование линейной зависимости между двумя величинами. Пусть даны две выборки коэффициент корреляции Пирсона рассчитывается по формуле: где – выборочные средние и , – выборочные дисперсии, . Коэффициент корреляции Пирсона называют также теснотой линейной связи:
линейно зависимы, \
линейно независимы.