- •Три этапа развития статистики
- •Основные этапы развития статистики
- •2. Предмет и задачи статистики
- •3.Основные понятия теории статистики
- •Сбор информации;
- •1.Организационные и методологические вопросы статистического наблюдения
- •2. Ошибки статистического наблюдения
- •Классификация ошибок статистического наблюдения
- •3. Организационные формы, виды и способы статистического наблюдения
- •1. Сводка и группировка (понятие и основные виды)
- •2.Ряды распределения: атрибутивные и вариационные
- •3.Статистические таблицы и графики, требования к составлению таблиц
- •Макет таблицы
- •4. Классификация как особый вид группировки. Роль классификаций в статистике
- •2. Классификация относительных показателей
- •Классификация относительных показателей
- •3. Понятие «средняя величина» и основные виды средних величин в статистике Понятие «средняя величина»
- •Различные виды средних величин и способы их расчета
- •В табл. 4.2 те же обозначения, что и в табл. 4.1.
- •Вспомогательная таблица для расчета простой и взвешенной средней арифметической
- •Исходные данные и вспомогательные расчеты для определения средней гармонической
- •1. Понятие вариации и основные виды показателей вариации
- •Вспомогательная таблица для расчета показателей вариации
- •На основе исходных данных вначале подсчитываются средние величины, а затем находятся отклонения от средних. Рекомендуется в расчетах показателей вариации пользоваться формулой средней взвешенной.
- •2.Свойства средней арифметической и дисперсии
- •Свойства дисперсии
- •(Свойство минимальности).
- •3. Изучение структурных характеристик вариационного ряда
- •2. Показатели концентрации и дифференциации
- •3. Показатели структурных сдвигов
- •Лекция №7. Методология организации выборочных наблюдений5.
- •1.Задачи выборочного наблюдения и различные способы формирования выборки
- •Способы отбора единиц из генеральной совокупности
- •2. Понятие «ошибка выборки» и способы ее расчета
- •3. Расчет оптимальной численности выборки
- •Лекция №8. Методы и показатели оценки тесноты статистических взаимосвязей.
- •1.Понятие «статистическая взаимосвязь»
- •2. Классификация методов оценки тесноты статистических связей
- •3. Аналитические показатели оценки тесноты взаимосвязей между количественно измеримыми признаками
- •Вспомогательная таблица для расчета рангового коэффициента корреляции Спирмена
- •4.Способы оценки тесноты взаимосвязей между качественными признаками
- •Лекция №9. Статистическое изучение динамики социально -экономических процессов и явлений.
- •2. Аналитические показатели динамики
- •Аналитические показатели динамики
- •3. Сглаживание (выравнивание) динамических рядов: механическое и аналитическое сглаживание
- •Лекция №10. Построение уравнений тренда и уравнений парной линейной регрессии
- •1. Сущность метода наименьших квадратов
- •2. Построение уравнений регрессии
- •Расчет параметров парной линейной регрессии
- •3. Построение уравнений тренда
- •Вспомогательная таблица для расчета параметров уравнений линейного и квадратического тренда
- •4. Расчет корреляционного отношения на основе уравнения регрессии
- •Способы отбора факторных переменных.
- •Исходные данные для построения уравнений регрессии
- •После подсчета сумм в нижней строке таблицы, находим линейный коэффициент корреляции:
- •Матрица коэффициентов парной корреляции
- •Использование метода наименьших квадратов для построения нелинейных уравнений регрессии
- •Нелинейные относительно оцениваемых параметров
- •1. Понятие «статистический индекс»
- •2.Различные виды статистических индексов и способы их расчета
- •Различные виды агрегатных индексов
- •Вспомогательная таблица для расчета агрегатных индексов по формулам Ласпейреса и Пааше
- •3. Сущность индексного метода в статистике
- •Примеры решения задач индексным методом.
- •1. Понятие «прогноз» и виды прогнозов
- •2. Сущность статистических методов прогнозирования и требования к исходной статистической информации
- •3.Прогнозирование на основе уравнений тренда
- •1.Кластерный анализ
- •Дискриминантный анализ
- •3.Факторный анализ (метод главных компонент)
Способы отбора факторных переменных.
Для проведения правильного анализа необходимо знать всю совокупность связей между переменными.
В 1934 году Роберт Фриш предложил одновременно исследовать все возможные виды уравнений регрессии между различными сочетаниями переменных. Анализируя разные варианты уравнений регрессии, Р. Фриш обнаружил эффект деградации регрессии. Он заключался в том, что если в регрессию включить много переменных, имеющих линейные связи друг с другом, то коэффициенты регрессии возвращаются к тем же значениям, которые они имели в уравнении с наименьшим числом переменных.
Он предложил считать, что существует три вида переменных:
Полезные;
Лишние;
Вредные.
Если переменную включают в модель, и при этом она существенно повышает индекс детерминации (квадрат корреляционного отношения), причем коэффициент регрессии при других переменных при этом изменится, то переменная называется полезной переменной.
Если переменную включают в модель, и при этом ни индекс детерминации, ни коэффициенты регрессии при других переменных существенно не меняются, то переменная называется лишней.
Если переменную включают в модель и при этом индекс детерминации существенно не меняется, но значительно изменяются коэффициенты регрессии при других переменных, то переменная называется вредной.
Такой анализ регрессионных моделей Р. Фриш назвал конфлюэнтным анализом и предложил его использовать для отбора факторных переменных, которые следует включать в модель.
Явление линейной зависимости между двумя переменными называется коллинеарностью. Одновременная зависимость между несколькими переменными называется мультиколлинеарностью.
Считается, что нельзя одновременно включать в модель линейно зависимые (коллинеарные) переменные. Для оценки линейной зависимости между двумя переменными измеряют парные коэффициенты корреляции. Для проверки наличия мультиколлинеарности рассчитывают определитель матрицы коэффициентов парной корреляции.
Пусть x1 , x2 - разные факторные переменные, которые приобретают n различных значений.
Если r(х1 , х2) > 0.8, то факторы х1 и х2 считаются коллинеарными, и их нельзя одновременно включать в модель.
При построении уравнений множественной регрессии необходимо проводить предварительный анализ мультиколлинеарности и на его основе отбирать те переменные, которые целесообразно включать в модель.
Пример
Предположим, что нам необходимо использовать зависимость расходов семьи на покупку товаров длительного пользования от различных факторов и для этого по исходным данным, приведенным в таблице 11.1, построить уравнение двухфакторной линейной регрессии. Предварительно необходимо отобрать из всех возможных факторных признаков, по которым имеются исходные данные, два фактора, между которыми нет корреляционной зависимости, и в то же время связь каждого из них с результативным показателем y сильнее, чем их связь между собой.
Таблица 11.1
Исходные данные для построения уравнений регрессии
№№ |
x1 |
x2 |
x3 |
x4 |
x5 |
y |
1 |
1 |
5 |
0 |
5 |
3 |
1 |
2 |
2 |
12 |
0 |
6 |
6 |
5 |
3 |
2 |
18 |
0 |
9 |
8 |
6 |
4 |
2 |
6 |
1 |
3 |
5 |
0,8 |
5 |
3 |
16 |
0 |
5,3 |
12 |
3 |
6 |
3 |
14 |
1 |
4,7 |
10 |
3 |
7 |
3 |
18 |
1 |
6 |
12 |
4 |
8 |
3 |
10 |
2 |
3,3 |
9 |
0,5 |
9 |
4 |
15 |
2 |
3,75 |
12 |
2,5 |
10 |
5 |
16 |
3 |
3,2 |
14 |
1,5 |
Σ |
28 |
130 |
10 |
49,3 |
91 |
27,3 |
В таблице 11.2 используются следующие обозначения:
Обозначения факторных признаков:
x1- число членов семьи,
x2 - доход семьи,
x3 - число детей в семье,
x4 - среднедушевой доход,
x5 - затраты на питание,
y - расходы на покупку товаров длительного пользования.
Прежде чем строить уравнения регрессии, необходимо выполнить анализ мультиколлинеарности исходных переменных, чтобы отобрать те факторы, которые целесообразно включить в соответствующие уравнения (модели).
С этой целью рассчитаем коэффициенты парной корреляции между каждой парой факторов и отберем те факторы, коэффициент корреляции между которыми удовлетворяет условиям:
1) r (xi ,xj)< 0,8 , и одновременно при этом:
2) r (xi ,xj) r (xi ,y)
3) r (xi ,xj) r(xj ,y)
Для расчета каждого коэффициента парной корреляции построим вспомогательную таблицу следующего вида (на примере расчета коэффициента корреляции между факторами x1 и x4):
Таблица 11.2.
Вспомогательная таблица для расчета парного линейного коэффициента корреляции между факторами x1 и x4
Исходные данные |
Вспомогательные расчеты |
||||||
№/№ |
x1 |
x4 |
|
|
( )2 |
( )2 |
( ) ( ) |
1 |
1 |
1 |
-1,80 |
-1,73 |
3,24 |
2,99 |
3,11 |
2 |
2 |
5 |
-0,80 |
2,27 |
0,64 |
5,15 |
-1,82 |
3 |
2 |
6 |
-0,80 |
3,27 |
0,64 |
10,69 |
-2,62 |
4 |
2 |
0,8 |
-0,80 |
-1,93 |
0,64 |
3,72 |
1,54 |
5 |
3 |
3 |
0,20 |
0,27 |
0,04 |
0,07 |
0,05 |
6 |
3 |
3 |
0,20 |
0,27 |
0,04 |
0,07 |
0,05 |
7 |
3 |
4 |
0,20 |
1,27 |
0,04 |
1,61 |
0,25 |
8 |
3 |
0,5 |
0,20 |
-2,23 |
0,04 |
4,97 |
-0,45 |
9 |
4 |
2,5 |
1,20 |
-0,23 |
1,44 |
0,05 |
-0,28 |
10 |
5 |
1,5 |
2,20 |
-1,23 |
4,84 |
1,51 |
-2,71 |
Σ |
28 |
27,3 |
0 |
0,00 |
11,6 |
30,86 |
-2,84 |
Средние значения признаков находим по формулам: