- •1. Статистическое наблюдение, его формы, виды и способы.
- •2. Виды статистических группировок. Построение группировки по количественному признаку
- •3. Абсолютные, средние и относительные статистические показатели.
- •4 Аналитические показатели временного ряда
- •5. Индивидуальные и сводные индексы, их взаимосвязи.
- •6. Методы проверки временных рядов на наличие тенденции.
- •7. Методы выбора формы трендовой модели
- •8. Построение моделей авторегрессионных преобразований.
- •1. Основан на использовании, так называемых, последовательных или конечных разностей.
- •2. Метод отклонений эмпирических значений признака от теоретических по уравнению тренда полученных.
- •3. Метод Фриша-Воу
- •9. Прогнозирование на основе средних аналитических показателей временных рядов.
- •10. Прогнозирование на основе экстраполяции тренда.
- •11. Прогнозирование с учетом дисконтирования информации
- •12. Прогнозирование на основе кривых роста Гомперца и Перля-Рида.
- •13. Автокорреляция, ее выявление в уровнях временного ряда
- •14. Прогнозирование связных временных рядов
- •15. Оценка точности и надежности прогнозов.
- •16. Основные понятия теории выборочного наблюдения
- •17. Алгоритмы формирования выборочной совокупности
- •18. Простая случайная и систематическая выборки
- •19. Расслоенная выборка
- •20. Кластерная (сериальная) выборка
- •21.Предмет, задачи и система показателей макроэкономической статистики
- •22. Статистическое исследование результатов экономической деятельности
- •23. Статистическое исследование трудового потенциала и трудовых ресурсов
- •24. Статистическое исследование цен и ценообразования
- •25.Статистическое исследование внешней экономической деятельности
- •26. Сводный счет «Производство», его назначение и система показателей.
- •27. Методология исчисления валового внутреннего продукта и национального дохода
- •28. Межотраслевой баланс производства и распределения продукции в снс
- •29. Система макроэкономических показателей, применяемая в международной статистической практике
- •30. Предмет, метод, функции и система показателей социальной статистики
- •1. Общество, его основные характеристики и дифференциация
- •2. Условия жизни
- •3. Уровень жизни (материальная сторона)
- •4. Способ жизни и качественные аспекты жизни
- •Расчет коэффициентов корреляции Кэндела и Спирмена . [-1;1]
- •31.Статистическое исследование социальной структуры и социальной мобильности населения
- •32.Статистическое исследование жизненного уровня населения
- •33.Статистическое исследование дифференциации населения по денежным доходам
- •34.Статистическое исследование сферы обслуживания и охраны здоровья населения
- •35.Предмет, задачи и система показателей демографической статистики
- •36.Статистическое исследование численности, размещения и состава населения
- •37.Статистическое исследование естественного движения населения
- •38.Статистическое исследование миграционного движения населения.
- •39.Статистическое исследование воспроизводства населения
- •40. Понятие, принципы и методы демографического прогнозирования
- •41.Случайные величины. Закон распределение вероятностей дискретной случайной величины
- •42. Функция распределения и плотность вероятности случайной величины, их свойства
- •43. Основные числовые характеристики случайной величины и их свойства
- •44.Биноминальный и нормальный законы распределения случайной величины
- •45.Парные и частные коэффициенты корреляции, их свойства
- •46. Множественные коэффициенты корреляции и детерминации, их свойства
- •47. Понятие генеральной совокупности и выборки из нее
- •48. Определение точечной оценки (статистики) и основные требования, предъявляемые к точечной оценке (несмещенность, состоятельность, эффективность)
- •49. Интервальные оценки параметров генеральной совокупности
- •50. Интервальная оценка генеральной средней нормально распределенной генеральной совокупности.
- •51. Интервальная оценка генеральной дисперсии нормально распределенной генеральной совокупности.
- •52. Статистические гипотезы и правила их проверки. Статистические критерии.
- •53. Сущность дисперсионного анализа. Основные задачи, решаемые с его помощью
- •54. Определение оценок параметров классической линейной модели множественной регрессии с помощью метода наименьших квадратов
- •55. Факторный и компонентный анализ как методы снижения размерности
- •56. Кластерный анализ как метод многомерной классификации
- •57. Проверка значимости уравнения множественной регрессии и его коэффициентов. Интервальное оценивание коэффициентов уравнения регрессии
- •58. Гомо- и гетероскедастичность остатков в регрессионных моделях.
- •59. Обобщенный метод наименьших квадратов (омнк). Свойства омнк-оценок
- •60. Дискриминантный анализ как метод многомерной классификаций с обучением
55. Факторный и компонентный анализ как методы снижения размерности
Компонентный и факторный анализы проводятся с несколькими частными целями. Как методы снижения размерности они позволяют выявить закономерности, которые непосредственно не наблюдаются. Эта задача решается по матрице нагрузок, как и классификация признаков в пространстве главных компонент (или общих факторов). А индивидуальные значения используются для классификации объектов (не по исходным признакам, а по главным компонентам или общим факторам) и для построения уравнения регрессии на эти обобщенные показатели. Кроме того, диаграмма рассеяния объектов, построенная в плоскости, образованной двумя первыми, наиболее весомыми, главными компонентами (или общими факторами) может косвенно подтвердить или опровергнуть предположение о том, что исследуемые данные подчиняются многомерному нормальному закону. Форма облака должна напоминать эллипс, более густо объекты расположены в его центре и разреженно по мере удаления от него.Интерпретируются главные компоненты и общие факторы, которым соответствуют дисперсии больше 1, и которые имеют хотя бы одну весомую нагрузку. Выбор критической величины, при превышении которой элемент матрицы нагрузок признается весовым и оказывает влияние на интерпретацию главной компоненты или общего фактора, определяется по смыслу решаемой задачи и может варьировать в пределах от 0,5 до 0,9 в зависимости от получаемых промежуточных результатов. Формальные результаты должны хорошо интерпретироваться.
Факторный анализ - более мощный и сложный аппарат, чем метод главных компонент, поэтому он применяется в том случае, если результаты компонентного анализа не вполне устраивают. Но поскольку эти два метода решают одинаковые задачи, необходимо сравнить результаты компонентного и факторного анализов, т.е. матрицы нагрузок, а также уравнения регрессии на главные компоненты и общие факторы, прокомментировать сходство и различия результатов.
содержание
от Ксении (более полный ответ)
Компонентный и факторный анализы проводятся с несколькими целями. Как методы снижения размерности они позволяют выявить закономерности, которые непосредственно не наблюдаются. Эта задача решается по матрице нагрузок, как и классификация признаков в пространстве главных компонент (или общих факторов). А индивидуальные значения используются для классификации объектов (не по исходным признакам, а по главным компонентам или общим факторам) и для построения уравнения регрессии на эти обобщенные показатели.
Интерпретируются главные компоненты и общие факторы, которым соответствуют дисперсии больше 1, и которые имеют хотя бы одну весомую нагрузку. Выбор критической величины, при превышении которой элемент матрицы нагрузок признается весовым и оказывает влияние на интерпретацию главной компоненты или общего фактора, определяется по смыслу решаемой задачи и может варьировать в пределах от 0,5 до 0,9 в зависимости от получаемых промежуточных результатов. Формальные результаты должны хорошо интерпретироваться.
Факторный анализ - более мощный и сложный аппарат, чем метод главных компонент, поэтому он применяется в том случае, если результаты компонентного анализа не вполне устраивают. Но поскольку эти два метода решают одинаковые задачи, необходимо сравнить результаты компонентного и факторного анализов, т.е. матрицы нагрузок, а также уравнения регрессии на главные компоненты и общие факторы, прокомментировать сходство и различия результатов.
Компонентный анализ предназначен для преобразования системы k исходных признаков, в систему k новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k-я, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.
Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются m первых компонент (m< k).
При наличии результативного показателя Y может быть построено уравнение регрессии на главных компонентах. На основании матрицы исходных данных:
размерности (n×k) , где xij – значение j-го показателя у i-го наблюдения (i=1,2,...,n; j=1,2,...,k) вычисляют средние значения показателей , а также s1, ..., sk и матрицу нормированных значений:
с элементами:
Рассчитывается матрица парных коэффициентов корреляции:
с элементами: , где, j = 1,2, ..., k.
На главной диагонали матрицы R, т.е. при j=l,
Модель компонентного анализа имеет вид:
(1) , где:
aiν – “вес”, факторная нагрузка, ν-ой главной компоненты на j-ой переменной;
fiν – значение ν-й главной компоненты для i-го наблюдения (объекта),
где ν=1,2, ... ,k.
В матричной форме модель (1) имеет вид: ,
где: – матрица значений главных компонент размерности (n×k)
– матрица факторных нагрузок размерности (k×k).
АТ – транспонированная матрица А;
fiν – значение ν-й главной компоненты у i-го наблюдения (объекта);
ajν – значение факторной нагрузки ν-й главной компоненты на j-й переменной.
Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть:
, , а главные компоненты не коррелированны между собой. Из этого следует, что, (2),
где – единичная матрица размерности (k×k).
Выражение (2) может быть также представлено в виде:
(3) ν ,ν ′ =1,2,..., k.
С целью интерпретации элементов матрицы А, рассмотрим выражение для парного коэффициента корреляции, между Zj-переменной и, например, f1-й главной компонентой. Так как, zj и f1 нормированы, будем иметь с учетом (1):
Принимая во внимание (3), окончательно получим:
Рассуждая аналогично, можно записать в общем виде:
для всех j=1,2, ... , k и ν=1,2, ... , k.
Таким образом, элемент ajv матрицы факторных нагрузок А, характеризует тесноту линейной связи между zj-исходной переменной и fv-й главной компонентой, то есть
.
Рассмотрим теперь выражение для дисперсии zj-й нормированной переменной. С учетом (1) будем иметь:
, где ν, ν'=1,2, ... , k.
Учитывая (3), окончательно получим:
(4)
По условию переменные zj нормированы и sj2=1. Таким образом, дисперсия zj-й переменной согласно (4), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.
Полный вклад ν-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле:
Одно из основополагающих условий метода главных компонент, связано с представлением корреляционной матрицы R, через матрицу факторных нагрузок А:
Учитывая (2), окончательно получим:
Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.
Из линейной алгебры известно, что для любой симметрической матрицы R, всегда существует такая ортогональная матрица U, что выполняется условие: (5), где
– диагональная матрица собственных значений размерности (k*k)
– ортогональная матрица собственных векторов размерности (k*k)
Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения положительны – λν>0 для всех ν=1,2, ..., k.
В компонентном анализе элементы матрицы Λ ранжированы λ1≥λ2≥...≥λν ≥...≥λk>0. Как будет показано ниже, собственное значение λν характеризует вклад ν-й главной компоненты в суммарную дисперсию исходного признакового пространства.
Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя k-я – наименьший.
В ортогональной матрице U собственных векторов, ν-й столбец является собственным вектором, соответствующим λν-му значению.
Собственные значения λ1≥...≥λν≥...≥λk находятся как корни характеристического уравнения:
Собственный вектор Vν, соответствующий собственному значению λν корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из:
Нормированный собственный вектор Uν равен:
Из условия ортогональности матрицы U следует, что , но тогда по определению матрицы R и Λ подобны, так как они согласно (5) удовлетворяют условию:
Так как следы, т.е. суммы диагональных элементов у подобных матриц равны, то:
Напомним из линейной алгебры, что умножение матрицы U на обратную матрицу U-1, дает единичную матрицу Е. Следы матричных произведений (U-1)×(RU) и R×(UU-1) также равны.
Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь:
Таким образом, (6)
Представим матрицу факторных нагрузок А в виде: (7)
а ν-й столбец матрицы А: , где Uν – собственный вектор матрицы R, соответствующий собственному значению λν.
Найдем норму вектора Аν:
Здесь учитывалось, что вектор Uν нормированный и . Таким образом,
Сравнив полученный результат с полным вкладом ν-й главной компоненты в дисперсию всех k исходных признаков (вычисляется по формуле ), можно сделать вывод, что собственное значение λν характеризует вклад ν-й главной компоненты в суммарную дисперсию всех исходных признаков. Из (7) следует:
Согласно (6) общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад ν-й главной компоненты определяется по формуле:
Суммарный вклад m первых главных компонент определяется из выражения:
Обычно для анализа используют m первых главных компонент, суммарный вклад которых превышает 60–70%.
Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют линейные функции исходных признаков. Для экономической интерпретации fν используются лишь те xj, для которых, |аjν|>0,5.
Значения главных компонент для каждого i-го объекта (i=1,2,...,n) задаются матрицей F.
Матрицу значений главных компонент можно получить из формулы: откуда, , где
Z – матрица нормированных значений исходных показателей.
Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.
содержание