Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

415_osnovn_mat_model

.pdf
Скачиваний:
19
Добавлен:
15.05.2015
Размер:
925.28 Кб
Скачать

Основная литература

1.Вентцель Е.С. Теория вероятностей. – М.: Наука, 2003.

2.Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. – М.: Высшая школа, 1999.

3.Курзенев В.А. Основы математической статистики для управленцев. – СПб.: Изд-во СЗАГС, 2005.

4.Письменный Д. Конспект лекций по теории вероятностей и математической статистике. – М.: Айрис Пресс, 2004.

Дополнительная литература

1.Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. – М.: ФИЛИНЪ, 1997.

2.Гмурман В.Е. Теории вероятностей и математическая статистика. – М.: Высшая школа, 1999.

3.Кремер Н.Ш. Теория вероятностей и математическая статистика. – М.:

ЮНИТИ, 2000.

4.Наследов А. SPSS 19. Профессиональный статистический анализ данных. – СПб.: Питер, 2011.

5.Халафян А.А. STATISTICA 6. Статистический анализ данных. – М.: Би- ном-Пресс, 2007.

Тема 9. Факторный анализ данных социально-экономической статистики

Занятие 19. Построение кластеров

Вопросы для обсуждения

1.Постановка задач кластерного анализа.

2.Меры близости. Метод ближнего соседа. Метод дальнего соседа.

3.Метрики кластерного анализа. Метрика Эвклида. Метрика Махалонобиса.

4.Иерархическая кластеризация.

5.Дендограммы.

30

6.Метод К-средних.

7.Профили кластеров.

8.Взаимосвязь кластерного и регрессионного анализа.

9.Решение задач с помощью статистических пакетов.

Основная литература

1.Барсегян А.А [и др.]. Методы и модели анализа данных: OLAP и DataMining. – СПб.: БХВ-Петербург, 2004.

2.Барсегян А.А [и др.]. Технология анализа данных: DataMining, VisualMining, TextMining, OLAP. – СПб.: БХВ-Петербург, 2004.

3.Курзенев В.А. Основы математической статистики для управленцев. – СПб.: СЗАГС, 2005

4.Методы и модели прогнозирования социально-экономических процессов / Клебанова Т.С. [и др.]. – СПб.: СЗИУ, 2012.

5.Наумов В.Н. Основы эконометрики. – СПб.: СЗИУ, 2012.

Дополнительная литература

1.Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. – М.: ФИЛИНЪ, 1997.

2.Кремер Н.Ш. Теория вероятностей и математическая статистика. – М.:

ЮНИТИ, 2000.

3.Наследов А. SPSS 19. Профессиональный статистический анализ данных. – СПб.: Питер, 2011.

4.Халафян А.А. STATISTICA 6. Статистический анализ данных. – М.: Би- ном-Пресс, 2007.

Занятие 20. Факторный анализ

Вопросы для обсуждения

1.Постановка задач кластерного анализа.

2.Основные положения факторного анализа.

3.Факторные нагрузки.

31

4.Матрица факторных нагрузок

5.Критерии определения числа факторов.

6.Метод главных компонент.

7.Использование статистических пакетов для решения задач редукции данных.

8.Решение задач с помощью статистических пакетов.

Основная литература

1.Барсегян А.А [и др.]. Методы и модели анализа данных: OLAP и DataMining. – СПб.: БХВ-Петербург, 2004.

2.Курзенев В.А. Основы математической статистики для управленцев. – СПб.: СЗАГС, 2005

3.Методы и модели прогнозирования социально-экономических процессов / Клебанова Т.С. [и др.]. – СПб.: СЗИУ, 2012.

4.Наумов В.Н. Основы эконометрики. – СПб.: СЗИУ, 2012.

Дополнительная литература

1.Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. – М.: ФИЛИНЪ, 1997.

2.Кремер Н.Ш. Теория вероятностей и математическая статистика. – М.:

ЮНИТИ, 2000.

3.Наследов А. SPSS 19. Профессиональный статистический анализ данных. – СПб.: Питер, 2011.

4.Халафян А.А. STATISTICA 6. Статистический анализ данных. – М.: Би- ном-Пресс, 2007.

Тема 10. Введение во временные ряды

Занятия 21, 22. Построение моделей временных рядов

Вопросы для обсуждения

1.Сглаживание моделей временных рядов. Метод скользящего среднего.

32

2.Метод экспоненциального сглаживания.

3.«Примитивные» методы построения моделей временных рядов.

4.Методы динамики временного ряда.

5.Уравнения роста. Использование регрессионного анализа для построения моделей тренда.

6.Использование статистических пакетов для построения моделей временного ряда.

Основная литература

1.Барсегян А.А [и др.]. Методы и модели анализа данных: OLAP и DataMining. – СПб.: БХВ-Петербург, 2004.

2.Курзенев В.А. Основы математической статистики для управленцев. – СПб.: СЗАГС, 2005

3.Методы и модели прогнозирования социально-экономических процессов / Клебанова Т.С. [и др.]. – СПб.: СЗИУ, 2012.

4.Наумов В.Н. Основы эконометрики. – СПб.: СЗИУ, 2012.

Дополнительная литература

1.Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. – М.: ФИЛИНЪ, 1997.

2.Кремер Н.Ш. Теория вероятностей и математическая статистика. – М.:

ЮНИТИ, 2000.

3.Наследов А. SPSS 19. Профессиональный статистический анализ данных. – СПб.: Питер, 2011.

4.Халафян А.А. STATISTICA 6. Статистический анализ данных. – М.: Би- ном-Пресс, 2007.

33

8.СЛОВАРЬ ТЕРМИНОВ

1.Случайные события. Под случайным событием понимают всякий исход, который может произойти и не произойти в зависимости от случая.

2.Невозможным событием называют такой исход – событие, которое никогда не происходит при осуществлении данного эксперимента.

3.Достоверным событием называют такой исход, который всегда происходит при осуществлении данного эксперимента.

4.Противоположным событием к данному событию называют исход - событие, которое происходит только в том случае, если не происходит данное событие.

5.События образуют полную группу, если они попарно несовместны, а их объединение (сумма) является достоверным событием.

6.Вероятность события. Существует аксиоматическое, классическое и статистическое определение вероятности случайного события. Аксиоматическое определение состоит из трех аксиом и является определяющим.

Вклассическом определении исходной схемой является полная группа равновозможных событий; в статистическом определении вероятности исходной схемой является схема независимых испытаний на практике. Под классической вероятностью понимают отношение числа благоприятных исходов к числу всех равновозможных исходов, а под статистической вероятностью – число, около которого колеблется частота события (отношение числа наступлений события к числу испытаний).

7.Независимость событий. Независимыми событиями называют такие события, когда вероятность наступления одного не зависит от исхода другого события.

8.Свойства вероятностей. При разных определениях вероятности случайного события вероятности имеют одинаковые свойства. Основными из них являются: а) вероятность не может быть меньше нуля и больше

34

единицы; б) вероятность суммы двух несовместных событий равна сумме вероятностей этих событий; в) вероятность противоположного события находится как разность единицы и вероятности исходного события.

9.Понятие случайной величины. Под случайной величиной понимают величину, которая в зависимости от случая может принять то или иное значение, неизвестно заранее какое именно.

10.Функция распределения случайной величины. Функция распределе-

ния случайной величины есть вероятность события, что случайная величина примет значение, меньше заданного числа

F (x)= P(X < x)

11.Плотность распределения. Для непрерывных случайных величин (случайная величина может принять любое значение в заданном интервале) может быть задана плотность распределения. Это есть неотрицательная функция, несобственный интеграл от которой равен единице (как вероятность достоверного события), а вероятность попадания случайной величины в заданный интервал определяется через площадь криволинейной трапеции (через определенный интеграл с соответствующими пределами интегрирования)

p(x)0,

+∞p(x)dx =1, P(a < x < b)= b

p(x)dx

 

−∞

a

.

12.Независимость случайных величин. Случайные величины называют

независимыми, если их совместная функция распределения (плотность распределения) может быть представлена в виде произведения одномерных функций распределения (плотностей распределения)

F (x, y)= F1 (x) F2 (y), p(x, y)= p1 (x) p2 (y).

13.Основные числовые характеристики случайных величин. Числовая характеристика положения случайной величины, определяемая через операцию взвешенного суммирования (осреднения), называется математическим ожиданием или средним случайной величины

35

МX = +∞x p(x)dx,

МX = n

X i Pi .

−∞

i=1

 

14.Дисперсия случайной величины есть математическое ожидание квадрата уклонения от среднего

DX = М(X МX )2 = (x МX )2 p(x)dx, DX = n (X i МX )2 Pi .

i=1

15.Генеральная совокупность. Статистической (генеральной) совокупностью называют множество однородных объектов, подлежащих статистическому изучению на основе случайного эксперимента, эквивалентного равновероятному выбору элементов из множества с возвращением. Генеральную совокупность можно рассматривать как множество реализаций (наблюдений) некоторой случайной величины.

16.Вариационный ряд. Дискретным вариационным рядом называют упо-

рядоченную совокупность вариант признака с учетом их частоты. При большом числе различных вариант весь диапазон изменения признака разбивают на интервалы и результаты группировки сводят к интервальному вариационному ряду, в котором частоты относятся не к отдельным вариантам, а ко всему интервалу. Графическое представление вариационного ряда: для дискретного – полигон (ломаная линия), для интервального – гистограмма (столбограмма).

17.Оценка параметров генеральной совокупности. Под точечной оцен-

кой параметра понимают числовую функцию результатов наблюдений, значение которой ближе всего к неизвестному параметру.

18.Под интервальной оценкой параметра понимают доверительный ин-

тервал как интервал со случайными границами, где с заданной доверительной вероятностью находится неизвестный параметр.

19.Проверка гипотез. При проверке параметрическихгипотез проверяется гипотеза об утверждении о параметрах или числовых характеристиках генерального распределения.

36

20.Статистическим критерием называют однозначно определенное правило, руководствуясь которым проверяемую гипотезу отклоняют или не отклоняют. Под критериями согласия понимают статистические критерии для проверки гипотезы о согласованности выборочного распределения с теоретическим генеральным распределением.

21.Связь и регрессия случайных величин. Связь условной средней одной случайной величины от соответствующих значений другой величины называется корреляционной связью, а уравнение связи называется урав-

нением регрессии.

22.Регрессионный анализ это один из наиболее известных статистических методов, применяемых для решения задач такого рода. Основная цель регрессионного анализа состоит в определении связи между некоторой характеристикой Y наблюдаемого явления или объекта и величи-

нами x1, x2 , xn , которые обусловливают, объясняют изменения Y. Пере-

менная Y называется зависимой переменной (откликом), объясняющие переменные x1, x2 , xn называются предикторами, регрессорами или фак-

торами.

23.Линейная регрессионная модель – регрессионная модель, в которую факторы (объясняющие переменные) входят линейно

24.Матрица ковариаций – матрица, элементами которой являются ковариации случайных величин.

25.Метод наименьших квадратов – метод, в основе которого лежит минимизация суммы квадратов остатков (невязок) регрессии

26.множественная линейная регрессия – модель с несколькими фактора-

ми (объясняющими переменными).

27.Регрессор – объясняющая переменная (фактор) в уравнении регрессии.

28.Статистическая зависимость – любая зависимость функции распределения одной случайной величины от другой.

37

29.Непараметрическая статистика – статистические технические приемы, которые не допускают особенных функциональных форм для отношений между переменными. Ранговая корреляция двух переменных является тому примером. Использование подобных технических приемов подходит лишь тогда, когда существует причина ожидать, что отношение имеет монотонный характер, и их трудно применить к отношениям между несколькими переменными.

30.Нечисловая статистика – статистика объектов нечисловой природы, а также объектов в пространствах общей природы.

31.Таблицы сопряженности – средство представления совместного распределения нескольких (в частном случае двух) переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

32.Таблицы флагов и заголовков – средства для табуляции непрерывных и категориальных переменных, переменных множественного отклика и многомерных дихотомий.

33.Кластер – объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определёнными свойствами.

34.Кластерный анализ – задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

35.Дендограмма – дерево, то есть граф без циклов, построенное по матрице мер близости. Дендрограмма позволяет изобразить взаимные связи между объектами из заданного множества. Для создания дендрограммы

38

требуется матрица сходства (или различия), которая определяет уровень сходства между парами объектов.

36.Факторный анализ – многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

38.Факторная нагрузка – корреляция между исходной переменной и фактором

39.Редукция данных – обычно относится к аналитическим методам (обычно к многомерным методам анализа, таким как Факторный анализ, Мно-

гомерное шкалирование, Кластерный анализ, Каноническая корреляция

или Нейронные сети) которые включают сокращение размерности множества данных с помощью выделения определенного числа основных факторов, размерностей, кластеров и т.д., которые могут объяснить изменчивость исходных многомерных данных.

40.Метод главных компонент – один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание образов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных.

41.Временной ряд. Под временным рядом понимают последовательность реализаций случайных величин, каждый член которой связан с соответствующим моментом времени или временным интервалом.

39