Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Statistika.doc
Скачиваний:
8
Добавлен:
13.08.2019
Размер:
7.68 Mб
Скачать

Задание 2 Построение гистограммы выборки

При анализе статистических данных в большинстве случаев исследователю не доступна информация о законе распределения исходной случайной величины. Одним из способов оценивания функции распределения случайной величины является построение эмпирической функции распределения на базе имеющегося материала. Для построения эмпирической функции распределения необходимо представление выборки в сгруппированном виде с подсчетом разброса значений исходной с.в. по построенным по некоторому правилу интервалам с дальнейшим анализом полученных данных. Интервалы группирования зависят от природы задачи. Обычно внутренние интервалы выбираются одинаковой длины. Часто для определения числа интервалов используют формулы Старджеса , где означает наименьшее целое число большее или равное . На практике значение можно полагать равным . На первом шаге формируется вариационный ряд (данные упорядочиваются по неубыванию: ), вычисляется длина интервалов . Иногда, чтобы и попали внутрь интервалов, границы интервалов подсчитываются по формулам: и . При этом число интервалов увеличивается на 1, а границы интервалов образуют следующую последовательность . Далее определяется количество элементов попадания элементов выборки в каждый интервал и по полученным данным строится гистограмма. При графическом изображении интервальных вариационных рядов распределения, частоты выражаются в виде прямоугольников соответствующей длины. По оси абсцисс откладываются значения признака. На этих отрезках строятся прямоугольники, которые сомкнуты друг с другом, с равными основаниями и площади которых пропорциональны вычисленным частотам. Полученный ступенчатый многоугольник, состоящий из определенного числа следующих друг за другом прямоугольников различной высоты, называется гистограммой. Часто на гистограмму накладывают график функции плотности некоторого известного распределения. Поскольку гистограмма строится по имеющейся выборке, она отражает функцию распределения искомой случайной величины с некоторым приближением. Визуально сравнить гистограмму выборки с теоретической кривой плотности некоторого известного распределения.

Задача 2.1

Для данных, приведенных в задаче 1 предыдущего задания, построить гистограмму выборки, совместив его с графиком ожидаемой функции плотности. В качестве ожидаемой функции рассмотреть функцию плотности нормального распределения.

Для построения гистограммы необходимо выполнить следующую последовательность действий:

  • Построить исходную выборку

  • Выбрать длину интервала и разбить область значений выборки на заданное число интервалов (в задании предлагается задать длину интервала как параметр)

  • Для каждого интервала подсчитать число вариант, попавших в данный интервал

  • Построить формулу для предполагаемой теоретической плотности

  • Построить график ступенчатой кривой, у которой высота ступеньки над -м интервалом пропорциональна числу вариант, попавших в этот интервал.

  • Наложить на гистограмму график кривой нормального распределения, определяемого параметрами (среднее значение, стандартное отклонение) заданной выборки.

При подсчете числа попаданий в заданные интервалы удобно использовать функцию ЧАСТОТА, предназначенную для подсчета количеств попаданий значений с.в. в заданные интервалы разбиений числовой оси прямой. Она относится к классу так называемых функций массива. Для ее вызова необходимо:

  1. Положить длину интервала =5.

  2. Для заданной выборки найти минимальное и максимальные значения роста и записать данные в таблицу. Положить границу первого интервала равной =МИН(диапазон данных)-h/2

  3. В некотором столбце, например в ячейках с адресами B2:B15 начав с границы первого интервала с использованием формул арифметической прогрессии перечислить границы интервалов группировок длины h.

  4. Выделить диапазон ячеек, в которые необходимо записать количество попаданий значений роста в соответствующие интервалы, и ввести формулу вычисления частоты =ЧАСТОТА(Данные; Область границ). В качестве данных выступает статистическая выборка. Область границ должна содержать ссылку на ячейки с левыми границами + дополнительная ячейка для крайнего правого интервала. С этой целью необходимо ввести формулу как формулу массива, нажав сочетание клавиш Ctrl+Shift+Enter. В результате формула, заключенная в фигурные скобки, будет введена во все ячейки диапазона

  5. Используя встроенные функции =СРЗНАЧ, =ДИСПР и =СЧЕТ, посчитать значения среднего арифметического , дисперсии и объема выборки n.

  6. Используя формулу плотности нормального распределения

,

в столбце плотность рассчитать теоретическое значение частоты по формуле , где EXP() - экспоненциальная функция (имеется в библиотеке функций EXCEL), - -е граничное значение ( - минимальное значение границы), - длина интервала, - среднее значение по выборке, - дисперсия, – объем выборки, .

Результат представить в виде следующей таблицы:

Границы

Частоты

Плотность

1

Граница1

Частота1

Значение1

Минимум

2

Граница2

Частота2

Значение2

Максимум

3

Граница3

Частота3

Значение3

Среднее

4

Граница4

Частота4

Значение4

Дисперсия

5

Граница5

Частота5

Значение5

Объем N

6

Граница6

Частота6

Значение6

Длина интервала h

5

7

Граница7

Частота7

Значение7

8

Граница8

Частота8

Значение8

9

Граница9

Частота9

Значение9

10

Граница10

Частота10

Значение10

11

Граница11

Частота11

Значение11

12

Граница12

Частота12

Значение12

13

Граница13

Частота13

Значение13

14

Граница14

Частота14

Значение14

Для построения гистограммы необходимо проделать следующие действия:

  • Выбрать диапазон данных (в качестве диапазона выбрать столбцы «Частоты» и «Плотность»). Вызвать мастер диаграмм. Выбрать тип диаграммы «График/гистограмма1» из категории «Нестандартные». Нажать на кнопку «Готово»

  • Выбрать режим «Исходные данные» и в качестве «Подписи под Х» выбрать столбец «Границы»

  • Выбрать подписи для рядов данных («гистограмма» и «плотность» соответственно)

  • Привести вид графика к стандартному виду. Выбрать линию нормального распределения. Щелкнуть правой кнопкой и выбрать раздел меню «Формат рядов данных»

  • В закладке «Вид» поставить флажок сглаживания линий и убрать маркеры на линиях

  • Выбрать один из столбиков гистограммы. Щелкнуть правой кнопкой и выбрать раздел меню «Формат рядов данных» В закладке параметры уменьшить зазор до 5;

  • В закладке «Подписи данных» включить в подписи «Значения»

  • Изменить название легенды, как указано на рисунке ниже, добавить подписи для оси Х

  • Изменить остальные параметры диаграммы (Например, разместить «легенду» снизу), добавить заголовок диаграммы

В результате должен получиться график вида

Как видно из данного примера, выбранная функция плотности нормального распределения достаточно хорошо аппроксимирует заданную выборку. Конечно, по результатам визуальных наблюдений нельзя делать выводы о распределении вероятностей данных генеральной совокупности, для этого необходим дополнительный анализ, связанный с проверкой статистических гипотез (см. задачу 3.4) о виде функции распределения.

Поэкспериментировать с исходными данными и объяснить результаты изменений на построенной гистограмме:

  1. Увеличить(уменьшить) все исходные данные по значению роста на одно и то же число (Как ведет себя среднее значение?).

  2. Увеличить (уменьшить) размах исходных данных (изменить значение максимальной (минимальной) точки роста в большую(меньшую) стороны) (Как ведет себя дисперсия?)

  3. Вообще говоря изменение параметра h может достаточно сильно повлиять на вид гистограммы. Изменить длину интервала h в большую (меньшую) сторону и посмотреть как меняется график гистограммы

Построить гистограмму выборки с подогнанной ожидаемой функцией плотности для задач 1.2 – 1.6 задания 1. В задаче 1.4 необходимо область разбить на интервалы длины 20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]