- •Введение
- •Литература
- •Элементы теории вероятностей
- •Случайное событие и вероятность
- •Определение вероятности
- •Принцип практической невозможности маловероятных событий
- •Формулы комбинаторики
- •Условная вероятность
- •Независимые события
- •Свойства вероятности
- •Формула полной вероятности
- •Формула Байеса
- •Случайная величина
- •Свойства математического ожидания
- •Дисперсия дискретной с.В.
- •Свойства дисперсии
- •Закон больших чисел.
- •Функция распределения случайной величины
- •Свойства функции распределения
- •Односторонние и двухсторонние значения вероятностей
- •Нормальное распределение
- •Взаимосвязи случайных величин Парная корреляция
- •Элементы математической статистики
- •Генеральная и выборочная совокупность
- •Основные шкалы измерений
- •Точечные оценки параметров распределения
- •Проверка статистических гипотез
- •Исследование зависимости между двумя характеристиками
- •Лабораторная работа Задание 1. Нахождение выборочных характеристик
- •Задача 1.1.
- •Задача 1.2.
- •Задача 1.3.
- •Задача 1.4.
- •Задача 1.5.
- •Задача 1.6.
- •Задание 2 Построение гистограммы выборки
- •Задача 2.1
- •Задание 3 Проверка статистических гипотез
- •Одновыборочный критерий Стьюдента
- •Двухвыборочный критерий Стьюдента
- •Критерий согласия хи-квадрат
- •Задание 4. Интервальные оценки
- •Задача 4.1.
- •Задача 4.2.
- •Анализ значения коэффициента корреляции
- •Построение линий регрессии
- •Преподавателю и студенту было предложено расположить 15 профессий в порядке их восстребованности на рынке. В результате получилась следующая таблица:
- •Оглавление
Генеральная и выборочная совокупность
В статистических исследованиях ставится задача изучения совокупности однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. (В качестве признака могут выступать температура человека, его рост, количество преступлений и т.д.). Качественные признаки обычно несут информацию о категориях, к которым можно отнести изучаемый объект и, в общем случае, могут выражаться нечисловыми (категоризованными) данными. Их нельзя складывать и умножать на коэффициенты. Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости или различия). С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, и т.д.
Очень часто по различным причинам бывает невозможно провести сплошное обследование всех значений изучаемых параметров (например, проверить на таможне качество каждого ввозимого лекарственного препарата). В таких случаях в результате наблюдения за объектом формируется ограниченная по объему совокупность значений параметра, которую называют выборочной совокупностью. Объем выборочной совокупности – число значений этой совокупности. Совокупность всевозможных значений параметра, которые могут быть зарегистрированы в ходе неограниченного по времени наблюдения за объектом, называют генеральной совокупностью.
Пусть из генеральной совокупности извлечена выборка:
Значение |
|
|
… |
|
Частота наблюдения |
|
|
… |
|
Здесь - это значение анализируемого параметра, а - количество анализируемых объектов, для которых это значение наблюдается. Полный объем выборки составляет . Довольно часто значения упорядочиваются по возрастанию. В этом случае, наблюдаемые значения изучаемых признаков называют вариантами, сами признаки – переменными, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом. Форма представления выборки в виде вариационного ряда не приводит к потере информации о каждом элементе выборки, но искажает информацию в целом, устанавливая зависимость между соседними элементами ряда. Число наблюдений различных значений называют частотами, а их отношения к объему выборки – относительными частотами. Статистическим распределением выборки называют перечень вариант и соответствующих им частот. Для наглядности часто строят различные графики статистического распределения (полигоны частот и гистограммы). Пусть – количество наблюдений, при которых случайные значения параметра меньше . Частость события равна . Это отношение является функцией от и от объема выборки: . Величина обладает всеми свойствами функции распределения: неубывающая функция, ее значения принадлежат отрезку [0,1]; если – наименьшее значение параметра, а – наибольшее, то , когда , и , когда . Функция называется эмпирической функцией распределения. В отличие от эмпирической функции функцию распределения генеральной совокупности называют теоретической функцией распределения, она характеризует не частость, а вероятность события .
При построении выборки приходится решать следующие важные задачи:
обеспечение случайного отбора вариант из генеральной совокупности (все элементы генеральной совокупности должны иметь одинаковые шансы попасть в выборку);
обеспечение репрезентативности (представительности) выборки, характеризующей в какой степени отобранные данные отражают структуру генеральной совокупности;
определение необходимого объема выборки для формирования статистически значимого заключения по результатам проведенных исследований.
Например, довольно сложно оценить ситуацию по определенным видам правонарушений по всей стране. В этом случае можно рассмотреть один или несколько регионов, провести анализ соответствующих показателей, и затем попытаться результаты исследований распространить на все регионы. На этом пути возникают определенные вопросы: Насколько правомерно результаты, полученные по одному региону переносить на другой регион? Ведь регионы отличаются по экономическим, этнографическим, историческим и другим показателям. Какой объем выборки считать достаточным, для получения результатов с определенной степенью надежности. Понятно, что исследование одного индивида в отдельности не позволяет делать вывод о состоянии общества для региона в целом. Какое количество правонарушений должно быть обследовано, чтобы гарантировать определенную надежность результатов обследования. Эти вопросы довольно сложны, требуют тщательного анализа и выходят за круг вопросов, рассматриваемых в данном курсе. С другой стороны совершенно ясно, что невозможно проверить все данные, и приходится принимать решения на основе анализа части имеющихся в наличии данных, заранее соглашаясь при этом на возможность ошибочного вывода.