Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
АД.doc
Скачиваний:
78
Добавлен:
27.03.2016
Размер:
764.42 Кб
Скачать

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Магнитогорский государственный технический университет

им. Г.И. Носова»

Институт энергетики и автоматизированных систем

Кафедра прикладной информатики

Курзаева Любовь Викторовна

Анализ данных

Конспект лекций

Магнитогорск

2016

Составитель: Л.В. Курзаева

Анализ данных - Магнитогорск: Изд-во Магнитогорск. гос. техн. ун-та им. Г.И. Носова, 2016. - 50 с.

Рецензент Г.Н.Чусавитина

© Курзаева Л.В., 2016

ОГЛАВЛЕНИЕ

Выборочный метод 4

Построение и Анализ одномерного распределения 13

Вычисление характеристик рядов распределения 16

методы многомерного анализа данных 37

введение в Интеллектуальный анализ данных (Data Mining) 44

Список литературы 49

Выборочный метод

Одной из задач, которая стоит перед началом исследования, является сбор необходимых эмпирических данных об изучаемом явлении (процесса).

Множество элементов, составляющих объект исследования называют генеральной совокупностью. Важно, что генеральная совокупность - суммарная численность изучаемых объектов (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени.

Проведение исследования на основе изучения генеральной совокупности в целом ряде случаев является невозможным, либо нецелесообразным с учетом имеющегося ресурсного обеспечения исследования.

В этом случае применяется выборочное обследование. Суть выборочного метода заключена в том, что обследованию подвергается только часть элементов генеральной совокупности, которая называется выборочной совокупностью (часть объектов генеральной совокупности, выступающих в качестве объектов наблюдения).

Следует различать единицы отбора и единицы наблюдения. Единицами отбора являются единицы или группы единиц генеральной совокупности отбираемые на каждом этапе формирования выборки. Единицы наблюдения – это отобранные единицы генеральной совокупности, характеристики которых непосредственно измеряются. Если выборка проходит в несколько этапов (многоступенчатая выборка), то единицы отбора и единицы наблюдения могут не совпадать.

Однако для характеристики всей генеральной совокупности могут служить лишь репрезентативные (представительные) выборки, т.е. выборки, которые правильно отражают свойства генеральной совокупности.

В СШАодним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во времяпрезидентскихвыборов в1936году[1]. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, а также людям, выбранным по телефонным книгам всей страны и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:

  • 57 % отдавали предпочтение кандидату-республиканцуАльфу Лэндону

  • 40 % выбрали действующего в то время президента-демократаФранклина Рузвельта

На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессииобладать телефонами и автомобилями могли себе позволить в основном представителисреднегоивысшего класса(то есть большинство республиканцев, а не демократов).

Из этого можно сделать один важный вывод - выборка имеет качественные и количественные характеристики

Качественная характеристика выборки – кого именно мы выбираем и как способы построения выборки мы для этого используем.

Количественная характеристика выборки – сколько человек выбираем, другими словами объём выборки.

Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.

В статистике доказано: чтобы выборка была репрезентативной, она должна быть случайной, т.е. каждая единица генеральной совокупности должна иметь равный шанс попасть в выборку.

Рассмотрим случайные и неслучайные виды выборок.

Неслучайные выборки:

Доступная (метод снежного кома) выборка

Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.) Стихийная выборка

Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.

Направленная (целевая) выборка. Формирование состава участников эксперимента (например, формирование контрольных групп точечным методом, когда для каждого участника основной группы подбирается участник контрольной группы, обладающий сходными признаками). Это один из тех редких случаев, когда нет необходимости в проведении случайного отбора.

Отбор экспертов, который может проводиться на основе следующих критериев:

• объективные характеристики экспертов, содержащиеся в документах

• тестирование кандидатов в эксперты

• взаимный отбор

• самооценка кандидатов в эксперты.

Выборка типичных случаев

Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Квотная выборка Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно.

Развитие теории вероятностей позволило теоретически обосновать возможность применения выборочного метода. В основе теоретического обоснования выборочного метода лежит так называемый закон больших чисел. Физический смысл этого закона можно выразить следующим образом:

«при очень большом числе случайных явлений средний их результат практически перестает быть случайным и может быть предсказан с большой степенью определенности»

Таким образом, задачей исследователя, в распоряжении которого имеются сплошные данные, является организация выборочного изучения этих данных путем формирования репрезентативной выборки. Если же он имеет дело с данными ранее проведенных выборочных обследований, необходимо проверить, как были организованы эти обследования, не нарушались ли принципы случайного отбора.

Существует несколько видов выборочного изучения, позволяющих формировать репрезентативные выборки: случайный, механический, типический и серийный отбор.

Случайным (собственно случайным, простым случайным) является такой отбор, при котором все элементы генеральной совокупности имеют равную возможность быть отобранными. На практике случайный отбор производится с помощью жеребьевки или использования разработанных в статистике таблиц случайных чисел. При жеребьевке может осуществляться бесповторный отбор (когда выбранный элемент больше не участвует в выборке) или повторный (когда ему предоставляется шанс еще раз быть выбранным). При большом объеме генеральной совокупности проведение жеребьевки или использование таблиц случайных чисел становятся затруднительными, тогда применяют другие виды выборочного изучения.

Механическая (систематическая) выборка - отбор сводится к тому, что генеральная совокупность разбивается на равные части и из каждой части берется одна единица. Например, 7, 17, 27, 37 и т.д.

Однако механическим отбором следует пользоваться очень осторожно, поскольку элементы исходной совокупности могут быть упорядочены, что может привести к возникновению систематических ошибок. Необходимо проанализировать изучаемую совокупность и применять механический отбор лишь в том случае, если элементы генеральной совокупности расположены случайным образом.

Механический отбор достаточно широко использовался в русской статистике. Например, механический отбор применялся земскими статистиками для обследований части крестьянских хозяйств не по обычной подворной карточке, а по особой расширенной программе. С помощью механического отбора изучалось состояние 25 млн. крестьянских хозяйств и накануне сплошной коллективизации, когда они были подвергнуты 10%-ному весеннему опросу и 5%-ному осеннему опросу.

Типическая (стратифицированная) выборка - отбор заключается в том, что генеральная совокупность разбивается на типические группы, образованные по какому-либо признаку. Затем из каждой выделенной группы отбираются единицы либо случайно, либо механически. Например, территория, подлежащая обследованию, разделяется на районы, отличающиеся социально-экономическими или географическими условиями, и из каждого района производят отбор единиц в выборку. При этом допускается как отбор, пропорциональный численности отдельных типических групп, так и непропорциональный. Понятно, что более предпочтительным является пропорциональный отбор, поскольку он дает более точные результаты.

Серийная (гнездовая или кластерная)выборка - отбор предусматривает разбиение всей генеральной совокупности на группы (серии), из которых путем случайного или механического отбора выделяется их определенная часть, которая и подвергается сплошной обработке. Фактически, серийный отбор представляет собой случайный или механический отбор, произведенный для укрупненных элементов исходной совокупности. Например, обследуются не единичные крестьянские хозяйства, а целые деревни или имения.

Итак, выборочный метод позволяет экстраполировать результаты обследования выборки на всю генеральную совокупность. При этом надо иметь в виду, что всегда будет возникать некоторая ошибка, показывающая, насколько хорошо характеристики выборки отражают соответствующие характеристики генеральной совокупности.

Ошибки, возникающие при использовании выборочных данных для суждения обо всей генеральной совокупности, называются ошибками выборки (репрезентативност)и. Они бывают систематическими и случайными.

Систематические ошибки – ошибки, возникающие при использовании выборочных данных, если не выполняются условия случайного отбора. Случайные ошибки – ошибки, возникающие при использовании выборочных данных за счет того, что для анализа всей совокупности используется только ее часть. Величина ошибки выборки – это разность между генеральной и выборочной средними.

Введем следующие обозначения основных характеристик генеральной и выборочной совокупности(табл.1)

Таблица 1

Обозначение генеральных и выборочных характеристик

Показатель

генеральная совокупность

выборочная совокупность

Объем

N

n

Численность единиц, обладающих исследуемым значением признака

М

m

Средний размер признака

Доля единиц, обладающих исследуемым значением признака

р= M / N

ω= m / n

Доля единиц, обладающих остальными значениями признака

q=1–p

(1ω)

Дисперсия признака

Дисперсия доли

=p(1–p)

=ω(1ω)

В математической статистике существуют формулы для вычисления средней ошибки выборки на основе данных той выборки, с которой работает исследователь (табл.2). Для различных видов выборочного изучения средняя ошибка выборки определяется по-разному.

Таблица 2

Средняя ошибка выборки

Для количественных признаков (ошибка средней)

Для атрибутивных признаков (ошибка доли)

Повторный отбор

Бесповторный отбор

Для бесповторного отбора ошибка определяется по формулам, учитывающим величину . В тех случаях, когда генеральная совокупность очень велика по сравнению с выборочной, эта величина близка к единице, поэтому ею можно пренебречь. Тогда ошибку выборки при бесповторном отборе рассчитывают по формулам для повторного отбора.

При расчете ошибок малой выборки формула средней ошибки имеет вид: .

Средняя ошибка выборки позволяет по выборочной средней судить о значении генеральной средней. Однако в конкретном выборочном исследовании ошибка может существенно отличаться от средней ошибки, превышая ее. Поэтому более эффективным является определение тех границ, в которых «практически наверняка» находится действительная ошибка, допущенная в данной конкретной выборке.

Теорема Чебышева–Ляпунова: При достаточно большом количестве наблюдений и при ограниченной дисперсии можно утверждать, что вероятность того, что разница показателей генеральной и выборочной совокупности не превышает заданного предела tμ, стремится к единице. Таким образом, предельная ошибка выборки: Δ=tμ.

Вероятность данного события называют доверительной вероятностью. Величину t называют коэффициентом доверия. Он зависит от уровня доверительной вероятности (табл.3)

Таблица 3

Краткая таблица значений t-критерия

t

1,00

1,96

2,00

2,58

3,00

Φ(t)

0,683

0,950

0,954

0,990

0,997

То есть, с вероятностью 0,954 можно утверждать, что ошибка выборки не превысит удвоенной средней ошибки выборки, с вероятностью 0,997 можно утверждать, что ошибка выборки не превысит утроенной средней ошибки выборки.

Для малой выборки предельная ошибка выборки вычисляется по формуле:

,

где t рассчитывается исходя из так называемого закона распределения Стьюдента с степенями свободы (в отличие от больших выборок, где t вычисляется на основе нормального закона распределения),.

Связь между коэффициентом t и вероятностью P в распределении Стьюдента сложнее, чем в нормальном распределении и определяется с учетом объема выборки.

В статистических исследованиях с помощью формулы предельной ошибки можно решать ряд задач.

1. Определять возможные пределы нахождения характеристики генеральной совокупности на основе данных выборки. Доверительные интервалы для генеральной средней можно установить на основе соотношения .

Доверительные интервалы для генеральной доли устанавливаются на основе соотношения .

С этими величинами тесно связаны следующие характеристики измерения: точность и надежность. Надежность отражена в доверительной вероятности: чем больше доверительная вероятность, тем выше надежность измерения. Точность оценок отражена в доверительном интервале – пределах, в которых с заданной степенью вероятности заключена неизвестная величина оцениваемого параметра. Характеристики выборочной совокупности мы выявляем в результате исследования, характеристики генеральной совокупности можем оценить при помощи доверительного интервала: то есть, чем больше предельная ошибка, тем выше надежность, но тем ниже точность оценивания характеристик генеральной совокупности. Поэтому зачастую довольствуются несколько меньшей доверительной вероятностью. В социологических исследованиях обычно допустимой считается предельная ошибка доли 0,05.

Пример. Пусть была произведена выборка 1600 человек. Средний возраст по выборке – 30 лет, среднеквадратическое отклонение – 10 лет. Необходимо найти доверительный интервал.

Прежде всего, необходимо задать надежность оценки. Возьмем 95% надежность. Поскольку выборка большая, воспользуемся таблицей значений функции Лапласа и найдем коэффициент доверия t=1,96.

Тогда

.

С вероятностью 95% истинное средний возраст по ГС находится в интервале от 29,51 лет до 30,49 лет.

Пример. Из 200 опрошенных 55% - женщины. Действуем аналогично примеру 1. Выборку также можно считать большой. Тогда =1,96 для 95% надежности.

.

С вероятностью 95% доля женщин в ГС находится в интервале от 48% до 62%.

Пример.По урожайности зерновых культур 10 агрофирм определить среднюю и предельную ошибки выборки и оценить пределы для генеральной средней.

Исходные данные (xi , i = 1,…10 - урожайность зерновых в центнерах с гектара) и промежуточные вычисления можно записать в табл.4

Таблица 4

Расчетная таблица

1

6,5

-0,2

0,04

2

6,2

-0,5

0,25

3

5,4

-1,3

1,69

4

9,3

2,6

6,76

5

7,2

0,5

0,25

6

8,4

1,7

2,89

7

4,3

-2,4

5,76

8

6,0

-0,7

0,49

9

6,3

-0,4

0,16

10

7,4

0,7

0,49

Получим:

Для P=0,95 t=2,26 =t1,04

Очевидно, что полученная предельная ошибка (15%) слишком велика и объем выборки в 10 единиц не достаточен для суждения о реальной средней урожайности зерновых.

2. Определять необходимый объем выборки с помощью допустимой величины ошибки

Средняя ошибка выборки связана с объемом выборки и степенью разброса значений признака в генеральной совокупности. Увеличение дисперсии увеличивает ошибку выборки, увеличение объема выборки уменьшает ошибку выборки. Из формулы предельной ошибки можно рассчитать объем выборки (табл. 5)

Таблица 5

Формулы расчета объема выборок

Для количественных признаков (ошибка средней)

Для атрибутивных признаков (ошибка доли)

Повторный отбор

Бесповторный отбор

Доверительная вероятность задается исследователем. Сложность заключается в том, что для расчета объема выборки необходимо знать дисперсию признака, который должен бить измерен в ходе исследования. Эта проблема решается следующими способами:

1. Можно провести пробное обследование, на базе которого определяется величина дисперсии признака, используемая в качестве оценки генеральной дисперсии.

2. Можно использовать данные прошлых обследований, проводившихся в аналогичных целях, то есть дисперсия, полученная по их результатам, используется в качестве оценки генеральной дисперсии.

3. Если нас интересует не среднее значение признака, а доля единиц, обладающих данным значением в совокупности, можно использовать максимально возможную дисперсию, равную 0,25.

Определяя численность выборки и ее точность, следует учитывать, что чем больше абсолютный объем выборки, тем менее ощутимо влияет на точность результата включение в выборку дополнительных десятков и даже сотен единиц и тем больших затрат требует дальнейшее увеличение точности. Кроме того, объем выборки зависит от предполагаемой группировки объектов, т.е. чем больше будет групп, тем больше должна быть выборка.

Пример. Для рассмотренных в примере 3 данных об урожайности зерновых культур в колхозах определим требуемый объем выборки.

Зададим предельную ошибку выборки, равную 5%, она будет равна =0,34, тогда, подставляя в формулу значения t=2,26;=1,37 и , получим n=86. Таким образом, для определения средней урожайности зерновых в колхозах с вероятностью 95% и точностью 5% необходимо произвести выборку, объемом 86 единиц.