- •Запишите формулы для математического ожидания и дисперсии выборочной доли в случае повторной (бесповторной) выборки. Поясните все используемые обозначения.
- •Сформулируйте определение выборки из распределения. Как в этом случае определяются: выборочное среднее, выборочные начальные и центральные моменты, выборочная функция распределения?
- •Докажите формулы для математического ожидания и дисперсии выборочного среднего в случае повторной выборки.
- •Выведите формулу для дисперсии выборочного среднего бесповторной выборки.
- •Что такое точечная статистическая оценка? Какие оценки называются несмещенными, эффективными, состоятельными? Приведите пример эффективной оценки.
- •Запишите формулу для несмещенной оценки начального момента произвольного порядка. Докажите несмещенность.
- •Сформулируйте теорему Слуцкого и на ее основе докажите теорему о состоятельных оценках центральных моментов.
- •Сформулируйте определения распределений χ², Стьюдента и Фишера. Какие из этих распределений являются симметричными?
- •Что называется интервальной оценкой параметра распределения? Какие оценки называются симметричными по вероятности? Определите понятия: доверительная вероятность и точность оценки.
- •Пояснив используемые символы, запишите (1–α)-доверительный интервал (симметричный по вероятности) для дисперсии при известном математическом ожидании. В каких случаях применима данная формула?
- •Пояснив используемые символы, запишите (1–α)-доверительный интервал (симметричный по вероятности) для дисперсии при неизвестном математическом ожидании. В каких случаях применима данная формула?
- •Запишите приближенный (1–α)-доверительный интервал для генеральной доли признака в случае выборки большого объема n (n→∞). Поясните все используемые символы.
- •Пояснив используемые символы, запишите (1–α)-доверительный (симметричный по вероятности) интервал предсказания. Для каких генеральных распределений применима данная формула?
- •Опишите общую схему проверки статистических гипотез. Определите понятия: критическая область, уровень значимости, мощность критерия. Какие гипотезы называются простыми (сложными)?
- •Определите отношение правдоподобия для дискретных и абсолютно непрерывных распределений. Сформулируйте теорему (лемму) Неймана – Пирсона и приведите пример наиболее мощного критерия.
- •Определите p-значение статистического критерия. Каким образом находится p-значение, если известно распределение статистики критерия ? Рассмотрите случай критической области вида
- •В чем состоит метод наименьших квадратов (мнк)? Используя матричную запись, укажите явный вид (приближенного) решения системы линейных уравнений по мнк. В каком случае мнк-решение не существует?
Определите p-значение статистического критерия. Каким образом находится p-значение, если известно распределение статистики критерия ? Рассмотрите случай критической области вида
Более информативной, чем традиционная проверка с помощью критического значения, является проверка с помощью Р-значения. Р-значением называется такое число , что для любого уровня значимости , при котором гипотеза принимается, и , для любого уровня значимости , при котором гипотеза отвергается. При верной основной гипотезе Р-значение равномерно распределено на отрезке [0;1]. Если не верна, наблюдаемые Р-значения (при достаточно высокой мощности критерия) концентрируются около нуля. Если Р-значение уже найдено, то решение о принятии или отклонении гипотезы для заданного осуществляется на основе следующего правила: если , то нулевая гипотеза отвергается, если , то принимается.
Определение: Для фиксированной реализации выборки Р-значением статич=стическогокритерия называется такое число PV( ), что PV( )>=альфа для любого уровня значимости альфа, при котором гипотеза Н0 принимается, и PV( )<=альфа, для любого уровня значимости альфа, при котором гипотеза Н0 отвергается.
Предположим, что Р-значение PV( ) уже каким-либо способом найдено. Тогда решение о принятии (отклонении) Н0 для заданного альфа осуществляется на основе следующего простого правила: если PV( ) <альфа, гипотеза Н0 отвергается, а если PV( )> альфа гипотеза Н0 принимается.
Рассмотрим отдельно случай PV( ) =альфа. Как правило, критическую область можно представить в виде
Где с(альфа)-непрерывная убывающая функция. Как нетрудно видеть, в этом случае и для PV( ) =альфа имеет место равенство
Означающее, что Н0 принимается. Отсюда уже легко получить широко применяемую формулу
Действительно, при любом уровне значимости альфа из имеем
Где с(альфа) – непрерывная возрастающая функция, Р-значение удовлетворяет соотношению
В чем состоит метод наименьших квадратов (мнк)? Используя матричную запись, укажите явный вид (приближенного) решения системы линейных уравнений по мнк. В каком случае мнк-решение не существует?
С-ма из 3-х ур-ий:
a11х1+ a12х2=b1
a21х2+ a22х2=b2 (1)
a31х3+ a32х2=b3
Система, в общем говоря несовместн. После подстановки в нее произвольной пары чисел х1 и х2 одно или несколько уравнений будут нарушены.Отклонением (или невязкой) i-ого уравнения называются разность между его левой и правой частями.
ei= ai1х11+ ai2х2-bi
Сумма квадратов отклонений во всех уравнениях далее обозначается
S(х1, х2)= е1вкв.+ е2в кв+ е3в кв (измеряет качество решения)
O: Метод наименьших квадратов – метод приближенных решений СЛУ состоит в том, что ищется приближенное решение с наименьшей суммой квадратов ошибок. (1) сводится к (2).
S(х1,х1)→min (2)
Способ построения решения фактически не зависит от числа неизвестных и уравнений в исходной системе линейных уравнений. Однако ограничимся рассмотрением простейшей системы, чтобы максимально упростить геометрическую интерпретацию МНК.
Пусть есть
; ;-столбцы коэффициентов перед х1 и х2. (линейно независимы)
Тогда множество всех линейных комбинаций П={х1а1+х2а2}векторов а1 и а2- плоскость в R3. S(х1,х1)- квадрат расстояния от точки х1а1+х2а2 до точки b=(b1,b2,b3)
Пусть b*=x1*a1+x2*a2-ортогональная проекция вектора b на плоскость П. Так как b* -ближайшая в b точка плоскости П, ее координаты x1* и x2* на плоскости П являются решением задачи и одновременно приближенным решением исходной системы.
Чтобы найти x1* и x2*заметим, что b*-b ортогонален плоскости П. Следовательно, имеем:
(аi,b*-b)=0
Эквивалентно система из 2-х ур-ий:
( , )=( , )
( , )=( , )
Поскольку b*=x1*a1+x2*a2 из системы следует, сто (x1*,x2*)-решение системы.
( , )x1+( , )x2=( , )
( , )х1+( , )х2=( , )
Которую удобно записать в матричном виде:
Находим решение исходной системы:
Формула задает МНК-решение записанной в матричном виде линейной системы с произвольным чмслом неизвестных и уравнений. Единственное ограничение состоит в том, чтобы столбцы матрица А были линейно независимы. Несложно доказывается например, что при условии обратная матрица существует, что обеспечивает существование и единственность решения системы.
Используя метод наименьших квадратов, найдите коэффициенты α и β, удовлетворяющие соотношениям: α+βx₁ ≈ y₁, α+βx₂ ≈ y₂, ...,α+βxn ≈ yn.
Предположим, что на плоскости задано n точек (х1,y1),…,(xn,yn) и необходимо подобрать прямую , проходящую как можно ближе к этим точкам. Если бы все точки лежали на прямой, то коэффициенты были бы решением системы:
На самом деле точки обычно не лежат на одной прямой и система является несовместной. Тем не менее, коэффициенты альфа и бета искомой функции легко находятся как МНК-решения системы.
, где , и применяя формулу, получим МНК-решение системы получим ,
Исходные данные x1,…,xn; y1,…,yn далее интерпретируются как значения некоторых признаков Х, Y в совокупности ={1,..,n}
где xi=X(i), yi=Y(i),
Представим бета с крышкой в виде:
Определим на признаки
Предположим, что необходимо объяснить «изменчивость» переменной Y за счет приближенной линейной связи . При таком подходе дисперсию естественно назвать дисперсией, объясненной зависимостью Y от фактора Х, или факторной дисперсией. Далее будет доказано, что , поэтому остаточную дисперсию можно трактовать как часть дисперсии переменной Y, которая осталась необъясненной. Также заметим, что разности e1,…,en называются остатками, поэтому остаточная дисперсия - это ещё и эмпирическая дисперсия совокупности остатков.