Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СПРАВОЧНЫЙ МАТЕРИАЛ ДЛЯ ВСТУПИТЕЛЬНЫХ ЭКЗАМЕНОВ В АСПИРАНТУРУ ПО ПРОФИЛЮ ОБУЧЕНИЯ «ИСКУССВТЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ».docx
Скачиваний:
46
Добавлен:
04.09.2023
Размер:
6.41 Mб
Скачать
  1. Модель случайной величины. Закон, функция, плотность распределения. Квантили и моменты распределений, методы их статистического оценивания по выборке.

Модель случайной величины. Модель случайной величины – это математическое описание случайного процесса или явления, которое может принимать различные значения с определенными вероятностями. В рамках модели случайной величины мы определяем закон распределения, функцию распределения и плотность распределения.

Закон, функция, плотность распределения. Закон распределения определяет вероятности различных значений случайной величины. Например, для дискретных случайных величин мы можем определить вероятности каждого возможного значения , где – вероятность значения ; а для непрерывных случайных величин мы определяем вероятность попадания в определенный интервал значений как интеграл от функции плотности вероятности . Часто можно встретить табличную форму закона распределения для дискретных чисел и график плотности вероятности в качестве закона распределения для непрерывной случайной величины.

Функция распределения определяет вероятность того, что случайная величина примет значение меньше или равное определенному числу. Функция распределения может быть определена как для дискретных в форме , так и для непрерывных случайных величин . Не следует путать функцию распределения вероятности и функцию плотности вероятности , хоть они и связаны между собой. Так функция плотности вероятности является производной функции распределения вероятности.

Плотность распределения (для непрерывных случайных величин или вероятностная масса (для дискретных случайных величин) определяет вероятность попадания случайной величины в определенный интервал значений.

Квантили распределения – это значения, которые разделяют распределение на определенные процентные части. Например, медиана – это квантиль, который разделяет распределение на две равные части. Также часто выделяют 25 и 75 перцентили, которые отсекают и всех наблюдений.

Моменты распределения – это числовые характеристики распределения, которые описывают его форму и свойства. Например, первый начальный момент – это математическое ожидание случайной величины, а центральный момент второго порядка – это дисперсия. Иногда упоминают и третий центральный момент, который отражает степень перекоса или, иначе говоря, асимметрию распределения. В общем виде начальный момент записывается как: , а центральный момент: , где степень определяет порядок момента. Для теоретических расчетов на примере непрерывно дифференцируемой функции на бесконечности запишем начальный момент в виде интеграла вида: , где – кумулятивная функция распределения вероятности, а – функция плотности вероятности. Аналогично выведем формулу для центрального момента: , где – начальный момент первого порядка. Если же оценивать эти величины исходя из конечной выборке, то интегрирование заменяется на сумму соответствующих значений: и .

  1. Вероятностные и толерантные интервалы: сходства и различия. Понятия точечного и интервального оценивания. Доверительные интервалы. Несмещенные и эффективные оценки.

Вероятностные и толерантные интервалы. Доверительные интервалы. Доверительные интервалы – понятие, тесно связанное с определением вероятностного интервала1, предоставляет собой диапазон значений точечной оценки для некоторой выборки, внутри которого лежит истинное значение для генеральной совокупности2 в целом с заданным уровнем достоверности.

,

где – табличное критическое значение для распределения Стьюдента с заданным уровнем достоверности и степеней свободы;

– стандартная ошибка3, вычисляется, в соответствии с центральной предельной теоремой, как отношение стандартного отклонения к квадратному корню количества наблюдений : .

Толерантные, также известные как допустимые интервалы, отличаются от доверительных интервалов тем, что они направлены на охват определенной доли генеральной совокупности, а не на оценку конкретного параметра. Допустимые интервалы используются, когда мы хотим убедиться, что определенный процент генеральной совокупности попадает в заданный диапазон.

.

Понятия точечного и интервального оценивания. Точечное оценивание подразумевает оценивание неизвестного истинного значения некоторого параметра генеральной совокупности по единственной точечной метрике, такой как: среднее, дисперсия, медиана, мода, доля, асимметрия, эксцесс и т.д.

Интервальные оценки предоставляют диапазон значений, внутри которого лежит истинное значение оцениваемого параметра генеральной совокупности. Они берут в расчет вариабельность выборки данных и предоставляют более точную оценку в сравнении с точечными методами. Примерами интервальных оценок могут служить упомянутые ранее вероятностные и толерантные интервалы.

Несмещенные и эффективные оценки. Оценка считается несмещенной, если в среднем она равна истинному параметру популяции, который она оценивает. Другими словами, в ней нет систематического завышения или занижения. Несмещенность – важное свойство оценок, поскольку она гарантирует, что данные выборки точно отражают популяцию.

Эффективные оценки относятся к оценкам, которые имеют низкую изменчивость или низкую стандартную ошибку. Эффективная оценка обеспечивает более точную оценку параметра популяции, уменьшая неопределенность, связанную с оценкой. Эффективные оценки являются предпочтительными, поскольку они приводят к более узким доверительным интервалам и более надежным выводам.

Примерами несмещенных точечных оценок являются значения, полученные методом моментов, медиана, мода, квантили и т.д. При этом некоторые из низ могут быть эффективнее других, т.к. эффективность – исключительно относительная характеристика.

1Строго говоря, вероятностные и доверительные интервалы отличаются, хотя о них часто говорят вместе; вероятностный интервал использует в расчетах табличные критические значения для z-распределения (нормального), а доверительный интервал по таблице для t-распределения (Стьюдента), хотя на больших выборках (больше 1000) одно значение может быть заменено другим. Можно сказать, что вероятностный интервал – это аналогия доверительного интервала для вероятностей.

2Генеральная совокупность иногда называется популяцией, а выборка может встречаться как операция сэмплирования или сэмпл.

3Между стандартной ошибкой (SE) и стандартным отклонением (SD) есть разница. SE оценивает вариабельность выборочной статистики над многочисленными выборками, SD оценивает вариабельность внутри выборки.