- •Линейные пространства векторов. Скалярное произведение. Понятие базиса и линейной независимости элементов линейного пространства. Преобразования базиса.
- •Определение матрицы. Операции с матрицами (умножение на скаляр, сложение, умножение матриц, транспонирование матриц). Обратная матрица и методы ее получения. Функции от матриц.
- •Производные. Необходимое и достаточное условие дифференцируемости функции. Частные производные. Полный дифференциал. Производная и дифференциал сложной функции.
- •Градиент функции. Производные по направлению. Необходимые и достаточные условия экстремума функции многих переменных. Условные экстремумы. Метод множителей Лагранжа.
- •Задачи аппроксимации функций (интерполяция, экстраполяция, приближение в среднем). Способы построения интерполяционного полинома. Аппроксимации на основе ортогональных базисов. Понятие сплайна.
- •Численные методы оптимизации: методы Ньютона и секущей, методы покоординатного и градиентного спуска. Улучшение сходимости градиентных методов.
- •Численные методы оптимизации, основанные на случайных числах. Метод Монте-Карло, линейный случайный поиск, метод оптимизации отжигом.
- •Прямые и итерационные методы решения систем линейных алгебраических уравнений. Методы для систем с матрицами специального вида (ленточные, треугольные, положительно-определенные).
- •Линейные пространства функций (примеры). Скалярное произведение и норма. Операторы над линейными пространствами функций. Функционалы. Собственные числа и функции оператора в пространстве l2.
- •Определение вероятности. Вероятностная модель и вероятностное пространство. Вероятность случайного события и методы ее статистического оценивания по выборке.
- •Модель случайной величины. Закон, функция, плотность распределения. Квантили и моменты распределений, методы их статистического оценивания по выборке.
- •Вероятностные и толерантные интервалы: сходства и различия. Понятия точечного и интервального оценивания. Доверительные интервалы. Несмещенные и эффективные оценки.
- •Параметрическое оценивание распределений случайной величины. Метод моментов. Метод наибольшего правдоподобия и его численная реализация. Способы проверки качества параметрического оценивания.
- •Статистические гипотезы и статистические критерии. Односторонние и двусторонние критерии. Критерии согласия. Параметрические критерии. Ошибки первого и второго рода. Мощность критерия.
- •Модель многомерной случайной величины. Совместные и условные распределения. Условные моменты распределений и их оценивание по выборке. Многомерное распределение Гаусса и его свойства.
- •Случайные процессы и временные ряды. Понятие стационарности. Ковариационная (корреляционная функция). Теорема Карунена-Лоэва. Спектральная плотность случайных процессов.
- •Алгоритмы на графах. Алгоритмы обхода (поиска на) графах. Обнаружение кратчайшего пути и минимального цикла в графе. Построение остовного дерева.
- •Основные понятия машинного обучения. Отличие машинного обучения от статистики. Методы на обучении с учителем. Методы на обучении без учителя. Метрики качества алгоритмов машинного обучения.
- •Цикл обучения. Понятия обучающей и тестовой выборки. Отложенная выборка. Кросс-валидация. Понятия недообучения и переобучения. Дилемма смещения и разброса. Размерность Вапника-Червоненкиса.
- •Понятия классификации и кластеризации. Метрические, иерархические, вероятностные методы классификации и кластеризации. Dbscan и kNn. Оценка качества классификации и кластеризации.
- •Понятие искусственной нейронной сети. Типы нейронных сетей. Понятие стохастического градиента для обучения нейронной сети. Многослойный перцептрон. Сверточные нейронные сети.
- •Методы снижения размерности данных. Метод главных компонент. Метод канонических корреляций. Методы факторного анализа. Нелинейные методы снижения размерности.
- •Принцип повышения размерности пространства. Метод опорных векторов. Понятие и свойства ядра. Метод Kernel-Trick.
- •Построение списка решений и дерева решений. Редукция деревьев решений. Понятие бэггинга и бустинга для деревьев решений. Случайный лес и способы его построения.
- •Обучение с подкреплением. Модели агентов и отклика среды. Задачи, решаемые обучением с подкреплением.
- •Ассоциативный анализ и задача о "покупательской корзине". Алгоритмы аprior и fp-Growth.
- •Способы представления знаний. Модели графов знаний. Полнота графов знаний. Методы прямого и обратного вывода по графам знаний. Онтологическая модель и средства ее реализации.
- •Экспертные методы в принятии решений. Принятие решений при многих критериях. Множество Парето. Экспертные системы поддержки принятия решений.
- •Методы машинного обучения для анализа текстовой информации. Понятие эмбеддинга. Методы построения и использования эмбеддингов при работе с текстом.
- •Генеративные методы машинного обучения. Генеративно-состязательные сети. Вариационные автокодировщики. Байесовские сети. Принципы работы, оценка качества.
Статистические гипотезы и статистические критерии. Односторонние и двусторонние критерии. Критерии согласия. Параметрические критерии. Ошибки первого и второго рода. Мощность критерия.
Статистические гипотезы и статистические критерии. Статистическая гипотеза – это утверждение или предположение о параметре популяции, который мы хотим проверить. Это может быть либо нулевая гипотеза ( ), либо альтернативная гипотеза ( ). Нулевая гипотеза представляет собой статус-кво или предположение по умолчанию, а альтернативная гипотеза представляет собой утверждение или теорию, которую мы хотим поддержать.
Чтобы оценить достоверность гипотезы, мы используем статистические критерии или тесты. Эти тесты обеспечивают систематический способ принятия решений на основе наблюдаемых данных. Выбор подходящего статистического теста зависит от характера данных и вопроса исследования.
Односторонние и двусторонние критерии. Односторонние и двусторонние критерии относятся к направленности статистического теста. При одностороннем тесте мы заинтересованы в том, чтобы определить, значительно ли отличается параметр популяции от определенного значения в одном направлении (больше или меньше). Например, мы можем захотеть проверить, является ли средний рост определенной группы значимо больше 170 см. В двустороннем тесте нас интересует, отличается ли параметр популяции значимо от конкретного значения в любом направлении. Используя тот же пример, мы можем захотеть проверить, значительно ли отличается средний рост от 170 см, не уточняя, больше он или меньше.
Критерии согласия. Критерии согласия используются при сравнении наблюдаемых данных с ожидаемым или теоретическим распределением. Эти критерии определяют, значительно ли отклоняются наблюдаемые данные от того, что ожидалось бы при определенном допущении. Примерами являются тесты на добросовестность, такие как критерий Колмогорова-Смирнова, где сравниваются различия кумулятивных функций для ответа на вопрос о принадлежности исследуемых выборок одному распределению, или -квадрат Пирсона, который оценивает, значительно ли отличаются наблюдаемые частоты от ожидаемых.
Однако, сравнение частот в двух группах не всегда используется для оценки их согласия, например, -квадрат Пирсона может быть также примерен в сравнении частот/долей категориальных переменных, таких как любимые музыкальные альбомы, для двух абстрактных групп, например, мужчины и женщины. С этой же целью был разработан точный критерий Фишера, который, впрочем, эффективней на малых независимых выборках. Непараметрическими аналогами упомянутых тестов могут служить: тест Мак-Немара и Q-критерий Кохрена.
Параметрические критерии. Параметрические критерии – это статистические тесты, которые предполагают определенные распределения для изучаемой популяции. Эти тесты делают предположения о базовом распределении данных, например, о нормальности. Примерами параметрических тестов являются t-тесты, дисперсионный анализ (ANOVA) и многофакторный дисперсионный анализ (MANOVA). Тест Стьюдента может использоваться для оценки некоторого параметра, например, среднего, в паре зависимых или независимых групп, при этом ANOVA может быть использован на трех и более группах. Параметрические тесты часто имеют большую статистическую мощность по сравнению с непараметрическими тестами, но требуют более строгих предположений. Непараметрическими аналогами упомянутых тестов могут служить: критерий Уилкоксона (для зависимых выборок) и Мана-Уитни (для независимых выборок).
Ошибки первого и второго рода. Ошибки первого и второго рода, также известные как ошибки типа I и типа II, являются возможными результатами проверки гипотез.
Ошибка типа I возникает, когда мы отвергаем нулевую гипотезу, хотя на самом деле она верна. Это эквивалентно ложному срабатыванию или ложной тревоге. Уровень значимости (альфа) теста определяет вероятность ошибки типа I. Ошибка типа II, с другой стороны, возникает, когда мы не отвергаем нулевую гипотезу, когда она на самом деле ложная. Это эквивалентно ложноотрицательному результату или пропущенному обнаружению.
Мощность критерия. Мощность статистического теста – это вероятность правильно отвергнуть нулевую гипотезу, если она ложная. На мощность влияют такие факторы, как объем выборки, размер эффекта и выбранный уровень значимости.