- •Оглавление
- •Алгоритмы на перестановках
- •Введение
- •Перестановки. Произведение перестановок
- •Обратные перестановки. Алгоритмы
- •Рекурсия
- •Информационные структуры
- •Последовательное и связанное распределение данных
- •Стеки и очереди
- •Организация связанного распределения на основе стеков и очередей
- •Деревья
- •Представление деревьев
- •Прохождение деревьев, леса
- •Алгоритмы на графах
- •Графы. Представления графов. Связность и расстояние
- •Остовные деревья
- •Поиск по графу в глубину. Топологическая сортировка
- •Топологическая сортировка
- •Транзитивное замыкание. Поиск кратчайшего пути на графе
- •Поиск кратчайшего пути
- •4. Генерирование случайных последовательностей
- •4.1. Генерирование равномерно распределенных случайных чисел
- •Джон фон Нейман
- •4.2. Основные критерии проверки случайных наблюдений
- •4.3. Эмпирические критерии
- •Критерий равномерности (критерий частот)
- •Критерий серий
- •Критерий интервалов
- •Покер-критерий (критерий разбиений)
- •4.4. Численные распределения
- •Случайный выбор из ограниченного множества
- •Общие методы для непрерывных распределений
- •Нормальное распределение
- •Показательное распределение
- •4.5. Что такое случайная последовательность
- •Процедура получения простейшего генератора случайных чисел
- •Литература
4.2. Основные критерии проверки случайных наблюдений
Статистические критерии [5] отвечают на вопрос: достаточно ли случайной будет последовательность. Если критерии T1 , T2, …, Tn подтверждают, что последовательность ведет себя случайным образом, это еще не означает, вообще говоря, что проверка с помощью Tn+1–го критерия будет успешной. Однако каждая успешная проверка дает все больше и больше уверенности в случайности последовательности. Обычно к последовательности применяется несколько статистических критериев, и если она удовлетворяет этим критериям, то последовательность считается случайной.
Различают два вида критериев: эмпирические и теоретические. Эмпирические критерии основаны на использовании определенных статистик. Теоретические критерии
реализованы с помощью теоретико-числовых методов, базирующихся на рекуррентных правилах, которые используются для образования последовательности.
Рассмотрим критерий «хи - квадрат» (2-критерий) [5]. Он является основным методом, используемым в сочетании с другими критериями. Прежде чем рассматривать идею в целом, проанализируем частный пример применения 2-критерия к бросанию игральной кости.
Используем 2 игральные кости, каждая из которых независимо допускает выпадение значений 1, 2, …, 6 с равной вероятностью. В следующей таблице дана вероятность получения определенной суммы S при одном бросании игральных костей:
Значение S |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Вероятность PS |
Имеем всего 36 возможных результатов бросания. Рассмотрим результаты бросания. Например, величина 4 может быть получена тремя способами: 1 + 3, 2 + 2, 3 + 1. Это составляет . Аналогично определяются оставшиеся PS. Если бросать игральную кость n раз, то в среднем мы должны получить величину S примерно n PS раз, но это не совсем так. Например, при 144 бросаниях результаты следующие:
Таблица 4.1
Величина S |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Наблюдаемое число, YS |
2 |
4 |
10 |
12 |
22 |
29 |
21 |
15 |
14 |
9 |
6 |
Ожидаемое число, n pS |
4 |
8 |
12 |
16 |
20 |
24 |
20 |
16 |
12 |
8 |
4 |
Заметим, что во всех случаях наблюдаемое число отличалось от ожидаемого. Введем в рассмотрение число :
(4.6)
Эта статистика называется статистикой «хи - квадрат» наблюдаемых значений Y2 … Y12 при бросании игральных костей. Для данных выше приведенной таблицы получим
.
Формулу (4.6) перепишем следующим образом:
.
, учитывая факт, что Y1 + Y2 +…+ Yk = n, p1 + p2 +…+ pk =1, можно записать
(4.7)
Чтобы воспользоваться 2-статистикой проводят несколько экспериментов, затем вычисляют числа . Далее используют известные таблицы2-распределения имеющие вид:
Таблица 4.2
|
p = 99% |
p = 95% |
p = 75% |
p = 50% |
p = 25% |
p = 5% |
p = 1% |
|
|
|
|
|
|
|
|
… |
|
|
|
|
|
|
|
2,558 |
3,940 |
6,737 |
9,342 |
12,55 |
18,31 |
23,21 | |
… |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Здесь p — процентные точки 2-распределения; v = k – 1 — число степеней свободы, что на единицу меньше, чем число категорий. (Интуитивно это означает, что Y1, Y2, …Yk, Y2, …Yk не являются полностью независимыми, т.к. формула (6.1) показывает, что Yk может быть вычислено, если Y1, …Yk-1 известны.)
Предположим, что были сделаны три эксперимента с генерированием случайных последовательностей и получены ,,. Сравнивая эти величины со значениями таблицы 2 при 10 степенях свободы, мы видим, что1 гораздо больше; будет больше 23.21 только в 1% случаев. В связи с этим эксперимент 1 демонстрирует значительное отклонение от случайного поведения.2 показывает не лучшие свойства, так как результаты слишком близки к ожидаемым. Наконец, значение 3 находится между 25 и 50-процентной точками. Таким образом, наблюдение является удовлетворительно случайным по отношению к этому критерию.
Отметим, таблица 4.2 — это только приближенные значения 2-распределения, которое является предельным распределением случайной величины формулы (4.7). Поэтому табличные значения близки к реальным только при большихn. Насколько большими должны быть n? Эмпирическое правило гласит: нужно взять n настолько большим, чтобы все значения n pS были больше или равны пяти.