Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

лекция

.pdf
Скачиваний:
11
Добавлен:
05.06.2015
Размер:
556.69 Кб
Скачать
S1, S2 , S3 , ...

Лекция 8. Граф состояний. Система уравнений Колмогорова. Расчет

показателей надежности невосстанавливаемой и восстанавливаемой

системы.

Показатели надежности невосстанавлинаемых изделий при ненагруженном общем, поэлементном и скользящем резерве либо восстанавливаемых изделий при ненагруженном или нагруженном общем, поэлементном и скользящем резерве можно вычислить, описывая «старение» таких изделий случайным марковским процессом с дискретными состояниями.

Случайный процесс называется марковским случайным процессом

(процессом без последействия), если дальнейшее поведение процесса определяется его состоянием в данный момент времени и не зависит от его предыстории. Случайный марковский процесс называется процессом с дискретными состояниями, если возможные состояния изделия можно перечислить

(перенумеровать) одно за другим, а сам процесс состоит в том, что время от времени изделие S скачком (мгновенно) переходит из одного состояния в другое под действием простейших потоков отказов и восстановлении отдельных элементов изделия.

При анализе поведения изделия во времени в процессе износа (старения) удобно пользоваться графом состояний, содержащим столько вершин, сколько различных состояний возможно у изделия. Ребра графа состояний отражают возможные переходы из некоторого состояния во все остальные в соответствии с параметрами потоков отказов или восстановлении. Если для каждого состояния изделия, другими словами, для каждой вершины графа вычислить вероятность нахождения изделия именно в этом состоянии в любой произвольный момент времени Pi t , то, зная эти вероятности, можно оценить интересующие на практике показатели надежности, используя соотношения (1.2), (1.6), (1.9)-(1.14).

Связь между вероятностями нахождения изделия во всех его возможных состояниях, в свою очередь, выражается системой дифференциальных уравнений Колмогорова. Структура уравнений Колмогорова построена по вполне определенному правилу: в левой части каждого уравнения Колмогорова записывается производная вероятности нахождения изделия в рассматриваемом состоянии (вершине графа), а правая часть содержит столько членов, сколько ребер графа состояний связано с данной вершиной графа. Если ребро направлено из данной вершины, соответствующий член имеет знак минус, если в данную вершину - знак плюс. Каждый член равен произведению параметра потока отказа (восстановления), связанного с данным ребром, на вероятность нахождения в той вершине графа, из которой исходит ребро. Система уравнений Колмогорова включает столько уравнений, сколько вершин в графе состояний изделия. Решение системы уравнений Колмогорова при комкретных начальных условиях, определяемых спецификой эксплуатации изделия, дает значения искомых вероятностей Pi t .

В общем случае применение теории случайных марковских процессов к решению задач оценки показателей

надежности восстанавливаемых и невосстанавливаемых изделий включает: 1) составление списка всех возможных состояний изделия; 2) вычисление параметров потоков отказов и восстановлении для каждого состояния; 3) составление графа состояний; 4) запись системы дифференциальных уравнений Колмогорова; 5) решение системы уравнений Колмогорова и определение количественных показателей надежности по соотношениям (1.2), (1.6) (1.9)-(1.14).

Пример 1.2. Применение теории марковских случайных процессов для расчета показателей надежности восстанавливаемых и невосстанавливаемых изделии рассмотрим на примере вычислительной системы, состоящей из двух микро-ЭВМ, работающих одновременно, и одной резервной, используемой в режиме ненагруженного скользящего резерва (рис. 1.5, а). Предположим, что система обслуживается одной ремонтной бригадой в порядке прямого приоритета.

Перед составлением графа состояний системы полезно перечислить возможные состояния системы в период ее эксплуатации, сведя их в таблицу (например, табл. 1.1 для системы, изображаемой на рис. 1.5, б).

Граф состояний, описывающий износ (старение) такой системы, как восстанавливаемой в предположении, что поток отказов и восстановлении простейший и одна ремонтная бригада ремонтирует в любой момент времени только одну микро-ЭВМ в порядке прямого приоритета, имеет вид, приведенный на рис. 1.5, в. На рисунке вершины графа состояний, соответствующие отказовым состояниям, заштрихованы. В изображении вершин указываются номер состояния, работающие и резервные микро-ЭВМ в этом состоянии. Например, вершина 1 соответствует состоянию системы, когда работают первая и вторая микро-ЭВМ, а

третья находится в ненагруженном резерве; вершина 7 - когда работают первая и вторая микро-ЭВМ, а третья отказала и восстанавливается ремонтной бригадой.

Система дифференциальных уравнений Колмогорова, связывающая вероятности нахождения системы в любом из возможных ее состояний, в этом случае имеет вид

 

P t

1

 

2

P

t P t

2

P t

3

P t ;

1

 

 

 

 

 

 

1

 

 

 

 

 

1

2

 

 

 

 

 

 

3

 

7

P t

 

2

 

3

P

t

1

P

 

t ;

 

 

 

 

2

 

 

 

1

 

 

 

 

 

 

2

 

 

 

1

 

 

 

 

 

 

 

P t

2

 

 

1

 

3

P

t

 

2

P

 

t

P t ;

 

3

 

 

 

 

 

 

 

 

 

3

 

 

 

1

 

 

 

1

5

 

 

P t

P

t

3

 

P

t

 

1

P

t ;

 

 

 

 

4

 

1

 

4

 

 

 

 

 

 

 

2

 

 

7

 

 

 

 

 

 

 

 

P t P

t

 

 

2

 

P

t

1

P

t ;

 

 

 

 

5

1

 

5

 

 

 

 

 

 

 

2

 

 

3

 

 

 

 

 

 

 

 

P t

 

2

P

 

t

 

3

P

t

 

2

P

 

 

t ;

 

 

 

 

6

 

 

6

 

 

 

 

 

 

 

3

 

 

 

7

 

 

 

 

 

 

 

P t

 

3

 

2

 

1

P

t

2

P

 

 

t P t .

 

7

 

 

 

 

 

 

 

 

7

 

 

 

6

 

 

1

4

 

 

Решая систему (1.18)

при начальных условиях

P 0 1,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

(1.18)

Pi 0 0 ,

i 2, ..., 7,

можно вычислить вероятности нахождения системы в любом возможном

состоянии Pi t

и такие показатели надежности восстанавливаемой системы, как

функция готовности

K Г t , коэффициент готовности

K Г ,

среднее время работы

между двумя отказами tср , среднее время восстановления tВ .

 

 

 

 

 

В предположении,

что

все микро-ЭВМ одинаковы и, следовательно,

1 2

3 и 1 2 3

, система (1.18) примет вид

 

 

 

 

 

 

 

 

 

 

 

Таблица 1.1

 

 

 

 

 

 

 

 

Номер состояния

 

 

 

 

Микро-ЭВМ

 

Состояние системы

 

 

 

 

 

(вершины графа)

работающие

 

резервные

отказавшие

 

в целом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

1,2

 

 

3

 

Рабочее

 

Рабочее

 

 

 

 

 

 

2

 

 

3,2

 

 

нет

 

1

 

 

Рабочее

 

 

 

 

 

 

3

 

 

1,3

 

 

нет

 

2

 

 

Рабочее

 

 

 

 

 

 

4

 

 

2

 

 

нет

 

1,3

 

 

Отказовое

 

 

 

 

 

 

5

 

 

3

 

 

нет

 

1,2

 

 

Отказовое

 

 

 

 

 

 

6

 

 

1

 

 

нет

 

3,2

 

 

Отказовое

 

 

 

 

 

 

7

 

 

1,2

 

 

нет

 

3

 

 

Рабочее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P t 2 P

t P t ;

 

 

 

 

 

 

 

 

 

 

 

 

1

 

1

 

2

 

 

 

 

 

 

 

 

 

 

 

P

t

2 P t

2 P t P t ;

(1.19)

 

 

 

 

 

 

 

2

 

 

 

2

1

3

 

 

 

 

 

 

 

P

P t 2 P

t ,

 

 

 

 

 

 

 

 

 

 

3

 

3

2

 

 

 

 

 

 

 

 

где P

t P t P t P t ;

P t

P

t P t P t .

 

 

 

 

 

 

2

2

3

7

 

3

4

5

6

 

 

 

 

 

 

 

 

Такому частному случаю соответствует граф,

приведенный на рис

.

1.5, г.

Здесь вершине 2* соответствует состояние, когда работают две микро-ЭВМ, резерва нет, причем в состояние, когда работают первая и вторая микро-ЭВМ, система переходит лишь из отказового состояния.

Применяя преобразование Лапласа к системе дифференциальных уравнений

(1.19) с учетом начальных

условий

P

0 1, P 0 P 0 0 , получим систему

 

 

 

1

2

3

алгебраических уравнений

 

 

 

 

s P s 1 2 P

s P s ;

 

 

1

1

 

2

 

 

 

 

 

P s ;

s P s 2 P s 2 P s

 

2

1

 

2

3

s P s 2 P s

P s .

 

 

3

2

 

3

 

 

 

 

Решение ее дает изображение вероятностей:

 

P s s2

2 s 2

 

 

 

 

 

 

 

2 2

(1.20)

 

 

 

1

 

 

 

 

 

 

 

 

s s2 2 s 2 4 2

 

 

 

 

 

 

s

2 s

 

 

 

 

 

 

 

 

2 2

 

 

 

 

 

P2

 

 

 

 

s s2 2 s 2 4 2

 

(1.21)

 

 

P s

4 2

s s2

2 s 2 4 2 2 2

 

 

(1.22)

 

 

3

 

 

 

 

 

 

 

 

 

 

В соответствии с определением функции готовности (1.9) значение функции

готовности для данной системы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

K

Г

t

1 P t ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

1

 

 

 

exp A B t

 

 

 

 

 

P3 t 4 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

2

A

B 2

B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp A B t

- оригинал изображения P s ; A 2 ;

B 2 .

 

 

 

 

 

A B 2 B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В

 

соответствии

с определением

(1.10)

коэффициент

готовности

 

K

 

lim 1 P

2

4 2 2

2

.

 

 

 

 

 

 

 

Г

t

3

 

 

 

 

 

 

 

 

 

 

 

Среднее время работы между двумя отказами tcp и среднее время восстановления /в вычисляем, используя выражение (1.13) и (1.14) В частности, из выражений (1.20)-(1.22) находим финальные вероятности:

Pф 2

4 2 2 2

1

P ф 2 2 4 2 2 2

P ф 4 2 3 4 2 2 2

Тогда, поскольку для рассматриваемой системы L=2, M=N=1, находим

 

 

 

 

 

l 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Plф

 

 

 

Pф P ф

 

1

 

1

 

;

 

 

 

 

 

l 1

 

 

 

 

 

t

ср

 

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

l 2

 

 

 

 

ф

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ф

 

P3

 

 

 

 

 

 

 

 

2 i,l

P2 i

 

 

 

 

 

 

 

 

 

 

 

 

i 1

l 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

P2ф i

 

 

 

P ф

 

1

 

 

 

 

 

 

 

 

 

 

tВ

 

 

i 1

 

 

 

3

 

 

.

i 1

l 2

 

 

ф

 

 

 

 

2 i,l

 

ф

P3

 

 

 

 

 

 

P2 i

 

 

 

 

 

i 1

l 1

 

 

 

 

 

 

 

Если поведение рассматриваемой системы нас интересует лишь до первого отказа системы в целом, т. е. система рассматривается как невосстанавливаемая, то граф состояний системы, очевидно, изменится. Данная система никогда не попадает в состояние, когда работают первая и вторая микро-ЭВМ, а третья находится в ремонте, поэтому все различные отказовые состояния можно заменить

одним (рис 1.5, д). Система дифференциальных уравнений Колмогорова при этом имеет вид

 

P t

2

P

t P t

2

P t ;

 

1

1

 

 

1

 

1

2

 

 

 

 

 

3

 

P t

 

P t

P t ;

(1.23)

 

2

 

1

 

 

2

 

3

2

 

 

1

1

 

 

 

P t

2

 

3

P t

 

2

P

t

;

 

 

3

 

 

 

1

 

3

 

 

1

 

 

 

 

P t

2

 

3

 

P t

 

3

P

t .

 

 

4

 

 

 

2

 

1

 

 

3

 

 

 

 

 

 

Решая

систему

(1.23) операторным методом в предположении, что

 

 

2

,

 

 

2

и

начальные условия P

0 1, P

0 P

0 P 0 0 , получаем

1

 

 

1

 

 

1

2

3

4

изображение вероятности нахождения системы в рабочем состоянии в любой момент времени:

 

P s

P

s P s P s s 4

s2 s

4 4 2

.

 

 

 

 

1

2

 

3

 

 

 

 

 

Переходя к оригиналу, определим

 

 

 

 

 

 

 

P t

 

8 2

exp

A B t

 

8 2

exp

A B t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A B B

 

 

 

B A B

 

2

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где A 4 ,

B

 

2

8 .

 

 

 

 

 

 

 

 

Используя соотношение (1.7), вычислим наработку на отказ системы:

T P s

 

 

 

4

 

1

 

1

 

 

(1.24)

 

 

 

 

 

 

 

 

0

 

s 0

 

4 2

 

 

 

 

 

 

 

 

 

 

4

 

Из (1.24) нетрудно видеть, что наработка на отказ системы в целом с восстановлением отдельных микро-ЭВМ в процессе эксплуатации в 4 - раза

больше наработки на отказ системы без восстановления отдельных микро-ЭВМ (случай 0 ). Так, если принять наработку на отказ отдельной микро-ЭВМ 100 ч, а время восстановления 0,5 ч, то наработка на отказ системы возрастет в 51 раз. Это очень важное замечание, если учесть, что наработка на отказ изделия для случая скользящего ненагруженного резерва без восстановления отказавших элементов

T

m 1

 

 

1

(1.25)

 

 

0

n

 

 

 

 

 

 

где - параметр потока отказов одного элемента изделия; n и т - число основных и резервных элементов изделия; весьма медленно растет с увеличением числа резервных элементов в изделии. Применение восстановления отказавших элементов (где это допустимо по условиям эксплуатации) является одним из эффективных путей повышения надежности вычислительных систем.

Пути повышения надежности МП ИУВС. Надежность ИУВС растет по мере совершенствования элементной базы. В частности, применение микропроцессорных наборов БИС, БИС ЗУ, матричных кристаллов ведет к уменьшению числа элементов и межсоединений (паек, сварок) в средствах вычислительной техники. Однако из-за тенденции постоянного увеличения функциональных возможностей средств вычислительной техники число элементов в системах остается достаточно большим.

Если резерв в ИУВС отсутствует, то практически невозможно достичь приемлемых показателей надежности. Так как в инженерной практике считают, что вычислительное средство надежно, если в течение некоторого интервала времени

t вероятность безотказной

работы P t 0,997 , то при 10 4

10 7 1/ч и числе

элементов в системе n 104

105 время безотказной работы в

указанном выше

смысле составляет лишь единицы часов:

 

P t exp n t 1 n t 0,997 , t 0,003

(1.26)

 

n

 

Например, при 10 7

и n 104 t 3 ч. Так как существенно уменьшить п и

нельзя, то и увеличить t без применения резерва практически не удается. Опыт эксплуатации электронной техники показывает, что интенсивность отказов элементов при ее хранении примерно на порядок ниже, чем при работе в реальных условиях эксплуатации, т. е. хр 0,1 [1]. Это означает, что применение

ненагруженного резерва без восстановления может снизить n t не более чем в 10 раз. Такой подход дает возможность создавать средства вычислительной техники, работающие безотказно практически лишь в течение десятков часов, что не решает проблемы резкого повышения надежности ИУВС.

Теоретически введением избыточности в структуру ИУВС можно создать сколь угодно надежную вычислительную систему. Но не всегда это практически выполнимо. Для подтверждения этого тезиса сравним количественные показатели надежности: 1) нерезервированной ИУВС, характеризуемой параметром потока отказов и параметром потока восстановлении ; 2) дублированной ИУВС

(общее резервирование) с восстановлением отказавших ЭВМ; 3) дублированной ИУВС (поэлементное резервирование) с восстановлением отказавших элементов; 4) ИУВС, состоящей из п основных и т резервных равнонадежных ЭВМ (предполагается, что параметр потока отказов каждой ЭВМ равен , восстановление отказавших ЭВМ с параметром возможно в процессе работы системы).

Для нерезервированной ИУВС

P t exp t ;

K Г

 

;

tср 1

 

;

 

 

 

 

 

 

 

для ИУВС с общим нагруженным дублированием и восстановлением

P

t

4 2

exp

B A t

 

4 2

 

 

 

 

 

общ

B A B

 

 

 

B A B

 

 

 

2

 

exp B A t2

 

2

2

 

1

 

 

 

K Г общ

 

 

; tср общ

 

1

 

 

 

2 2

2 2

 

 

 

 

 

 

2

где A 3 ; B 2 2 6 .

Несмотря на то что общее нагруженное дублирование с восстановлением отказавших ЭВМ ведет к росту K Г , tср , тем не менее, вероятность безотказной

работы порядка 0,997 обеспечивается лишь в течение десятка часов. Действительно, так как наработка на отказ современных ЭВМ не превышает нескольких сотен часов, а среднее время восстановления не меньше 0,5 ч при

0,01 0,004 1/ч и

 

0,005 0,002, то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

4

 

 

tср общ

 

1

 

 

 

1 6,25 10 ч.

 

 

 

 

 

 

 

 

 

2

 

При этом интервал времени t ,

в течение которого Pобщ t 0,997 , составляет

лишь 10—25 ч, что но крайней мере на два порядка ниже, чем требуется в ряде прикладных задач управления техническими объектами. Чтобы достичь t 1000ч, нужно либо уменьшить tВ до 10 мин, либо при tВ 0,5 ч и tср 100ч применять

четырехкратный общий резерв. Такая высокая кратность резервирования вряд ли реализуема на практике по экономическим соображениям. Из приведенного анализа следует важный практический вывод: обеспечить высокую надежность ИУВС путем общего нагруженного резерва не представляется возможным по экономическим соображениям.

Известно, что наибольший эффект дает поэлементное резервирование. Для средств вычислительной техники с поэлементным нагруженным дублированием и восстановлением отказавших элементов

tср эл n 2 2

(1.27)

где п - число элементов в ЭВМ.

Как следует из (1.27), наработка на отказ такой системы в п раз больше по сравнению с наработкой на отказ в случае общего нагруженного дублирования. Так как число элементов п современных ИУВС велико, то наработка на отказ восстанавливаемых ИУВС с поэлементным дублированием соизмерима с долговечностью элементов. Расчеты показывают, что вероятность безотказной работы такой ЭВМ настолько велика, что ИУВС можно считать идеально надежной в течение тысяч часов. Использование поэлементного резервирования для обеспечения надежности ИУВС, несмотря на высокую эффективность, крайне затруднительно. Это объясняется тем, что его техническая реализация практически невозможна для современной элементной базы.

Построение ИУВС как вычислительных систем, состоящих из п основных и m ненагруженных резервных равно-надежных ЭВМ с параметром потока отказов, восстановление которых с параметром допускается в процессе работы системы, является практически осуществимым путем создания высоконадежных

ИУВС.

Уже при m 2 3 и

n 102

наработка на отказ tср 104 106 ч, так как

при

1

 

 

 

 

 

 

tср

 

m

1 .

 

n

 

 

 

 

Вытекающими из выше приведенных рассуждении практическими рекомендациями по построению надежных ИУВС следует считать: введение структурной избыточности путем построения узлов, устройств и вычислительных систем с изменяющейся архитектурой при возникновении отказов отдельных изделий; ремонт отказавших изделий без нарушения функционирования ИУВС в целом; создание бессбойного математического обеспечения.

Примеры высоконадежных МП ИУВС. К ИУВС, используемым для исследования космоса, предъявляются особо жесткие требования по надежности.

В аэрокосмических ИУВС, разрабатываемых в начале 80-х годов без применения микропроцессоров, жесткие ограничения по габаритным размерам, массе и мощности потребления не позволяли использовать многопроцессорную архитектуру с заменой отказавших процессоров. Повышение надежности ИУВС достигалось, например в аэрокосмической ЭВМ STAR [2], применением: резервных модулей с заменой отказавшего модуля путем надлежащей коммутации лишь цепей питания; специального процессора диагностики и устранения неисправностей, внутреннего самоконтроля процессора диагностики путем трехкратной избыточности; относительно сложных методов контроля вычислений (арифметика в остаточных классах), корректирующих кодов; повторных просчетов для обнаружения и коррекции сбоев.

Успехи электронной промышленности и схемотехники, в первую очередь микропроцессоры и КМДП БИС, позволили разделять ИУВС на модули на уровне микропроцессоров. Это привело к использованию методов обнаружения и устранения отказов и сбоев: 1) попарная синхронная работа микропроцессоров, которые автоматически заменяются новой парой микропроцессоров при обнаружении несовпадения результатов работы первой пары; 2) работа микропроцессоров тройками с использованием голосования для локализации и коррекции ошибок (трехкратное мажорирование); 3) применение микропроцессоров со встроенными средствами самопроверки и увеличение числа микропроцессоров в системе (мультимикропроцессорные ИУВС) с целью замены отказавших процессоров резервными.

Пример 4.3. Пример архитектуры, устойчивой к отказам аэрокосмической ЭВМ (МП ИУВС распределенного типа) [2], приведен на рис. 1.6, а, где 1 - командный МП; 2 - МП преобразования форматов; 3 - резерв МП; 4 - МП телекамеры; 5 - МП научных инструментов, 6 - МП управления инженерными службами; 7 - МП управления положением космического корабля; 8 - ЗУ; 9 - МП связи; 10 - троированная магистраль системы.

Архитектура микропроцессора со встроенными средствами проверки, используемого для построения всех МП системы, приведена на рис. 1.6, б, где 1 - контроллер магистрали; 2 - резервированный адаптер магистрали; 3 - корректируемое по Хеммингу ЗУ; 4 - управляющая часть микропроцессора; 5 - резервированный процессорный блок; 6 - резервированное УВВ; 7 - троированная магистраль системы; 8 - внутренняя магистраль МП; 9 - магистраль ввода-вывода.

Ответ самопроверяемого модуля на внутренний отказ заключается в выставлении флажка - индикатора отказа. Схема всей системы с использованием вышеописанных микропроцессоров приведена на рис. 4.6, в, где 1 - МП; 2 - ЗУ; 3 - контроллер магистрали; 4 - адаптер магистрали; 5 - УВВ; 6 - резервированные магистрали ввода-вывода; 7 - троированная магистраль системы; 8 - модуль высокого уровня; 9 - терминальный модуль.