Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОТу экзмен ответ.docx
Скачиваний:
37
Добавлен:
22.12.2018
Размер:
380.84 Кб
Скачать

46. Принцип максимума л.С. Понтрягина для задач терминального управления

с нефиксированной продолжительностью процесса

Рассмотрим следующую задачу оптимального управления

=f(x, u, t), x(t0)=x0, (13.2.1)

u(t)U, t0tt1. (13.2.2)

J(u) = (x(t1)). (13.2.3)

Момент t1 не известен. Допустим, что решение задачи (13.2.1)-(13.2.3) существует. Это значит, что найдется такой оптимальный момент времени t1* и управление u*(t), заданное на отрезке t0tt1, что

J(u*) = (x*(t1*)) =(x(t1)), t1>t0, t0tt1.

Рассмотрим задачу (13.2.1)-(13.2.3) при t1=t1*. В этом случае задача (13.2.1)-(13.2.3) есть задача с фиксированным временем и следовательно оптимальное управление u*(t) в этой задаче будет совпадать с оптимальным управлением в задаче (13.2.1)-(13.2.3) с фиксированным временем и по доказанному оно обязано удовлетворять принципу максимума.

Получим дополнительное условие, определяющее специфику задачи. Найдем дополнительное соотношение, которому удовлетворяет оптимальный момент времени t1*.

Пусть t1 > t0 произвольный момент и Δt1 приращение времени, такое что t1t1 > t0. Δt1 может принимать достаточно малые приращения.

Найдем приращение функционала (13.2.3), соответствующее приращению момента t1–Δt1. Пусть задано некоторое допустимое управление u(t), t0tt1 и x(t) соответствующая ему фазовая траектория.

(Если t1t1>t1, то расширим промежуток регулирования, при этом управление на отрезке [t1, t1t1] доопределяется произвольным образом, не выходя из области допустимых управлений с сохранением непрерывности в точке t1).

Рассмотрим приращение функционала, соответствующее приращению Δt1. Тогда

J(u) = (x(t1+Δt1))(x(t1)) = == –ψ(t1f(x(t1), u(t1), t1) = –H(x(t1), ψ(t1), u(t1), t1) . (13.2.4)

Рассмотрим приращение функционала вдоль оптимального процесса u*(t), x*(t), ψ*(t), t0tt1.

Тогда .

Учитывая произвольность приращения Δt1 из формулы (13.2.4) для приращения функционала получаем, что функция Гамильтона Н, подсчитанная в оптимальный момент t1* должна равняться нулю в силу произвольности Δt1 .

H(x*(t1*), ψ*(t1*), u*(t1*), t1*) = 0.Это есть дополнительное условие, характеризующее оптимальный момент времени t1*.

Теорема 13.2. Пусть u(t), t0tt1, некоторое допустимое управление в задаче оптимального управления (13.2.1)-(13.2.3) с нефиксированным моментом времени t1; x(t), ψ(t) соответствующие этому управлению фазовая и сопряженная траектории.

Для оптимальности управления u(t) и момента t1 необходимо, чтобы выполнялось условие максимума функции H

,

а в конечный момент t1 было выполнено условие H(x(t1), ψ(t1), u(t1), t1) = 0.

Следствие 1. Если система (13.2.1) стационарна = f(x, u), то вдоль управления, удовлетворяющего принципу максимума H(x(t), ψ(t), u(t)) ≡ 0, t0tt1.

48. Свойства функции Гамильтона. Достаточность принципа максимума для линейных систем

Управление u(t) у нас кусочно-непрерывно, x(t), ψ(t) – непрерывны по t. Поэтому в общем случае функция Гамильтона кусочно-непрерывна по t. Оказывается, если управление удовлетворяет принципу максимума, то функция Гамильтона непрерывна и даже кусочно-дифференцируема по t вдоль всех процессов, подозрительных на оптимальность. Таким образом, вдоль оптимального процесса функция Гамильтона обладает повышенной гладкостью.

Теорема 13.3. Пусть вектор-функция f(x, u, t), задающая правую часть системы, непрерывна по своим аргументам вместе с частными производными по x - ∂f/∂x и по t - ∂f/∂t.

Если допустимое управление u(t) удовлетворяет принципу максимума, то функция Гамильтона M(t)=H(x(t), ψ(t), u(t), t),

вдоль этого управления является непрерывной и кусочно-дифференцируемой функцией времени на [t0, t1]. Причем, в точках непрерывности управления u(t), производная dM/dt существует и равна.(Функция Гамильтона дифференцируема во всех точках непрерывности управления).

Доказательство: Рассмотрим приращение M(t) в некоторой произвольной точке

t0 ≤ t ≤ t1.

ΔM(t)=M(t+Δt)-M(t)=H(x(t+Δt), ψ(t+Δt), u(t+Δt), t+Δt)-H(x(t), ψ(t), u(t), t)=H[t+Δt]-H[t].

Т.к. u(t) удовлетворяет принципу максимума, то имеет место неравенствоH[t+Δt] ≥ H(x(t+Δt), ψ(t+Δt), u(t), t+Δt),

(по сравнению, с какими угодно управлениями и в частности, по сравнению с u(t)). АналогичноH[t] ≥ H(x(t), ψ(t), u(t+Δt), t). Произведем оценку приращения ΔM(t) ΔM(t) ≤ H(x(t+Δt), ψ(t+Δt), u(t+Δt), t+Δt) - H(x(t), ψ(t), u(t+Δt), t)=A(Δt).

Управление никакого приращения не получает. С другой стороны ΔM(t) ≥ H(x(t+Δt), ψ(t+Δt), u(t), t+Δt) - H(x(t), ψ(t), u(t), t)=В(Δt). Таким образом имеем оценку B(Δt) ≤ ΔM(t) ≤ A(Δ (13.4.1)

Перейдем к пределу при Δt→0. Т.к. вектор-функции x(t), ψ(t) непрерывны по t, а функция Гамильтона непрерывна по своим аргументам, то при Δt→0, A(Δt)→0, B(Δt)→0. В A(Δt), B(Δt) управление приращения не получает. Отсюда следует: ΔM(t)→0, что и доказывает непрерывность функции M(t).

Докажем дифференцируемость. Пусть t точка дифференцируемости управления u(t). Т.е.u(t+Δt)=u(t).

Тогда x(t), ψ(t) будут являться дифференцируемыми в точке t, т.е. их производные в этой точке будут являться непрерывными. Тогда в этой точке производные существуют и непрерывны. Поделим неравенство (13.4.1) на приращение Δt (Δt – произвольное приращение)..

Если Δt<0, то неравенство переменится. Будет иметь противоположный смысл при Δt<0.

Пусть Δt→0 и рассмотрим, как ведут себя эти отношения. Тогда .

H/∂x существует, поскольку существует ∂f/∂x ; ∂H/∂t существует, т.к. существует ∂f/∂t .

Эти производные существуют и непрерывны.

Следовательно, . существует и равен ∂H/∂t. .

Таким образом, вдоль управления, удовлетворяющего принципу максимума.

Следствие 1. Пусть исходная система является стационарной (правые части явно от времени не зависят):

=f(x, u). В этом случае H = H(x, ψ, u), также явно от t не зависит. Следовательно, вдоль управления, удовлетворяющего принципу максимума . Отсюда, учитывая непрерывность H по времени, получаем

H(x(t), ψ(t), u(t)) ≡ C, для любых t0tt1. Из механики известно, что если система дифференциальных уравнений описывает механическую систему, то функция Гамильтона Н описывает полную энергию. Это свойство равносильно закону сохранения энергии.

Теорема 13.4. Для оптимальности допустимого управления u(t) в задаче оптимального управления, линейной по фазовым переменным

=A(t) x + b(u, t), (13.4.2)

x(t0) = x0, u(t)U, t0 ≤ t ≤ t1. (13.4.3)

J(u) = (x(t1)) → min, (13.4.4)

где (x) выпуклая функция, необходимо и достаточно, чтобы оно удовлетворяло принципу максимума.

Рассмотрим следующую линейную задачу:

=A(t)x + B(t)u + W(t), x(t0)=x0, u(t)U, t0 ≤ t ≤ t1. J(u) = x(t1) → min,

C – заданный n-мерный вектор.

Для этой задачи в силу теоремы 13.4 принцип максимума есть необходимое и достаточное условие оптимальности. Найдем управление, удовлетворяющее принципу максимума в сформулированной задаче.

H=ψ(t)’x +ψ’B(t)u +ψ’W(t).

Сопряженная система (13.4.5)

Сопряженная система (13.5.5) не зависит от выбора управления u и является замкнутой. Найдем управление, удовлетворяющее принципу максимума. Это управление и будет являться оптимальным управлением. Чтобы найти максимум нужно максимизировать линейную форму по u.B(t)u* = B(t)u, t0tt1. (13.4.6) Таким образом, оптимальное управление для сформулированной линейной задачи определяется из условия (13.4.6), где ψ=ψ(t) есть решение сопряженной системы (13.4.5).