Принцип максимума Понтрягина: Курсовая работа

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ
РОССИЙСКОЙФЕДЕРАЦИИ
ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Кафедра «Математика и суперкомпьютерное моделирование»
КУРСОВАЯ РАБОТА
По дисциплине «Численные и аналитические методы оптимизации»
На тему «Принцип максимума Понтрягина»
ПГУ. Б1.23 19ВМ1.03
Направление подготовки: 01.03.01 Математика
Профиль подготовки: Вычислительная математика и компьютерные науки
Выполнил:
____________
И.А. Голубев
____________
М.А. Москалёва
ст. гр. 19ВМ1
Руководитель:
к.ф.-м.н.
Работа защищена с оценкой
____________________
Преподаватели
____________________
Дата защиты
____________________
Пенза 2022
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ
РОССИЙСКОЙ ФЕДЕРАЦИИ
ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
«УТВЕРЖДАЮ»
Зав. Кафедрой МСМ
____________ Ю.Г. Смирнов
ЗАДАНИЕ
На курсовую работу по дисциплине
«Численные и аналитические методы оптимизации»
Тема: «Принцип максимума Понтрягина»
1) Изучить литературу по теме курсовой работы.
2) Информативно изложить изученный материал.
3) Самостоятельно привести примеры и решить их.
Руководитель работы к.ф.-м.н., доцент
--2--
М.А. Москалёва
1 Введение
СОДЕРЖАНИЕ
1.
Введение ................................................................................................... 4
2.
Допустимые управления ......................................................................... 5
3.
Постановка основной задачи .................................................................. 8
4.
Принцип максимума ............................................................................. 17
5.
Вывод ...................................................................................................... 26
6.
Литература ............................................................................................. 27
1 Введение
--3--
1. Введение
В данной курсовой работе будет рассмотрен принцип максимума
Понтрягина. Это принцип позволяет решать ряд задач математического и
прикладного
характера,
которые
являются
вариационными,
но
не
укладываются в классическую схему вариационного исчисления. Между тем
к задачам такого неклассического типа приводят многие вопросы техники.
--4--
1 Введение
2. Допустимые управления
Мы будем рассматривать поведение объекта, состояние которого в
каждый момент времени характеризуются n действительными числами
𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 (например, координатами и скоростями). Векторное пространство
𝑋 векторной переменной 𝑥 = (𝑥 1 , … , 𝑥 𝑛 ) является фазовым пространством
рассматриваемого объекта. Поведение (движение) объекта заключается (с
математической точки зрения) в том, что переменные 𝑥 1 , … , 𝑥 𝑛 меняются с
течением времени. Предполагается, что движением объекта можно управлять,
т. е. что объект снабжён некоторыми «рулями», от положения которых зависит
движение объекта. Положения «рулей» характеризуется точками 𝑢 и
некоторой области управления 𝑈, которая может быть любым множеством
некоторого 𝑟-мерного евклидова пространства 𝐸𝑟 ; задание точки 𝑢 =
(𝑢1 , 𝑢2 , … , 𝑢𝑟 ) ∈ 𝑈 равносильно заданию системы числовых параметров
𝑢1 , 𝑢2 , … , 𝑢𝑟 . В приложениях важен случай, когда 𝑈 является замкнутой
областью пространства 𝐸𝑟 . В частности, область управления 𝑈 может быть
кубом 𝑟-мерного пространства переменных 𝑢1 , 𝑢2 , … , 𝑢𝑟 :
𝑢1 ≤ 1, 𝑗 = 1,2, … , 𝑟,
(1)
или каким-либо другим замкнутым ограниченным множеством 𝑟-мерного
пространства. Физический смысл рассмотрения замкнутой и ограниченной (в
пространстве переменных 𝑢1 , 𝑢2 , … , 𝑢𝑟 ) области управления 𝑈 ясен:
управляющими
параметрами
𝑢1 , 𝑢 2 , … , 𝑢 𝑟
могут
служить
количество
подаваемого в двигатель топлива, температура, сила тока, напряжение и т. п.,
которые не могут принимать сколько угодно больших значений. Кроме того,
в силу технической конструкции управляющей части объекта, между
управляющими
параметрами
𝑢1 , 𝑢 2 , … , 𝑢 𝑟
могут
существовать
связи
выражаемые одним или несколькими уравнениями вида φ(𝑢1 , 𝑢2 , … , 𝑢3 ) = 0.
В этом случае область управления 𝑈 может геометрически иметь более или
менее сложный характер. Если, например, имеются два управляющих
2 Допустимые управления
--5--
параметра 𝑢1 , 𝑢2 , которые в силу конструкции объекта имеют вид 𝑢1 =
𝑐𝑜𝑠(φ), 𝑢2 = 𝑠𝑖𝑛(φ), где φ — некоторый (произвольно задаваемый) угол, то
областью управления будет окружность
(𝑢1 )2 + (𝑢2 )2 = 1.
(2)
В дальнейшем мы просто будем говорить об области управления 𝑈 и её
точках 𝑢 ∈ 𝑈 и будем представлять себе представлять себе 𝑈 в виде
некоторого множества в пространстве переменных 𝑢1 , 𝑢2 , … , 𝑢𝑟 , считая его
«точкой» 𝑢 произвольную входящую в 𝑈 систему управляющих параметров
𝑢 = (𝑢1 , 𝑢2 , … , 𝑢𝑟 ) ((1) или (2)).
Каждую функцию 𝑢 = 𝑢(𝑡), определенную на некотором отрезке 𝑡0 ≤ 𝑡 ≤
𝑡1 времени 𝑡 и принимающую значения в области управления 𝑈, мы будем
называть управлением. Так как 𝑈 есть множество в пространстве
управляющих параметров 𝑢1 , 𝑢2 , … , 𝑢𝑟 , то каждое управление
𝑢(𝑡) = (𝑢1 (𝑡), 𝑢2 (𝑡), … , 𝑢𝑟 (𝑡)).
Является вектор-функцией (заданной на отрезке 𝑡0 ≤ 𝑡 ≤ 𝑡1 ), значения
которой лежат в области управления 𝑈. В дальнейшем, в зависимости от
характера поставленной задачи, мы будем накладывать на управление 𝑢(𝑡)
различные условия (кусочной непрерывности, кусочной дифференцируемости
и т.п.). Управления, удовлетворяющие этим условиям, будем называть
допустимыми управлениями. Мы будем считать допустимыми управлениями
кусочно-непрерывные управления (со значениями в области 𝑈), т.е. такие
управления u=u(t), каждое из которых непрерывно для всех рассматриваемых
𝑡, за исключением лишь конечного числа моментов времени, где функция 𝑢(𝑡)
может терпеть разрывы первого рода. Во избежание недоразумений, в точке
разрыва τ предполагается существование конечных пределов
--6--
2 Допустимые управления
𝑢(τ − 0) = lim 𝑢(𝑡),
𝑢(τ + 0) = lim 𝑢(𝑡),
𝑡 < τ;
𝑡 > τ.
𝑡→τ
𝑡→τ
Из этого, в частности, следует, что всякое управление 𝑢(𝑡) ограниченно
(даже если область 𝑈 не является ограниченной).
Значение кусочно-непрерывного управления 𝑢(𝑡) в точке разрыва играет
сколько-нибудь
существенной
роли
в
дальнейшем.
Однако
для
определённости нам удобно предполагать, что в каждой точке разрыва τ
значение управления u(t) равно пределу слева:
𝑢(τ) = 𝑢(τ − 0).
(3)
И что каждое рассматриваемое управление 𝑢(𝑡) непрерывно в концах
отрезка 𝑡0 ≤ 𝑡 ≤ 𝑡1 , на котором оно задано.
Итак, допустимыми управлением мы условимся называть всякую
кусочно-непрерывную функцию 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 , со значениями в области
управления 𝑈, удовлетворяющую условию (3) в точках разрыва и
непрерывную в концах отрезка 𝑡0 ≤ 𝑡 ≤ 𝑡1 , на котором она задана. Кусочнонепрерывные
управления
соответствуют
предположению
о
«безынерционности» рулей, так как значения функции 𝑢(𝑡) могут (в момент
разрыва) мгновенно перескакивать из одной точки в другую. Этот класс
допустимых управлений, по-видимому, наиболее интересен для технических
применений развиваемой здесь теории.
2 Допустимые управления
--7--
3. Постановка основной задачи
Мы будем предполагать, что закон движения объекта (и закон
воздействия «рулей» на это движение) записывается в виде системы
дифференциальных уравнений
𝑑𝑥 𝑖
= 𝑓 𝑖 (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 , 𝑢1 , … , 𝑢’) = 𝑓 𝑖 (𝑥, 𝑢),
𝑑𝑡
(4)
𝑖 = 1,2, … , 𝑛;
или
𝑑𝑥
= 𝑓(𝑥, 𝑢),
𝑑𝑡
𝑓(𝑥, 𝑢) — вектор координат
(5)
𝑓 1 (𝑥, 𝑢), 𝑓 2 (𝑥, 𝑢), … , 𝑓 𝑛 (𝑥, 𝑢).
Функция 𝑓 𝑖 определены для любых значений векторной переменной 𝑥 ∈
𝑋 и для значений 𝑢, принадлежащих области управления 𝑈. Они
предполагаются непрерывными по совокупности переменных 𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 , 𝑢
и непрерывно дифференцируемыми по 𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 . Иначе говоря, функции
𝑓 𝑖 (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 , 𝑢)
и
𝑑𝑓 𝑖 (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 , 𝑢)
𝑑𝑥 𝑗
𝑖, 𝑗 = 1,2, … , 𝑛
определены и непрерывны на прямом произведении 𝑋 х 𝑈.
--8--
3 Постановка основной задачи
Заметим, что система (4) автономна, т.е. правые её части не зависят явно
от времени 𝑡.
Если задан закон управления, т.е. выбрано некоторое допустимое
управление 𝑢 = 𝑢(𝑡), то уравнение (5) принимает вид
𝑑𝑥
= 𝑓(𝑥, 𝑢(𝑡)).
𝑑𝑡
(6)
Откуда (при любых начальных условиях 𝑥(𝑡0 ) = 𝑥0 ) однозначно
определяется закон движения объекта 𝑥 = 𝑥(𝑡), т.е. решение уравнения (6),
определённое на некотором отрезке времени. Именно, если управление 𝑢(𝑡)
задано на отрезке 𝑡0 ≤ 𝑡 ≤ 𝑡1 и θ1 , θ2 , … , θn — его точки разрыва (первого
рода), причём 𝑡0 < θ1 < θ2 < ⋯ < θ𝑘 < 𝑡1 , то мы рассмотрим сначала
уравнение (6) на отрезке 𝑡0 ≤ 𝑡 ≤ θ1 , где оно имеет непрерывную правую
часть. Обозначим через 𝑥(𝑡) решение этого уравнения c начальным условием
𝑥(𝑡0 ) = 𝑥0 . Если это решение определено на всём отрезке 𝑡0 ≤ 𝑡 ≤ θ1 и имеет
в точке θ1 значение 𝑥(𝜃1 ). Это решение также обозначим через 𝑥(𝑡). Таким
образом, построенное решение 𝑥(𝑡) непрерывно во всех точках своего
определения и, в частности в «точке сопряжения» θ1 . Если теперь решение
𝑥(𝑡) определено на всём отрезке 𝑡0 ≤ 𝑡 ≤ θ2 и имеет в точке θ2 значение 𝑥(θ2 )
и т.д. Полученное таким образом решение 𝑥(𝑡) уравнения (6) является
непрерывным и кусочно дифференцируемым; именно, во всех точках, кроме
θ1 , θ2 , … , θ𝑘 , решение 𝑥(𝑡) (там, где оно определено) является непрерывно
дифференцируемым. Построенное решение 𝑥(𝑡) мы будем называть решением
системы (4) (или уравнения (5)), соответствующим управлению 𝑢(𝑡) при
начальном условии 𝑥(𝑡0 ) = 𝑥0 . Это решение может не быть определено на
всём отрезке 𝑡0 ≤ 𝑡 ≤ 𝑡1 задания управления 𝑢(𝑡) (оно может уйти в
бесконечность).
3 Постановка основной задачи
--9--
Мы будем говорить, что допустимое управление 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 ,
переводит фазовую точку из положения 𝑥3 в положение 𝑥1 , если
соответствующее ему решение 𝑥(𝑡) уравнения (5) (или (6)), удовлетворяющее
начальному условию 𝑥(𝑡0 ) = 𝑥0 ,определено на всём участке 𝑡0 ≤ 𝑡 ≤ 𝑡1 и
проходит в момент 𝑡1 через точку 𝑥1 , т.е. удовлетворяет также конечному
условию 𝑥(𝑡1 ) = 𝑥1 .
Предположим теперь, что задана ещё одна функция 𝑓 0 (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 , 𝑢) =
𝑓 0 (𝑥, 𝑢), определённая и непрерывная вместе с частными производными
𝑑𝑓0
𝑑𝑥 𝑖
, 𝑖 = 1,2, … , 𝑛, на всём пространстве 𝑋 х 𝑈. Тогда основная задача
(отыскание
оптимальных
управлений)
может
быть
сформулирована
следующим образом.
В фазовом пространстве 𝑋 даны две точки 𝑥0 и 𝑥1 . Среди всех
допустимых управлений 𝑢 = 𝑢(𝑡), переводящих фазовую точку из положения
𝑥0 в положение 𝑥1 (если такие управления существуют), найти такое, для
которого функционал
𝑡1
𝐽 = ∫ 𝑓 0 (𝑥(𝑡), 𝑢(𝑡))
(7)
𝑡0
принимает наименьшее возможное значение; здесь 𝑥(𝑡) — решение
уравнения
(5)
с
начальным
условием
𝑥(𝑡0 ) = 𝑥0 ,
соответствующее
управлению 𝑢(𝑡), а 𝑡1 — момент прохождения этого решения через точку 𝑥1 .
Отметим, что (при фиксированных 𝑥0 , 𝑥1 ) верхний и нижний пределы
𝑡0 , 𝑡1 в интеграле (7) не являются фиксированными числами, а зависят от
выбора управления 𝑢(𝑡), переводящего фазовую точку из положения 𝑥0 в
положение 𝑥1 (эти пределы определяются из соотношений 𝑥(𝑡0 ) = 𝑥0 , 𝑥(𝑡1 ) =
𝑥1 ).
--10--
3 Постановка основной задачи
Управление 𝑢(𝑡), дающее решение поставленной выше задачи,
называется оптимальным управлением, соответствующим переходу из
положения 𝑥0 в положение 𝑥1 , а соответствующая траектория 𝑥(𝑡) —
оптимальной траекторией. Таким образом, основная задача заключается в
отыскании оптимальных управлений (и соответствующих оптимальных
траекторий).
Важным частным случаем поставленной выше оптимальной задачи
является случай, когда
𝑓 0 (𝑥, 𝑢) ≡ 1.
В этом случае функционал (7) принимает вид:
𝐽 = 𝑡1 − 𝑡0 ,
(8)
и оптимальность управления 𝑢(𝑡) означает минимальность времени перехода
из положения 𝑥0 в положение 𝑥1 . Задачу отыскания оптимальных управлений
(и траекторий) в этом случае мы будем называть задачей об оптимальном
быстродействии.
Для формулировки доказательства необходимого условия оптимальности
нам будет удобно дать иную формулировку поставленной выше задачи.
Именно, добавим к фазовым координатам 𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 , меняющимся по
закону (4), ещё одну координату 𝑥 0 , закон который имеет вид
𝑑𝑥 0
= 𝑓 0 (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 , 𝑢),
𝑑𝑡
где 𝑓 0 — функция, участвующая в определении функционала 𝐽 (см. (7)). Иначе
говоря, мы будем рассматривать систему дифференциальных уравнений
3 Постановка основной задачи
--11--
𝑑𝑥 𝑖
= 𝑓 𝑡 (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 , 𝑢1 , … , 𝑢𝑟 ) ≡ 𝑓 𝑖 (𝑥, 𝑦),
𝑑𝑡
(9)
𝑖 = 0,1,2, … , 𝑛,
правые части которой не зависят от переменного 𝑥. Вводя в рассмотрение
вектор
𝑥 = (𝑥 0 , 𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 ) = (𝑥 0 , 𝑥)
(𝑛 + 1)-мерного векторного пространства 𝑋, мы можем систему (9)
переписать в векторной форме
𝑑𝑥
= 𝑓(𝑥, 𝑢),
𝑑𝑡
где
𝑓(𝑥, 𝑢)
—
вектор
пространства
(10)
имеющий
𝑋,
координаты
𝑓 0 (𝑥, 𝑢), … , 𝑓 𝑛 (𝑥, 𝑢). Заметим, что вектор 𝑓(𝑥, 𝑢) не зависит от координаты 𝑥 0
вектора 𝑥.
Пусть теперь 𝑢(𝑡) — некоторое допустимое управление, переводящее 𝑥0
в 𝑥1 , а 𝑥 = 𝑥(𝑡) — соответствующее решение уравнения (5) с начальным
условием 𝑥(𝑡0 ) = 𝑥0 . Обозначим через 𝑥0 точку (0, 𝑥0 ), т.е. точку
пространства 𝑋, имеющую координаты 0, 𝑥01 , … , 𝑥0𝑛 , где 𝑥01 , … , 𝑥0𝑛 —
координаты точки 𝑥0 в пространстве 𝑋. Тогда ясно, что решение уравнения
(10), соответствующее управлению 𝑢(𝑡), с начальным условием 𝑥(𝑡0 ) = 𝑥0
определено на всем отрезке 𝑡0 ≤ 𝑡 ≤ 𝑡1 и имеет вид
𝑡
0
𝑥 = ∫ 𝑓 0 (𝑥(𝑡), 𝑢(𝑡))𝑑𝑡 ,
𝑡0
𝑥 = 𝑥(𝑡).
--12--
3 Постановка основной задачи
В частности, при 𝑡 = 𝑡1 мы получим
𝑡1
0
𝑥 = ∫ 𝑓 0 (𝑥(𝑡), 𝑢(𝑡))𝑑𝑡 = 𝐽 ,
𝑡
𝑥 = 𝑥1 ,
т.е. решение 𝑥(𝑡) уравнения (10) с начальным условием 𝑥(𝑡0 ) = 𝑥0 проходит
при t=t_1 через точку 𝑥 = (𝐽, 𝑥1 ). Иначе говоря, обозначив через П прямую
линию, проходящую в пространстве 𝑋 через точку 𝑥 = (0, 𝑥1 ) параллельно оси
𝑥 0 (эта прямая П образована всеми точками (𝜉, 𝑥1 )), где число ξ произвольно;
(рис. 1) мы
можем сказать, что решение 𝑥(𝑡) проходит в момент 𝑡 = 𝑡1 через точку,
лежащую на прямой П и имеющую координату 𝑥 0 = 𝐽. Обратно, если 𝑢(𝑡) —
такое допустимое управление, что соответствующее ему решение 𝑥(𝑡)
уравнения (10) с начальным условием 𝑥(𝑡0 ) = 𝑥0 = (0, 𝑥0 ) проходит в
некоторый момент 𝑡1 через точку 𝑥1 ∈ П с координатой 𝑥0 = 𝐽, то управление
𝑢(𝑡) переходит (в пространстве 𝑋) фазовую точку из положения 𝑥0 в
положение 𝑥1 , причём функционал (7) принимает значение 𝐽.
Таким образом, мы можем сформулировать поставленную выше
оптимальную задачу в следующем виде.
3 Постановка основной задачи
--13--
В (𝑛 + 1)-мерном фазовом пространстве 𝑋 даны точка 𝑥 = (0, 𝑥0 ) и
прямая П, параллельная оси 𝑂𝑋 и проходящая через точку (0, 𝑥1 ). Среди всех
допустимых
управлений
𝑢 = 𝑢(𝑡),
обладающих
тем свойтсвом,
что
соответствующее решение 𝑥(𝑡) уравненияя (10) с начальным условием
𝑥(𝑡0 ) = 𝑥0 пересекает прямую П, найти такое, котрого точка пересечения с
прямой П имеет наименьшую координату 𝑥0 .
Эту задачу мы и будем решать. Термины «оптимальных управление» и
«оптимальная траектория» мы сохраним и для задачи в этой новой
формулировке.
Отметим некоторые простые свойтсва оптимальных управлений и
траекторий, непосредственно вытекающие из формулировки основной задачи.
Прежде всего, из атономности системы (9) вытекает, что при сдвиге вдоль оси
𝑡 (рис. 2) свойства управлений не менются.
Иначе говоря, если управление 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 , переводит фазовую
точку из положения 𝑥0 в положение 𝑥1 и придаёт функционалу (7) значени 𝐽,
то при любом дейтсвительном ℎ управление 𝑢(𝑡 + ℎ), 𝑡0 − ℎ ≤ 𝑡 ≤ 𝑡1 − ℎ,
также переводит фазовую точку из положения 𝑥0 в положение 𝑥1 и придаёт
функционалу (7) то же значение 𝐽. Это позволяет перемещать начальную точку
𝑡0 отрезка 𝑡0 ≤ 𝑡 ≤ 𝑡1 , на котором задано управление u(t), в любую точку оси
времени.
--14--
3 Постановка основной задачи
Далее, если 𝑥0 , 𝑥1 , … , 𝑥𝑘 — конечная система точек фазового пространства
𝑋 и если существует управление 𝑢𝑖 (𝑡), переводящее фазовую точку из
положения 𝑥𝑖−1 в положение 𝑥𝑖 и придающее функционалу (7) значение 𝐽𝑖 , 𝑖 =
1, … , 𝑘, то существуют управление 𝑢(𝑡), переводящее фазовую точку из
положения 𝑥0 в положение 𝑥𝑘 и придающее функционалу (7) значение 𝐽1 +
𝐽2 + ⋯ + 𝐽𝑘 .
В самом деле, в силу возможности сдвигать управления вдоль оси
времени, мы можем считать, что отрезки, на которых определены управления
𝑢𝑖 (𝑡), непосредственно примыкают один к другому (рис. 3), т.е. что
управление 𝑢𝑖 (𝑡) заодно на отрезке 𝑡𝑖−1 ≤ 𝑡 ≤ 𝑡𝑖 , где 𝑡0 < 𝑡1 < ⋯ < 𝑡𝑘 .
Обозначим через 𝑢(𝑡) управление, заданное на отрезке 𝑡0 ≤ 𝑡 ≤ 𝑡𝑘 и
совпадающее на полуинтервале 𝑡𝑖−1 < 𝑡 ≤ 𝑡𝑖 с управлением 𝑢𝑖 (𝑡), т.е.
«объединение» всех управлений 𝑢𝑖 (𝑡). Непосредственно проверяется, что
управление 𝑢(𝑡) переходит фазовую точку из положения 𝑥0 , в положение 𝑥𝑘 и
придаёт функционалу (7) значение 𝐽1 + 𝐽2 + ⋯ + 𝐽𝑘 . Заметим, что указанная
опереация «объединения» нескольких управлений была бы невозможна в
классе непрерывных управлений 𝑢(𝑡) может иметь разрывы первого рода,
даже если управления 𝑢𝑖 (𝑡) были непрерывными; (рис. 3).
Из сказанного выше легко следует, что всякий кусок оптимальной
траектории также является оптимальной траекторией (и аналогично для
оптимальных управлений). Более точно, пусть 𝑢(𝑡),
3 Постановка основной задачи
𝑡0 ≤ 𝑡 ≤ 𝑡1 —
--15--
оптимальное управление, соответствующее переходу из положения 𝑥0 в
положение 𝑥1 , а 𝑥(𝑡) — соответствующая оптимальная траектория. Тогда,
если 𝑡0 ≤ τ0 ≤ τ1 ≤ 𝑡1 , то управление 𝑢(𝑡), рассматриваемое на отрезке τ0 ≤
𝑡 ≤ τ1 , является оптимальным управлением, соответсвующим переходу из
положения 𝑥(τ0 ) в положение 𝑥(τ1 ), а 𝑥(𝑡), τ0 ≤ 𝑡 ≤ τ1 является
соответствующей оптимальной траекторией (рис. 4).
В самом деле, обозначим значения интеграла (7), взятого по отрезкам 𝑡0 ≤
𝑡 ≤ τ0 , τ0 ≤ 𝑡 ≤ τ1 , τ1 ≤ 𝑡 ≤ 𝑡1 , соответсвенно через 𝐽1 , 𝐽2 , 𝐽3 . Тогда
управление 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 , переводящее фазовую точку из положения 𝑥0 в
положение 𝑥1 , придаёт функционалу (7) значение 𝐽 = 𝐽1 + 𝐽2 + 𝐽3 . Если бы
управление 𝑢(𝑡), рассматриваемое на отрезке τ0 ≤ 𝑡 ≤ τ1 , не было
оптимальным, то существовало бы некоторое управление 𝑣(𝑡), переводящее
фазовую точку из положения 𝑥(τ0 ) в положение 𝑥(τ1 ) и придающее
функционалу (7) значение 𝐽2, < 𝐽1 . Но тогда мы получили бы управление,
переводящее фазовую точку из положения 𝑥0 в положение 𝑥1 и придающее
функционалу (7) значение 𝐽1 + 𝐽2, + 𝐽3 < 𝐽, что противоречит оптимальности
управления 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 .
--16--
3 Постановка основной задачи
4. Принцип максимума
Переходим
теперь к
формулировке теоремы,
дающей
решение
поставленной основной задачи. Для формулировки теоремы, кроме основной
системы уравнений (9):
𝑑𝑥 𝑖
= 𝑓 𝑖(𝑥,𝑢) ,
𝑑𝑡
(11)
𝑖 = 0,1,2, … , 𝑛.
Мы
рассмотрим
вспомогательных
ещё
одну
(дополнительно
систему
уравнений
относительно
рассматриваемых)
переменных
ψ0 , ψ1 , … , ψ𝑛 :
𝑛
𝑑ψ𝑖
𝛿𝑓 α (𝑥, 𝑢)
= −∑
ψ𝛼 ,
𝑑𝑡
𝛿𝑥 𝑖
α=0
(12)
𝑖 = 0,1,2, … , 𝑛.
Если мы выбрали некоторое допустимые управление 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 , и
имеем соответствующую фазовую траекторию 𝑥(𝑡) системы (11) с начальным
условием 𝑥(𝑡0 ) = 𝑥0 , то система (12) принимает вид
𝑛
𝑑ψ𝑡
𝑑𝑗 α (𝑥(𝑡), 𝑢(𝑡))
= −∑
ψα ,
𝑑𝑡
𝑑𝑥 𝑖
α=0
(13)
𝑖 = 0,1, . . . , 𝑛.
Это система линейна и однородна; поэтому при любых начальных
условиях для ψ𝑖 она допускает единственное решение
ψ = (ψ0 , ψ1 , ψ2 , … , ψ𝑛 ).
4 Принцип максимума
--17--
Определённое на всём отрезке 𝑡0 ≤ 𝑡 ≤ 𝑡1 на котором определены
управление 𝑢(𝑡) и траектория 𝑥(𝑡). Как и решение 𝑥(𝑡) системы (11), решение
системы (13) состоит из непрерывных функций ψ𝑖 (𝑡), имеющих всюду, кроме
конечного числа точек (а именно, точек разрыва управления 𝑢(𝑡)),
непрерывные производные по 𝑡. Всякое решение системы (13) (при любых
начальных
условиях) мы будем называть решением системы
(12),
соответствующим выбранному управлению 𝑢(𝑡) и фазовой траектории 𝑥(𝑡).
Мы теперь объединим системы (11), (12) одной записью, для чего
рассмотрим
следующую
функцию
ℋ
переменных
𝑥 1 , … , 𝑥 𝑛 , 𝜓0 , 𝜓1 , … , 𝜓𝑛 , 𝑢1 , … , 𝑢𝑟 :
𝑛
ℋ(𝑥, 𝜓, 𝑢) = (𝜓, 𝑓(𝑥, 𝑢)) = ∑ 𝜓𝛼 𝑓 𝛼 (𝑥, 𝑢).
𝛼−0
Непосредственно проверяется, что написанные выше системы (11) и (12)
могут быть с помощью этой функции ℋ записаны в виде следующей
гамильтоновой системы:
𝑑𝑥 𝑖 𝛿ℋ
=
,
𝑑𝑡
𝛿𝜓𝑖
(14)
𝑖 = 0,1, … , 𝑛,
𝑑𝜓𝑖
𝛿ℋ
= − 𝑡,
𝑑𝑡
𝛿𝑥
(15)
𝑖 = 0,1, … , 𝑛,
Итак, взяв произвольное допустимое (т.е. кусочно-непрерывное)
управление 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 , и начальное условие 𝑥(𝑡0 ) = 𝑥0 , мы можем найти
соответствующую (т.е. удовлетворяющую системе (14)) траекторию 𝑥(𝑡) =
--18--
4 Принцип максимума
(𝑥 0 (𝑡), 𝑥 1 (𝑡), … , 𝑥 𝑛 (𝑡)). После этого мы можем находить соответствующую
функциям 𝑢(𝑡) и 𝑥(𝑡) решения системы (15)
𝜓(𝑡) = (𝜓0 (𝑡), 𝜓1 (𝑡), … , 𝜓𝑛 (𝑡)).
Ещё раз подчёркиваем, что вектор-функции 𝑥(𝑡) и ψ(𝑡) непрерывны и
всюду, кроме конечного числа точек, имеют непрерывные производные по 𝑡.
При фиксированных (постоянных) значениях ψ и 𝑥 функция ℋ
становится функцией параметра 𝑢 ∈ 𝑈; точную верхнюю грань значений этой
функции мы обозначим через ℳ(𝜓, 𝑥):
ℳ(𝜓, 𝑥) = 𝑠𝑢𝑝 ℋ(𝜓, 𝑥, 𝑢).
𝑢 ∈𝑈
Если точная верхняя грань значений непрерывной функции ℋ
достигается в некоторой точке области управления 𝑈, то ℳ(𝜓, 𝑥) есть
максимум значений функции ℋ при фиксированных ψ и 𝑥. Поэтому
нижеследующую теорему 1 (необходимое условие оптимальности), главным
содержанием которой является равенство (16), называемое принципом
максимума.
Теорема 1. Пусть 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 , — такое допустимое управление, что
соответствующая ему траектория 𝑥(𝑡) (см. (14)), исходящая в момент 𝑡0 из
точки 𝑥0 , проходит в момент 𝑡1 через некоторую точку прямой П. Для
оптимальности управления 𝑢(𝑡) и траектории 𝑥(𝑡) необходимо существование
такой
ненулевой
непрерывной
вектор-функции
ψ(𝑡) = (ψ0 (𝑡), ψ1 (𝑡), … , ψ𝑛 (𝑛)), соответствующей функциям 𝑢(𝑡) и 𝑥(𝑡) (см.
(15)), что:
1) при любом 𝑡, 𝑡0 ≤ 𝑡 ≤ 𝑡1 , функция ℋ(ψ(𝑡), 𝑥(𝑡), 𝑢(𝑡)) переменного
𝑢 ∈ 𝑈 достигает в точке 𝑢 = 𝑢(𝑡) максимума
4 Принцип максимума
--19--
ℋ(ψ(𝑡), 𝑥(𝑡), 𝑢(𝑡)) = ℳ(𝜓(𝑡), 𝑥(𝑡));
(16)
2) в конечный момент 𝑡1 выполнены соотношения
ψ0 (𝑡1 ) ≤ 0,
(17)
ℳ(𝜓(𝑡1 ), 𝑥(𝑡1 )) = 0.
Оказывается, далее что если величины ψ(𝑡), 𝑥(𝑡), 𝑢(𝑡) удовлетворяют
системе (14), (15) и условию 1), то функции ψ0 (𝑡) и ℳ(𝜓(𝑡), 𝑥(𝑡))
переменного 𝑡 являются постоянными, так что проверку соотношений (17)
можно проводить необязательно в момент 𝑡1 , а в любой момент 𝑡, 𝑡0 ≤ 𝑡 ≤ 𝑡1 .
Выведем теперь из Теоремы 1 аналогичное необходимое условие для
оптимальности по быстродействию. Для этого в Теореме 1 следует положить
𝑓 (0) (𝑥, 𝑢) = 1. Функция ℋ принимает в этом случае вид
𝑛
ℋ = ψ0 + ∑ ψ𝑣 𝑓 𝑣 (𝑥, 𝑢).
𝑣=1
Вводя n-мерный вектор ψ = (ψ1 , ψ2 , … , ψ𝑛 ) и функцию
𝑛
𝐻(ψ, 𝑥, 𝑢) = ∑ ψ𝑣 𝑓 𝑣 (𝑥, 𝑢).
𝑣=1
Мы можем записать уравнения (4) и (12) (кроме уравнения (12) для 𝑖 = 0,
которое теперь не нужно) в виде гамильтоновой системы
𝑑𝑥 𝑖
∂𝐻
=
,
𝑑𝑡
∂ ψ𝑖
(18)
𝑖 = 1,2, … , 𝑛,
--20--
4 Принцип максимума
𝑑ψ𝑖
∂𝐻
=−
,
𝑑𝑡
∂ 𝑥𝑖
(19)
𝑖 = 1,2, … , 𝑛.
При фиксированных значениях ψ и 𝑥 функция 𝐻 становится функцией
параметра 𝑢; верхнюю грань значений этой функции мы обозначим через
𝑀(ψ, 𝑥):
𝑀(𝜓, 𝑥) = 𝑠𝑢𝑝 𝐻(𝜓, 𝑥, 𝑢).
𝑢 ∈𝑈
В силу отношения 𝐻(𝜓, 𝑥, 𝑢) = ℋ(ψ, 𝑥, 𝑢) − ψ0 мы получаем
𝑀(ψ, 𝑥) = ℳ(𝜓, 𝑥) − ψ0 .
Поэтому условия (16) и (17) принимают теперь вид
Н(ψ(𝑡), 𝑥(𝑡), 𝑢(𝑡)) = 𝑀(ψ(𝑡), 𝑥(𝑡)) = −ψ0 ≥ 0.
Теорема 2. Пусть 𝑢(𝑡), 𝑡0 ≤ 𝑡 ≤ 𝑡1 — допустимое управление,
переводящее фазовую точку из положения 𝑥0 в положение 𝑥1 , а 𝑥(𝑡) —
соответствующая траектория (см. (18)), так что 𝑥(𝑡0 ) = 𝑥0 , 𝑥(𝑡1 ) = 𝑥1 . Для
оптимальности (по быстродействию) управления 𝑢(𝑡) и траектории 𝑥(𝑡)
необходимо существование такой ненулевой непрерывной вектор-функции
ψ(𝑡) = (ψ1 (𝑡), ψ2 (𝑡), … , ψ𝑛 (𝑡)), соответствующей функциям 𝑢(𝑡) и 𝑥(𝑡) (см.
(19)), что:
1) для всех 𝑡, 𝑡0 ≤ 𝑡 ≤ 𝑡1 , функция 𝐻(ψ(𝑡), 𝑥(𝑡), 𝑢) переменного 𝑢 ∈ 𝑈
достигает в точке 𝑢 = 𝑢(𝑡) максимума
𝐻(ψ(𝑡), 𝑥(𝑡), 𝑢(𝑡)) = 𝑀(𝜓(𝑡), 𝑥(𝑡));
(20)
2) в конечный момент 𝑡1 выполнено соотношение
4 Принцип максимума
--21--
𝑀(𝜓(𝑡1 ), 𝑥(𝑡1 )) ≥ 0.
(21)
Оказывается, далее, что если величины ψ(𝑡), 𝑥(𝑡), 𝑢(𝑡) удовлетворяют
системе (18), (19) и условию 1), то функция 𝑀(ψ(𝑡), 𝑥(𝑡)) переменного 𝑡
постоянна, так что проверку соотношения (21) проводить не обязательно в
момент 𝑡1 , а в любой момент 𝑡, 𝑡0 ≤ 𝑡 ≤ 𝑡1 .
--22--
4 Принцип максимума
5. Пример
Решение задачи с помощью принципа максимума.
Дано: модель ОУ описывается
𝑥̇ (t) = x(t) + u(t),
𝑥(0) = 0 = 𝑥0 ,
𝑡 ∈ [0,1].
1
Минимизируемый функционал качества: 𝐽0 = ∫0 𝑢2 (𝑡)𝑑𝑡 — 𝑥(1) → 𝑚𝑖𝑛.
Требуется найти оптимальную пару (𝑥 ∗ , 𝑢∗ ), на которой достигается
минимум функционала.
Сравнивая с общей постановкой задачи, имеем
𝑓(𝑥, 𝑢, 𝑡) = 𝑥 + 𝑢,
𝐹0 = 𝑢2 ,
φ0 = −𝑥.
Решается задача Больца.
1)
Составляем гамильтониан 𝐻 = ψ(𝑥 + 𝑙𝑢) − 𝑢2 .
2)
Находим максимум гамильтониана по управлению. Так как
ограничения управление отсутствует, можно применить необходимые условия
безусловного экстремума
𝜕
𝐻(𝑥, 𝑢, ψ, 𝑡) = ψ − 2𝑢 = 0,
∂𝑢
5 Пример
--23--
𝑢=
ψ
,
2
∂𝐻2
= −2 < 0.
∂𝑢2
Так как ограничения на управление отсутствуют, то можно применить
необходимые условия безусловного экстремума, так как вторая производная
< 0, то этот экстремум является максимальным.
3)
Выписываем условие трансверсальности с учётом результата пункта
2)
𝑥̇ (t) =
∂𝐻
ψ(𝑡)
= 𝑥(𝑡) +
,
∂ψ
2
ψ̇(t) = −
∂𝐻
= −ψ(𝑡),
∂x
𝑥(0) = 0.
4)
Проверяем условие трансверсальности. Так как ψ0 = −𝑥, то
δφ0 = −δ𝑥 и [−δ𝑥 − 𝐻(𝑡𝑘 )δ𝑡𝑘 + ψ(𝑡𝑘 )δ𝑥]= 0.
Поскольку 𝑡𝑘 = 1 (по условию), то 𝑡𝑘 − 1 = 0 и δ𝑡𝑘 = 0.
В результате имеем [ψ(𝑡𝑘 ) − 1]δ𝑥 = 0 ⇒ ψ(1) = 1.
5)
Решаем полученную двуточечную задачу
 (t )

, x(0)  0;
 x(t )  x(t ) 
2

  (t )   (t ),  (1)  1.
--24--
5 Пример
1
2
Из второго уравнения с конечными условиями имеем  (t )  e1t  u*  e1t
оптимальное управление.
Решая
первое
уравнение
с
начальными
условиями,
получаем
1
4
оптимальную траекторию x(t )  [e1t  e1t ] .
5 Пример
--25--
6. Вывод
В результате выполнения курсовой работы был рассмотрен принцип
максимума Понтрягина. Он представляет собой определённого вида
необходимое условие оптимальности для задачи оптимального управления. В
его формулировке участвуют функции специального вида гамильтониан
(функция Понтрягина) и сопряжённые переменные. Однако в общем случае
использование принципа максимума требует высокой математической
квалификации и нередко — изобретательности.
--26--
6 Вывод
7. Литература
[1]
Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко
Е.Ф. «Математическая теория»: — 4-е изд., стер — М: «Наука». 1983 — 392 с.
[2]
Раджуж М. А. «Особенности применения принципа максимума
Понтрягина»: — 1-е изд., стер — М. «Белорусский национальный технический
университет». 2005 — 6 стр.
7 Литература
--27--