Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Пример: уравнение Беллмана в задаче о рекламной деятельности




Непрерывный вариант динамического программирования

 

Метод динамического программирования разработан и для непрерывной задачи оптимального управления, в которой поведение ОУ описывается дифференциальным уравнением в векторной форме

или в скалярной форме

.

Показатель качества имеет вид:

.

Начальный момент процедуры управления и начальное состояние ОУ заданы; конечный момент процедуры управления задан, конечное состояние ОУ не задается, т.е. рассматривается задача с фиксированным временем и свободным правым концом траектории.

Доказательство условия оптимальности опирается на принцип оптимальности Беллмана, сформулированный в разделе 2.1, и использует вытекающую из этого принципа процедуру попятного движения.

Выделим произвольным образом внутри интервала два момента времени и , причем , где - бесконечно малый промежуток времени.

Рассмотрим сначала решение задачи для интервала , примыкающего к концу интервала управления, исходя из критерия оптимальности

. (9)

Предположим, что задача решена, и получено оптимальное управление

.

Оптимальное управление зависит от текущего времени , от момента времени и от состояния объекта , которое имеет статус начального состояния ОУ в этой промежуточной задаче.

Подставим найденное оптимальное управление в показатель качества (9), который примет минимальное значение

.

Функция получила название функции Беллмана. Она знакома нам по дискретному варианту динамического программирования и сохраняет здесь тот же физический смысл: функция Беллмана представляет собой минимальное значение показателя качества при оптимальном управлении. В задаче с фиксированным временем функция Беллмана зависит от вектора состояния и от времени , т.е. является функцией переменных.

Рассмотрим теперь решение задачи для интервала , исходя из критерия

. (10)

Предположим, что эта задача решена, и получено оптимальное управление

.

Подставим это управление в показатель качества (10), который примет минимальное значение

.

Найдем связь между функциями Беллмана для моментов времени и . Возьмем за основу функцию и запишем ее в виде

.

От управляющего воздействия на интервале зависит только второе слагаемое, минимизация которого проведена на предыдущем шаге. Заменим второе слагаемое его минимальным значением :

.

Второе слагаемое остается в составе фигурных скобок, так как от управления на интервале зависит состояние объекта . Рассмотрим первое слагаемое. Интервал времени , разделяющий моменты и , является бесконечно малым, поэтому первое слагаемое заменим его приближенным значением:

.

В итоге

. (11)

Вектор состояния разложим в ряд Тейлора в окрестности и ограничим разложение линейными членами:

.

Производную вектора состояния заменим правой частью уравнения объекта . Получим

. (12)

Теперь второе слагаемое представим в виде

.

Функцию Беллмана разложим в ряд Тейлора в окрестности точки и ограничим разложение линейными членами. При этом предполагается, что функция Беллмана дифференцируема по своим аргументам. Если в результате решения задачи функция Беллмана окажется дифференцируемой, то полученное решение будет справедливым. В противном случае дальнейшие рассуждения носят эвристический характер.

Используя разложение в ряд Тейлора, получим следующую связь между значениями функции Беллмана в моменты времени и :

. (13)

Приращения , являются элементами вектора из соотношений (12), поэтому , и соотношение (13) примет вид

.

Подставим этот результат в выражение (11):

.

Упростим это соотношение. Прежде всего, заметим, что величина в составе фигурных скобок не зависит от управления , следовательно, она может быть вынесена из процедуры минимизации и взаимно уничтожена с такой же величиной из левой части. Таким же образом можно обосновать перенос в левую часть последнего слагаемого в составе фигурных скобок. Сокращаем все слагаемые на величину , а момент времени , выбранный произвольным образом внутри интервала , заменяем текущим временем . В итоге получим уравнение Беллмана:

.

Уравнение Беллмана является инструментом решения непрерывных задач оптимального управления. Оно решается за 3 шага. На первом шаге из условия минимума выражения в фигурных скобках находится оптимальное управление .

На втором шаге оптимальное управление подставляется в уравнение Беллмана, которое рассматривается теперь как дифференциальное уравнение в частных производных относительно неизвестной функции Беллмана . Из решения этого уравнения находится функция Беллмана .

На третьем шаге функция Беллмана подставляется в выражение для оптимального управления, найденное на первом шаге. Оптимальное управление принимает окончательный вид: и может быть использовано для построения оптимальной системы управления в виде замкнутой нестационарной системы с обратной связью по вектору состояния.

Наиболее трудоемким в этой процедуре является второй шаг, связанный с решением дифференциального уравнения в частных производных.

В задаче оптимального управления с нефиксированным временем управления уравнение Беллмана принимает более простой вид:

.

Упрощение достигается за счет того, что функция Беллмана зависит только от вектора состояния и не зависит от времени, поэтому производная . К задаче с нефиксированным временем управления относится, в частности, задача оптимального управления с критерием

.

 

 

Применим уравнение Беллмана к задаче о рекламной деятельности фирмы, которая с целью увеличения объема продаж осуществляет рекламу своего товара. Исходное уравнение, связывающее объем продаж с затратами на рекламу , имеет вид:

Затраты на рекламу подвержены ограничению: . Необходимо найти рекламную политику фирмы на интервале времени , задано, исходя из критерия оптимальности

. (14)

В разделе 1.2 исходное уравнение было преобразовано в дифференциальное уравнение второго порядка:

а затем с помощью переменные состояния представлено в виде системы двух дифференциальных уравнений первого порядка, записанных в нормальной форме Коши:

(15)

Вывод уравнения Беллмана проводился из условия минимума показателя качества; в нашем примере показатель качества требуется максимизировать. Приведем исходную задачу (14) к нужному виду с учетом новых переменных:

.

Так как конечный момент времени задан, применяем уравнение Беллмана в общей форме:

.

В условиях данной задачи

,

и уравнение Беллмана принимает вид:

.

1 шаг. Из условия минимума выражения в фигурных скобках найдем структуру оптимального управления. Управляющее воздействие входит сюда линейным образом, поэтому классический способ оптимизации из условия

,

к успеху не приведет. Преобразуем выражение в фигурных скобках, обобщив слагаемые, содержащие управляющее воздействие :

.

Процедуру минимизации проведем с учетом ограничения: на основе следующих рассуждений:

1) если , то ,

2) если , то .

Таким образом, оптимальное управление может принимать только граничные значения в зависимости от знака функции переключения , которая в итоге является функцией времени и может несколько раз изменять знак на интервале времени . Функция переключения содержит неизвестную функцию Беллмана в виде частной производной , поэтому ни число переключений, ни моменты переключений установить невозможно. Отсутствие этой информации затрудняет решение задачи в рамках второго и третьего шагов для нахождения конкретного вида оптимального управления.

 




Поделиться с друзьями:


Дата добавления: 2014-11-29; Просмотров: 2465; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.028 сек.