Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Теоретическая часть. Метод градиентного спуска




Метод градиентного спуска

Метод градиентного спуска – это классический метод поиска минимума дифференцируемой функции с аргументами, принимающими вещественные значения. Данный метод, как правило, применяется для многомерных функций, поскольку в одномерном случае существуют более эффективные методы поиска.

Как известно, градиент некоторый функции в некоторой точке показывает направление локального наискорейшего увеличения функции. Этот факт используется в методах градиентного спуска (подъема).

Эти методы описываются следующей последовательностью действий:

1. Выбрать начальную точку . Установить номер итерации: i= 0.

2. Для текущей точки определить значение градиента:

. (1)

В случае если градиент не может быть вычислен аналитически, его компоненты могут быть оценены:

. (2)

3. Определить положение следующей точки:

, (3)

где d – параметр, определяющий скорость спуска, и положить i = i +1.

4. Перейти к шагу 2, если не выполнен критерий останова.

 

Существует несколько способов ввода критерия останова. Самый простой – это наложить ограничение на количество итераций. Другие способы связаны с проверкой того, что текущая точка или значение функции f меняются мало. При фиксированном шаге d изменение положения текущей точки происходит всегда на одну и ту же величину. Однако в этом случае можно проверять изменение за несколько итераций и сравнивать с d: .

Существует также возможность адаптивного выбора шага d. Для этого на каждой итерации осуществляется выбор такого значения из (где w – некоторый параметр, как правило ), что значение функции в точке минимально. Таким образом, если при большом d метод градиентного спуска «проскакивает» минимум, то d будет уменьшаться. Уменьшение d ниже заданного порога также служит критерием остановка. Напротив, на пологих участках значение d будет увеличиваться.

При условии существования глобального минимума функции f метод градиентного спуска обычно сходится (за исключением случаев, когда вдоль некоторого направления функция, монотонно убывая, стремится к некоторому конечному пределу при ). Сходимость метода обеспечивается тем, что на каждой итерации выбирается такая точка , что . Метод, однако, не гарантирует нахождения глобального минимума, поскольку при достижении любого локального минимума метод не в состоянии определить направление на более глубокий минимум (и вообще обнаружить его существование) и останавливается в соответствии с выбранным критерием останова.

В связи с этим, выбор начальной точки может существенным образом сказываться на получаемом результате.

 

Метод моделирования отжига

Метод моделирования отжига предназначен для поиска глобального минимума некоторой функции , где S – некоторое пространство (необязательно непрерывное), элементы которого интерпретируются как состояния некоторой воображаемой физической системы, а значения самой функции – как энергия этой системы E = f (x) в состоянии .

В методе моделирования отжига система в каждый момент времени находится в некотором состоянии xi, а также обладает некоторой температурой T, которая является управляемым параметром.

На каждой итерации система случайным образом переходит в новое состояние . Механизм выбора нового состояния состоит из двух частей:

1. Сначала выбирается в соответствии с некоторой функцией распределения . Как правило, эта функция зависит только от расстояния , причем с увеличением этого расстояния вероятность перехода понижается.

2. После случайного выбора проверяется вероятность перехода в это новое состояние, исходя из разности энергий и текущей температуры: , . Здесь показывает вероятность перехода в состояние с другой энергией. Проверка производится следующим образом: выбрасывается случайное число из диапазона [0, 1]. Если это число оказывается меньше, чем значение вероятности , то новое состояние принимается, в противном случае шаг 1 повторяется. Функция , как правило, стремится к 1 при , стремящемся в минус бесконечность, и стремится к 0 при , стремящемся в плюс бесконечность (то есть предпочтение в среднем отдается состояниям с меньшей энергией).

Поскольку метод моделирования отжига базируется на физических принципах, то и функции распределения вероятностей и также часто заимствуются из физики. В частности, достаточно популярен больцмановский отжиг, в котором:

, (4)

где D – размерность пространства S;

. (5)

Таким образом, температура T определяет, насколько в среднем может меняться текущее состояние , а также то, насколько в среднем может меняться энергия системы при переходе в новое состояние.

Поскольку переход в состояния с меньшей энергией более вероятен, чем переход в состояния с более высокой энергией, то система будет больше времени проводит именно в низкоэнергетических состояниях.

Чтобы обеспечить сходимость системы к некоторому состоянию с наименьшей энергией, температуру системы понижают с переходом к следующей итерации. В больцмановском отжиге применяется следующий закон понижения температуры:

(6)

где номер итерации . Такой закон может, однако, потребовать большое число итераций, особенно при больших значениях начальной температуры T 0, в связи с чем используется более быстрое понижение температуры:

. (7)

Начальная температура неявно задает область, в которой будет осуществляться поиск глобального минимума, а также определяет необходимое для сходимости число итераций.

 




Поделиться с друзьями:


Дата добавления: 2015-06-27; Просмотров: 290; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.