КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Теоретическая часть. Метод градиентного спуска
Метод градиентного спуска Метод градиентного спуска – это классический метод поиска минимума дифференцируемой функции с аргументами, принимающими вещественные значения. Данный метод, как правило, применяется для многомерных функций, поскольку в одномерном случае существуют более эффективные методы поиска. Как известно, градиент некоторый функции в некоторой точке показывает направление локального наискорейшего увеличения функции. Этот факт используется в методах градиентного спуска (подъема). Эти методы описываются следующей последовательностью действий: 1. Выбрать начальную точку . Установить номер итерации: i= 0. 2. Для текущей точки определить значение градиента: . (1) В случае если градиент не может быть вычислен аналитически, его компоненты могут быть оценены: . (2) 3. Определить положение следующей точки: , (3) где d – параметр, определяющий скорость спуска, и положить i = i +1. 4. Перейти к шагу 2, если не выполнен критерий останова.
Существует несколько способов ввода критерия останова. Самый простой – это наложить ограничение на количество итераций. Другие способы связаны с проверкой того, что текущая точка или значение функции f меняются мало. При фиксированном шаге d изменение положения текущей точки происходит всегда на одну и ту же величину. Однако в этом случае можно проверять изменение за несколько итераций и сравнивать с d: . Существует также возможность адаптивного выбора шага d. Для этого на каждой итерации осуществляется выбор такого значения из (где w – некоторый параметр, как правило ), что значение функции в точке минимально. Таким образом, если при большом d метод градиентного спуска «проскакивает» минимум, то d будет уменьшаться. Уменьшение d ниже заданного порога также служит критерием остановка. Напротив, на пологих участках значение d будет увеличиваться. При условии существования глобального минимума функции f метод градиентного спуска обычно сходится (за исключением случаев, когда вдоль некоторого направления функция, монотонно убывая, стремится к некоторому конечному пределу при ). Сходимость метода обеспечивается тем, что на каждой итерации выбирается такая точка , что . Метод, однако, не гарантирует нахождения глобального минимума, поскольку при достижении любого локального минимума метод не в состоянии определить направление на более глубокий минимум (и вообще обнаружить его существование) и останавливается в соответствии с выбранным критерием останова. В связи с этим, выбор начальной точки может существенным образом сказываться на получаемом результате.
Метод моделирования отжига Метод моделирования отжига предназначен для поиска глобального минимума некоторой функции , где S – некоторое пространство (необязательно непрерывное), элементы которого интерпретируются как состояния некоторой воображаемой физической системы, а значения самой функции – как энергия этой системы E = f (x) в состоянии . В методе моделирования отжига система в каждый момент времени находится в некотором состоянии xi, а также обладает некоторой температурой T, которая является управляемым параметром. На каждой итерации система случайным образом переходит в новое состояние . Механизм выбора нового состояния состоит из двух частей: 1. Сначала выбирается в соответствии с некоторой функцией распределения . Как правило, эта функция зависит только от расстояния , причем с увеличением этого расстояния вероятность перехода понижается. 2. После случайного выбора проверяется вероятность перехода в это новое состояние, исходя из разности энергий и текущей температуры: , . Здесь показывает вероятность перехода в состояние с другой энергией. Проверка производится следующим образом: выбрасывается случайное число из диапазона [0, 1]. Если это число оказывается меньше, чем значение вероятности , то новое состояние принимается, в противном случае шаг 1 повторяется. Функция , как правило, стремится к 1 при , стремящемся в минус бесконечность, и стремится к 0 при , стремящемся в плюс бесконечность (то есть предпочтение в среднем отдается состояниям с меньшей энергией). Поскольку метод моделирования отжига базируется на физических принципах, то и функции распределения вероятностей и также часто заимствуются из физики. В частности, достаточно популярен больцмановский отжиг, в котором: , (4) где D – размерность пространства S; . (5) Таким образом, температура T определяет, насколько в среднем может меняться текущее состояние , а также то, насколько в среднем может меняться энергия системы при переходе в новое состояние. Поскольку переход в состояния с меньшей энергией более вероятен, чем переход в состояния с более высокой энергией, то система будет больше времени проводит именно в низкоэнергетических состояниях. Чтобы обеспечить сходимость системы к некоторому состоянию с наименьшей энергией, температуру системы понижают с переходом к следующей итерации. В больцмановском отжиге применяется следующий закон понижения температуры: (6) где номер итерации . Такой закон может, однако, потребовать большое число итераций, особенно при больших значениях начальной температуры T 0, в связи с чем используется более быстрое понижение температуры: . (7) Начальная температура неявно задает область, в которой будет осуществляться поиск глобального минимума, а также определяет необходимое для сходимости число итераций.
Дата добавления: 2015-06-27; Просмотров: 306; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |