Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Математическая постановка задачи обучения

Обучение многослойной нейронной сети без обратных связей

Многие прикладные задачи, решаемые с использованием нейронной сети, такие как задача распознавания образов, задача прогнозирования, задача управления и прочие, сводятся к следующей математической постановке:

Необходимо построить отображение вектора X в Y такое, что на каждый входной сигнал, представленный вектором X, формировался правильный выходной сигнал (вектор Y).

Для решения поставленной задачи будем использовать многослойную нейронную сеть без обратных связей, имеющую n входов и m выходов.

Каждому входу нейронной сети соответствует входной сигнал , , а каждому выходу –выходной сигнал , . Тогда входу НС соответствует вектор X с координатами , выходу – вектор Y с координатами .Нейронная сеть в этом случае представляется как некоторая многомерная функция F: X ® Y.

Если множество весовых коэффициентов входных сигналов НС не упорядочено, то функция F, реализуемая сетью, является произвольной.

Совокупности всех весовых коэффициентов всех нейронов соответствует вектор W. Пусть множество векторов W образует пространство состояний нейросети. Начальному состоянию сети соответствует некоторый произвольный вектор W0. Тогда обученной нейросети соответствует W*, т. е. такое состояние, при котором реализуется однозначное отображение F: X ® Y.

Задача обучения нейронной сети: задача перехода от некоторого начального состояния сети, соответствующего W0, к конечному состоянию, соответствующему W*.

Для решения задач управления:

X – вектор контролируемых параметров;

Y – вектор кода управления.

Для решения задач прогнозирования:

X – вектор временного ряда контролируемых параметров;

Y – подмножество контролируемых параметров X.

С математической точки зрения задача обучения нейронной сети сводится к продолжению функции, заданной в конечном числе точек, на всю область определения. Входные данные считаются аргументами функции, а ответ сети – значением функции.

В основе процедуры построения отображения F лежит теорема Колмогорова о представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одной переменной, обобщённая Хехт-Нильсеном применительно к НС:

Для любого множества пар векторов X и Y существует двухслойная однородная (с одинаковыми функциями активации) нейронная сеть с прямым распространением сигналов, которая выполнит отображение X ® Y, выдавая на каждый входной сигнал правильный выходной.

Таким образом, уже с помощью двухслойной нейронной сети может быть построено отображение F (может быть реализована произвольная функция многих переменных).

Теорема о функциональной полноте НС (вытекает из предыдущих теорем):

Любая непрерывная функция,заданная на ограниченном множестве, может быть равномерно приближена функциями, вычисляемыми НС, если функция активации нейрона непрерывна и дважды дифференцируема.

Вывод: многослойный персептрон с числом слоёв более двух является универсальным аппроксиматором функций.

Основной недостаток использования такой сети является то, что в качестве функции активации нейронов может использоваться только сигмоидальная функция. Для преодоления данного недостатка при решении прикладных задач стали использовать сигмоидальную функцию активации с подстраиваемыми параметрами.

С математической точки зрения задача обучения нейронной сети сводится к продолжению функции, заданной в конечном числе точек, на всю область определения. При таком подходе входные данные считаются аргументами функции, а ответ сети – значением функции.

Пусть имеется обучающая выборка, состоящая из k пар векторов (при стратегии обучения с учителем):

, .

Ошибка сети E, появляющаяся в некотором состоянии W j, может быть представлена как средняя квадратичная ошибка, усреднённая по выборке

, (1)

где k – число примеров в обучающей выборке; Y i – эталонный выходной вектор i -го примера.

Если сеть не делает ошибки, то E = 0. Следовательно, необходимо, чтобы в обученном состоянии сети ошибка сети стремилась к минимуму.

Задача обучения нейронной сети: поиск минимума функции ошибки в пространстве состояний W.

Алгоритм обучения многослойной нейросети (набор обучающих правил, определяющих изменение межнейронных связей в ответ на входное воздействие):

  • определённым образом устанавливаются значения весовых коэффициентов межнейронных связей
  • из базы данных в соответствии с некоторым правилом поочерёдно выбираются примеры (пары обучающей выборки X i, Y i: входной вектор X i подаётся на вход сети, а желаемый результат Y i на выход сети).
  • вычисляется ошибка сети E0 по формуле (1)
  • если ошибка велика, то осуществляется подстройка весовых коэффициентов для её уменьшения
  • процесс повторяется до тех пор, пока ошибка не станет меньше заданной, либо закончится время обучения

 

Ошибка обучения E0 – внутренний критерий (вычисляется на основе результатов эксперимента – обучения НС на основе примеров из обучающей выборки).

Для оценки полученной ошибки обучения необходимо использовать внешний критерий, которым является ошибка обобщения Eобщ., вычисляемая по проверочной (тестовой) выборке.

Необходимо, чтобы созданная модель объекта обладала свойством непротиворечивости: ошибка обобщения сохраняется на приемлемом уровне при реализации отображения не только для примеров исходного множества пар (X i, Y i), , но и для всего множества возможных входных векторов.

Таким образом, при синтеза НС для отображения зависимости F: X ® Y с наименьшей ошибкой обучения проводится разделение исходных данных на две части:

1. обучающая выборка;

2. тестовая выборка.

Если НС хорошо отслеживает примеры из обучающей выборки, но плохо работает с примерами из тестовой, то возникает эффект переобучения НС, то есть в процессе работы с тестовой выборкой ошибка сети возрастает. Для контроля правильности работы сети вводится подтверждающее множество (подтверждающая выборка), на котором проверяется адекватность получаемого отображения F: X ® Y объекту с задаваемой ошибкой обобщения.

 

Основные проблемы при обучении НС:

· большое число параметров НС ®ограничение по памяти;

· необходимость обеспечения параллельности вычислений; процесс параллелизма важен в процессе функционирования нейронной сети в реальном масштабе времени;

· многокритериальность задачи оптимизации;

· необходимость нахождения достаточно широкой области, в которой значения всех минимальных функций стремятся к минимуму;

· разделение всей базы примеров на обучающую, тестовую и подтверждающую выборки.

<== предыдущая лекция | следующая лекция ==>
Процедура Уидроу-Хоффа | Алгоритм обратного распространения ошибки
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 1233; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.