Использование вероятностных нейронных сетей при сопоставлении тематической структуры текстов

В основе классификации образцов в вероятностных нейронных сетях (сеть PNN) положено использование метода Байеса. Правилом определения принадлежности образца к одному из заранее сформированных классов является выражение:

(7)

где O - классифицируемый образец, K - класс к которому принадлежит образец, {N} - множество классов, h_K - априорная вероятность принадлежности образца к классу K, c_K - цена ошибки классификации для класса K, F_k(x) - функция плотности распределения вероятности для класса K, x - область на которой определены классифицируемые образцы.

В задаче распознавания спама априорную вероятность, а также цену ошибки классификации можно выбрать одинаковыми для всех классов (спам, нейтральные письма и целевые письма). Функцию плотности распределения вероятности рекомендуется оценивать с помощью метода Парцена, в котором в качестве ядра используется функция Гаусса [7].

Сеть состоит из входного слоя, слоя образцов, слоя суммирования и выходного слоя. Параметры сети PNN определяется следующим образом:

- Число входных элементов равно числу параметров, которые характеризуют образец.

- Число элементов слоя образцов равно числу учебных образцов.

- Число элементов слоя суммирования равно числу классов.

- Выходной слой состоит из одного выходного элемента (ВЭ).

Весовые значения связей входного слоя и слоя образцов устанавливаются равными элементам соответствующего вектора-образца.

Активность любого элемента слоя образцов, при подаче сигнала от неизвестного образца, определяется в соответствии с выражением:

(8)

где a_j - активность j -го элемента слоя образцов, N - количество входных элементов, x_i - значения i -го параметра классифицируемого образца, w_i_,_j - вес связи от i -го элемента входного слоя к j -му элементу слоя образцов, s - определяемый эмпирически параметр, который задает ширину функции Гаусса (рекомендуемое значение 0,1).

К любому элементу слоя суммирования идут связи только от элемента слоя образцов, принадлежащих соответствующему классу. Весовые значения связей, идущих от элементов слоя образцов к элементам слоя суммирования равны 1. Элементы слоя суммирования складывают выходные значения элементов слоя образцов. Эта сумма является оценкой значения функции плотности распределения вероятностей для совокупности экземпляров соответствующего класса. Выходной элемент указывает элемент слоя суммирования с максимальным значением активности, т.е. указывает класс, к которому принадлежит образец. Таким образом, все параметры сети PNN определяются непосредственно учебными данными. Поэтому в отличии от перспетронов сети PNN не нуждаются в обучении.

После того, как сеть построена, параметры классифицируемого образца подаются на вход сети. В результате прямого прохода сигнала через сеть выходной слой укажет класс, к которому вероятнее всего принадлежит образец.

Возможная архитектура сети PNN для определения принадлежности образца к одному из двух классов А или В показана на рис.2. В рассматриваемом примере образец характеризуется тремя параметрами, поэтому входной слой состоит из трех элементов. Слой образцов состоит из трех элементов. В данном случае предполагается, что в учебном наборе два образца, принадлежащие классу А и один образец, принадлежащий классу В.

Рис. 2 Пример сети PNN

Рассмотрим применение сети PNN при решении задачи классификации тематической структуры текстов. В первом приближении можно считать, что тематическая структура текста определяется с помощью ограниченного количества словосочетаний, характеризующих содержание тем [5]. Исходя и этого, входными параметрами сети будут указанные тематические словосочетания, приведенные к некоторой стандартной грамматической форме. Обучающая выборка должно состоять с тематических словосочетаний, соответствующих целевым письмам, спаму и нейтральным письмам. Хотя на практике некоторые тематические словосочетания будут присутствовать в разных письмах, но в принципе каждый образец (письмо) может характеризоваться своим уникальным набором тематических словосочетаний. Каждому уникальному словосочетанию и всем его семантическим синонимам, взятым из грамматического словаря, поставим в соответствие отдельный элемент входного слоя. Каждому экземпляру письма из обучающей выборки будет соответствовать отдельный элемент в слое образцов. Таким образом, количество элементов входного слоя (N) будет равно количеству уникальных тематических словосочетаний и их семантических синонимов из обучающей выборки. Количество элементов слоя суммирования (L) равно количеству образцов писем из обучающей выборки. Отметим, что требуемый объем памяти для хранения всего словаря семантических синонимов русского языке не превышает 20 Гб. Поэтому такая структура сети не является слишком ресурсоемкой и вполне реализуема на вычислительной технике среднего класса.

Если тематическое словосочетание присутствует в образце, то вес связи между соответствующими элементами входного слоя и слоя образцов установим 1, в противном случае, вес связи 0. Слой суммирования будет состоять из трех элементов, соответствующих классам целевых писем (C), спама (F) и нейтральных писем (S). Пример рассмотренной структуры сети показан на рис.3.

Важное отличие нашей сети от классической сети PNN заключается в функционировании элемента выходного слоя. Кроме распознавания элемента слоя суммирования с максимальным значением активности, выходной элемент должен распознавать ситуацию, когда элементы слоя суммирования имеют одинаковый положительный или нулевой уровень активности.

Одинаковый положительный уровень активности может возникнуть, если тематические словосочетания с одинаковой вероятностью встречаются в разных классах, например в спаме и в целевых письмах. Такое письмо возможно классифицировать исходя из презумпции невиновности, т.е. как нейтральное письмо.

Нулевой уровень активности всех элементов слоя суммирования характерен отсутствию тематических словосочетаний классифицируемого образца в обучающей выборке. В этом случае необходимо классифицировать образец, как нейтральное письмо.

Рис.3 Пример структуры сети PNN, адаптированной к решению задачи классификации тематической структуры текстов

Важной особенностью реализации рассмотренной сети должна быть возможность добавления новых элементов в входной слой и в слой образцов. За счет этого сеть получит возможность дообучения в процессе эксплуатации на новых образцах. Отметим, что решение этой проблемы не составляет больших трудностей за счет применения объектно-ориентированной технологии создания программного кода.

Выводы

Разработана методика распознавания спама, основой которой является смысловое сопоставление классифицируемого электронного письма с тематикой спама и интересами получателя электронной почты. В методике предусмотрено:

- Применение методов реферирования при извлечении смысловой нагрузки из электронных писем, а также текстов характеризующих интересы.

- Сопоставление результатов реферирования с помощью вероятностной нейронной сети.

Сформирована структура и алгоритм функционирования вероятностной нейронной сети для сопоставления результатов реферирования.

Основными достоинствами систем защиты от спама реализованных на базе данной методики являются:

- Потенциально высокая достоверность классификации электронных писем, в том числе и предназначенных для компрометации спам-фильтров.

- Возможность обучения, как в процессе предварительной настройки, так и в процессе эксплуатации.

- Возможность использования при обучении в процессе предварительной настройки пользователем статистических данных (электронных писем) собранных другими пользователями.

<== предыдущая лекция	\|	следующая лекция ==>
Тематика спама	\|	Лекция 8. Перспективные пути исследований

Поделиться с друзьями:

Дата добавления: 2014-01-14; Просмотров: 485; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.017 сек.