Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тематика спама

Практический опыт, а также результаты [1,2,3] показывают, что за несколько последних лет спам представляет собой в основном текстовые письма, которые иногда имеют графические файлы-вложения. При этом основными тематическими направлениями спама являются [1,2,3]:

- Реклама потребительских товаров (Rt). Рекламируется реальный товар, и указываются источники (ссылки на сайт или номер телефона) более подробной информации. Интересной особенностью этого направления спама является доминирование в определенные интервалы времени рекламы конкретного вида товара. Например, в русскоязычной зоне Интернет в период 2004 года реклама лекарственных препаратов составила около 17% количества спама.

- Реклама товаров и услуг "для взрослых" (Rp).

- Реклама программного обеспечения и компьютеров (Rk).

- Реклама туристических компаний, предлагающих различные виды отдыха и путешествий (Ro).

- Приглашения на семинары и тренинги (Rst).

- Услуги по электронной рекламе (Rer).

- Платные звонки. Рекламируется товар и/или услуга и указывается номер телефона, звонки на который являются платными (Rz).

- Раскрутка сайта. Письмо содержит информацию с целью завлечь пользователей посетить определенный сайт (Rw).

- Финансовый спам. К этому виду спама относятся письма с рекламой различного вида денежных пирамид, предложения сделать определенную инвестицию или реклама покупки акций (Rf).

- Сбор информации. Получателю предлагают заполнить анкету и отослать данные по указанному адресу (Ri).

- Политические или PR-акции. Этот вид спама характерен в периоды обострения политической обстановки (Rpr).

- Засылка троянов. При открытии письма активизируется программа типа троянский конь, которая выполняет некоторые несанкционированные действия, например, собирает и отсылает злоумышленнику необходимую информацию с компьютера (Wt).

- Фишинг. Это распространение поддельных сообщений от имени банков/финансовых компаний. Целью такого сообщения является несанкционированный сбор идентификационных данных (паролей, пин-кодов, логинов) пользователей. Обычно такой спам вынуждает пользователя ввести свои идентификационные данные, например пароль для доступа к банковскому счету на ложном сайте банка. Полученные идентификационные данные спамер может использовать как для доступа к счету, так и для оплаты покупок в интернет-магазинах (Wf).

- Тестовые рассылки. Чаще всего представляют собой пустые письма (Tp), письма с несколькими словами (Ts) или с бессмысленным набором символов (Tb). Такие рассылки преследуют сразу несколько целей. С одной стороны, это обычное тестирование нового или модифицированного спамерского программного обеспечения. С другой стороны, письма таких рассылок достаточно часто проходят антиспам-фильтры (не содержат спамерского контента), вызывая у пользователей недоверие к защите от спама. Еще одно негативное свойство тестовых рассылок связано с созданием ими больших дополнительных нагрузок на каналы связи. Это может выражаться в существенном снижении скорости обмена электронной корреспонденцией на время прохождения рассылки.

Модифицируем (5), с учетом распространенных тем спама:

, (6)

где N – спам-письма с тематикой, не принадлежащей ни к одной из выше перечисленных распространенных тем спама.

Задача определения соответствия смысла электронных писем с интересами пользователей или с тематикой спама

На наш взгляд указанная задача может быть отнесена к классу задач общения человека с вычислительной системой на естественном языке. В настоящее время, несмотря на значительные успехи эта проблема далека от решения. Поэтому поиск решения следует ограничить, соизмерив с существующими возможностями методик понимания текста и потребностями системы защиты от спама. Следует учитывать, что система распознавания не обязательно должна понять смысл текста электронного письма, интересы пользователя и тематики спама. Задача состоит в том, что бы сравнить формальное описание смысла указанных текстов и отнести электронное письмо к одному из заранее известных классов.

В настоящее время, перспективным методом извлечения смысла текста является реферирование [4,5]. Поэтому, и при классификации электронных писем, возможно, использовать рефераты эти писем. С учетом этого предположения, сформирован алгоритм классификации электронных писем, показанный на рис.1.

 

 

Рис.1 Укрупненный алгоритм классификации электронных писем

 

Отметим, что в алгоритме не учтены технические моменты, связанные с открытием электронного письма, определением кодировки символов и т.д. Кроме этого, предполагается, что определить тематику письма возможно на основании анализа его текста. Достоинствами применения рефератов являются:

- Составление рефератов текста достаточно хорошо отработано как на теоретическом, так и на практическом уровне. Во многих случаях рефераты удовлетворительно отображают смысл представляемых текстов.

- Возможность автоматического распознавания и блокировки бессмысленных писем, которые практически не распознаются большинством современных систем защиты от спама.

- Формальное представление реферата в большинстве случаев гораздо короче, а значит и требует гораздо меньшего объема ресурсов (памяти) для хранения, чем формальное описание исходного текста.

- Сопоставление относительно коротких рефератов в значительной мере уменьшат трудности, связанные с многообразием языковых форм.

Задача сопоставления рефератов

Основная трудность при сопоставлении рефератов заключается в том, что практически одинаковый смысл может быть выражен с помощью разного количества слов, довольно большого количества различных языковых конструкций, словосочетаний, слов синонимов. Вопрос несколько упрощается из-за того, что рефераты могут быть созданы по одинаковым правилам, учитывающим необходимость уменьшения применяемых языковых конструкций. При этом большинство современных методик формирования рефератов базируются на использовании семантических сетей. В общем случае семантическая сеть представляет знания в виде графа, узлы которого соответствуют фактам, а дуги – отношениям или ассоциациям между понятиями. Достоинством семантических сетей является возможность определения связей между понятиями и специфических правил вывода, определяемых механизмом наследования. Под семантической сетью текста понимают множество связанных между собой значимых понятий (слов и словосочетаний), выделенных из состава текста. Каждый элемент семантической сети (понятие) характеризуется своим весом и набором связей с другими элементами – контекстным узлом. Вес элемента определяет относительную смысловую значимость выраженной им темы по сравнению с значимостью других элементов. Вес связи между парой элементов характеризует относительную смысловую связность, соответствующей первому элементу, с темой соответствующей второму. Каждый вес элемента и вес связи характеризуется числовым значением в заранее определенном диапазоне. Применение семантических сетей позволяет абстрагироваться от малоинформативных элементов формально-синтакисической структуры текста (порядка слов, залога и т.п.) и представляет его пропозициональную структуру в терминах описываемых ситуаций (предикатов) и их участников (аргументов) в определенных семантических ролях [4,5,6]. Однако, в задаче распознавания спама, полное представление смысла текста в форме семантической сети является избыточным и непродуктивным. Такое представление имеет большой объем (превышающий объем документа), а его обработка требует развитых нетривиальных средств для поиска и сравнения структур на графах, что в свою очередь требует использования значительных вычислительных ресурсов. Возможным выходом из этой ситуации является представление смыслового портрета в виде перечня элементарных смыслов - атрибутов, с оценками их информативности для характеристики текста. Традиционно в силу простоты реализации для этой цели используются частотные списки слов, которые употребляются в тексте. Однако наиболее информативные элементы смысла, описывающие отношения, возникают только на уровне синтагм, выделение которых требует применения алгоритмов синтаксического анализа, описанных, например, в [5]. Будучи дополнен правилами для генерации канонической формы синтагм, синтаксический анализ-синтез позволит описать каждый смысловой атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных фразах.

Возможность составления качественных рефератов подтверждаются распространенностью соответствующих программных продуктов, например TextAnalyst, компании "Микро Системы" и Inxight Summarizer, созданной в Исследовательском центре Ксерокса. К задачам, решаемым подобными программными продуктами, относятся:

- Построение словарей базовых понятий предметной области (терминологических словосочетаний и слов) на базе множества текстов.

- Построение баз знаний на базе текстов предметной области с оценкой относительной значимости понятий и их смысловых связей.

- Построение тематической структуры текста. Тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем, раскрывающих содержание тем.

- Построение списка наиболее значимых предложений (реферата) исходного текста. При этом каждое предложение реферата может характеризоваться степенью значимости.

- Рубрикация (классификация) текстов по заданным темам.

- Смысловой поиск интересующей информации. Функция смыслового поиска позволяет получить ответ на запрос, сформированный в виде фразы естественного языка, словосочетаний или просто набора ключевых слов. При этом извлекаемая в ответ на запрос информация может иметь другую грамматическую форму или вообще не упоминаться явно в тексте запроса, однако иметь смысловую связь с текстом запроса.

Отметим, что решение этих же задач необходимо и при классификации электронных писем. Автором были проведены эксперименты по составлению рефератов спам-писем по тематикам: приглашения на семинары и реклама потребительских товаров. В качестве инструмента реферирования был использован TextAnalyst. Результаты экспериментов показали удовлетворительное качество, как составления тематической структуры анализируемых писем, так и формирования списка наиболее значимых предложений (реферата). При этом объем файла реферата составил около 5-10% от объема файла анализируемого текста. Кроме этого, сделана попытка составления реферата пустого файла и бессмысленных текстов. Система TextAnalyst выдала сообщение о том, что данные тексты не подлежат реферирования, так как являются неправильными. В интерпретации системы, письма с таким содержимым были бы классифицированы как спам что, безусловно, является положительным моментом.

В то же время, возможности смыслового поиска и рубрикации текста не отвечают потребностям системы защиты от спама. Так смысловой поиск слова строение в письме, посвященному рекламе жилья закончился безрезультатно. Результаты [4,5,6] показывают, что качественно решить вопросы рубрикации и смыслового поиска возможно за счет сопоставления рефератов и/или тематической структуры текстов с использованием грамматических словарей. Для проведения такого сопоставления, возможно, использовать рекуррентные семантические нейронные сети или вероятностные нейронные сети [6,7]. Сравнение указанных типов нейронных сетей показывает, что рекуррентные семантические нейронные сети обладают большей производительностью и мощностью в задачах классификации и кластеризации образцов текстов. Однако их реализация в системах распознавания спама требует проведения дополнительных исследований. Кроме этого практическая реализация рекуррентных семантических сетей не всегда возможна по причине использования значительных вычислительных ресурсов. Поэтому в данной статье ставиться акцент на применении вероятностных нейронных сетей.

<== предыдущая лекция | следующая лекция ==>
Концепция фильтрации электронных писем | Использование вероятностных нейронных сетей при сопоставлении тематической структуры текстов
Поделиться с друзьями:


Дата добавления: 2014-01-14; Просмотров: 375; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.025 сек.