Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Анализ современных методов распознавания спама

Введение

Применение семантического анализа содержимого электронных писем в системах распознавания спама

В общем случае, под термином спам, понимают массово рассылаемые электронные письма, содержащие информацию, которая не интересует большинство получателей или вводит их в заблуждение. Как правило, такие письма анонимны, предназначены для достаточно широкого круга лиц, при этом большинство пользователей не подписывались на получение данной почтовой рассылки. По своей сути большая часть спама является навязчивой и несанкционированной рекламой. Уверенность руководителей многих компаний в том, что такой метод рекламы достаточно эффективен, является основной предпосылкой существования спама. Предполагается, что большинство получателей охотно откликаются на содержащиеся в спаме предложения товаров и услуг. Кроме этого, спам это один из самых дешевых способ рекламы. Стоимость контакта с клиентом при массовой рассылке рекламных писем гораздо ниже, чем при рекламировании любым другим способом [1,2]. Поэтому рассылка спама это высокодоходный бизнес, подкрепленный устоявшимся рынком и стабильным спросом. Следствием этого является то, что в русскоязычной зоне Интернет объем спама составляет около 80% от общего объема всей электронной почты [1,3].

С точки зрения конечных пользователей, основными отрицательными моментами существования спама являются ­­­­- уменьшение эффективности обработки содержимого электронных писем и увеличение трафика при использовании электронной почты. Если не учитывать психологический аспект получения письма от неизвестного источника, то снижение эффективности обработки электронной корреспонденции происходит за счет временных потерь на обработку спама. По данным [1,3] в крупных компаниях сотрудники, которые работают с электронной почтой, тратят на спам около трех процентов своего рабочего времени. Негативные последствия спама привели к тому, что в некоторых странах борьба со спамом ведется уже и на законодательном уровне. Этим объясняется актуальность общей проблемы данной статьи - исследования методов и средств защиты от спама. Отметим, что основной проблемой защиты от спама является его распознавание в общем потоке получаемых электронных писем.

Метод "черного", "белого" и "серого" списков. Базой метода является анализ обратного IP-адреса отправителя письма. Все письма, отправленные с IP-адресов, занесенных в "черный список", уничто­жаются еще на почтовом сервере, так и не достигая конечного пользователя. Адрес вноситься в "черный список" на основании того, что письмо пришедшие с этого адреса является спамом. С адресатами из "белого списка" разрешен обмен поч­товыми сообщениями. В случае, когда IP-адрес письма не присутствует ни в "черном" ни в "белом" списке, то отправителю автоматически высылается запрос на авторизацию, а IP-адрес заноситься во временный "серый" список. Если по истечении оп­ределенного срока подтверждение "благонадежности" от неизвестного адресанта не поступает, то его адрес вносится в "черный список", а сообщения удаляются. Основной недостаток данного метода заключается в том, что IP-адрес не обязательно является указателем источника спама. Например, спам может прийти с динамического IP-адреса, или рассылка спама может производится без санкции владельца IP-адреса. Таким образом, с высокой вероятностью в "черный" список могут попасть адреса ни в чем не повинных пользователей. Кроме этого использование "серого" списка оправдано только в том слу­чае переписки с узким кругом лиц. Если же пользователю приходится работать с электронной почтой достаточно много и час­то поступают письма от неизвестных людей, то ведение "серого" списка потребует достаточно больших затрат на периодическую ре­конфигурацию.

 

Метод писем-подтверждений. В некотором смысле является модификацией метода списков. При использовании метода подтверждений в ответ на получение письма IP-адрес, которого не внесен в "белый" список высылается запрос с просьбой подтверждения факта отправки. В случае подтверждения IP-адрес заносится в "белый список", а исходное письмо доставляется получателю. Метод базируется на том, что поскольку спам-рассылки происходят автоматически, по многим миллионам адресов, а адрес отправителя - в большинстве случаев – поддельный, то подтверждения от настоящего спамера получить не удастся. Однако применение данного метода резко снижает оперативность доставки писем, во многих случаях спам отправляется с реальных IP-адресов, а современное программное обеспечение спамеров может генерировать подтверждение отправки писем.

Метод распознавания спама по ключевым словам (словосочетаниям), которые определяются пользователем в виде некоторых правил. Данный метод не получил широкого распространения в силу сложности и трудоемкости формирования указанных правил.

Метод байесовской фильтрации. Каждому встречающемуся в электронной переписке слову (или HTML-тэгу) присваивается два значе­ния: вероятность его наличия в спаме (z) и вероятность его присутствия в пись­мах, разрешенных для прохождения (1-z). Каждому новому письму с помощью формулы Байеса выставляется оценка (Z):

Z = A/(A+B), (1)

где

А = z1 ´ z2 ´...´zi´…´ zn, (2)
B = (1-z1)´(1-z2)´...´(1-zi)´…´(1-zn), (3)

zi - спам-оценка каждого слова, входящего в письмо.

Если полученная оценка меньше некоторого заранее определенного порогового значения, то письмо трактуется как спам.

Очевидно, что эффективность данного метода во многом зависит от правильности расчета спам-оценок слов входящих в письмо. Для этого необходимо произвести статистический анализ как спама, так и обычных писем получаемых каждым пользователем. Необходимость индивидуального анализа объясняется:

- Пользователи могут иметь различные интересы. Для одних пользователей письмо является спамом, для других оно представляет интерес.

- Разные пользователи используют при переписке различную лексику.

Таким образом, метод байесовской фильтрации предполагает некоторое запаздывание, связанное с накоплением каждым пользователем достаточного объема статистического материала (архива писем). Еще одним недостатком метода является пропуск спама, если в письме относительно мало слов с высокой спам-оценкой. Отметим, что это обстоятельство используется спамерами как для обхода, так и для компрометации фильтров. Например, бессмысленное письмо, состоящее из набора нейтральных слов, не будет распознано как спам.

В большинстве современных антиспамовых систем реализованы комплексные методы защиты, которые по заверениям их разработчиков могут фильтровать до 98% спама. Однако время реакции на новый вид спам-писем крупнейших почтовых служб Интернета составляет 20-30 мин [1,3]. Отметим, что эти почтовые службы защищены наиболее современными средствами защиты. При этом, крупные рассылки многих миллионов спам-писем осуществляются в течении 1-2 часов. Поэтому с большой вероятностью в почтовые службы многих пользователей проведут не верную классификацию спама.

Проведенный анализ позволяет сформулировать вывод о том, что существующие системы распознавания спама не могут адекватно реагировать на современные методы составления и распространения спама. В то же время, даже не квалифицированный пользователь легко распознает спам на основании сопоставления своих интересов и смысла письма. По этой причине целесообразно распознавать спам по аналогии с тем, как это делает человек, т.е. на основании анализа содержания письма.

Цель статьи

Усовершенствование методик распознавания спама на основании анализа содержания электронных писем.

<== предыдущая лекция | следующая лекция ==>
Вычисление интегралов от периодических функций | Концепция фильтрации электронных писем
Поделиться с друзьями:


Дата добавления: 2014-01-14; Просмотров: 1740; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.