Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Вопрос 19. Марковские процессы. Основы для применения в СОВ. Вопрос 20. Применение в СОВ

Модель Марковских процессов – поведение является аномальным, если вероятность перехода, определенная предыдущим состоянием в матрице перехода, очень мала.

Модель временных серий – новое наблюдение является аномальным, если вероятность его появления с учетом времени низка

 

Процесс обнаружения представим в виде цепи Маркова.

Цепочка Маркова– стохастический процесс, удовлетворяющий двум условиям.

Ошибка возникает из-за ошибок первого и второго рода. Тогда можно расписать H(X) и H(X;Y) через NPV и PPV.

Вернули назад средний элемент.

Метрика Cid – единая. Метрика более чувствительная по отношению к ошибкам первого и второго рода. Если мы будем повышать Cr, то это будет приводить к повышению коэффициента Lс, который не позволит произвести перегрузку признаков.

 

Техники, которые были до этого – работающие с отдельными точками. Марковские процессы учитывают последовательности.

Если значение меньше, чем определенны порог, то считается, что оно аномально.

Анализируем последовательность событий и стоим цепи Маркова.

Далее делается классификатор – анализируется последовательность событий и из таблицы получаются соответствующие вероятности переходов между состояниями. Далее полученные вероятности перемножаются и на основе произведения принимается решение о том, аномалия или нет.

Проблема даже в том, что на стадии обучения надо принять то, что все действия нормальны.

Существуют скрытые цепочки Маркова. Мы можем не наблюдать самого процесса, но можем наблюдать некоторые косвенные признаки. Каждому наблюдаемому значению соответствует. Основная беда в том, что надо иметь адекватное количество нормальных и аномальных образцов.

 

Использование статистических методов. Длина полезной нагрузки, количество символов полезной нагрузки, наличие маркеров полезной нагрузки. Смотрим, с помощью каких характеристик можем поймать атаку.

Как считали – длина. Неравенство Чебышева показывает вероятность того, что

Длина прикладной нагрузки.

Распределение символов. Если у нас символы в процессе классификации будут отличаться от того, что было во время переполнения, то это выявим.

Можем строить как для отдельных символов, так и для отрезков символов. Например, можно делать следующее. Берут для 256 символов и смотрят частоту каждого символа, который появлялся в полезной нагрузке. Метод ограничен тем, что мы теряем информацию о порядке поступления символов. Второй момент – нормируем частоту появления символов. Рекомендуют для 256 символов брать следующие интервалы: [0], [1,3], [4,6], [7,11], [12,15],[16,255]. Почему такие интервалы – неизвестно. То есть у нас есть шесть интервалов. После этого смотрим средние значения частот на этапе обучения. Мы подставим значения. Считаются довольно быстро.

Оценка выполняется за время, линейное по отношению к количеству атрибутов.

Можно начать учитывать полезную нагрузку. Будет по-простому строиться вероятностный автомат. Мы эти строковые параметры можем заменить на регулярные выражения. Детерминированный аппарат сводится к цепочкам Маркова. Сложность построения такого автомата довольно серьезная.количество строк и максимальная длина строки.

Когда говорим об автомате, возникает проблема выбора автомата. Тут существует баланс между распространяемостью и специфичностью.

Для цепочек Маркова с трассами системных вызовов, трасса аномальна, если ее вероятность маленькая. Последовательность вызовов неизбежно сойдется к нулю.

Причины плохого результата цепочек Маркова. Редкий переход. …

Введено три типа метрик – мало вероятные

Как присваивались метрики? У нас есть состояние. Из него есть переходы в другие состояния. Ранжируем по порядку. Отсекаем суммы так, чтобы получить сигму, две сигмы и три сигмы.

Второй момент – введено окно. Оценивался каждый системный вызов по одному. Размер окна равен 1. Если у нас есть набор примерно равновероятных состояний, то у нас есть … Если вводятся окна, то вероятности подчеркиваются – более вероятные состояния увеличиваются, а менее вероятные – уменьшаются. С использованием этого окна оценивают энтропию. Она показывает, насколько мы можем предсказать n-й вызов по n-1.

Было показано, что для Unixподобной системы по 4 системным вызова можно предсказать 5.

Введено понятие устаревания. Если когда-то получили вероятность 0.2, то выше нее нельзя прыгнуть. Хорошо бы иметь более короткую память и забывать эти проблемы. За пределами окна аномальность системного вызова хорошо было бы не помнить. R – коэффициент полураспада. Показывает, как влияют прошлые записи на текущую статистику. Тау – время, за которое соответствующая запись начинает вдвое меньше влиять на соответствующую статистику. Чем больше величина r, тем меньше влияние прошлых результатов на статистику. Альфа – коэффициент устаревания, связанный с коэффициентами полураспада. Альфа оценивается следующим образом. Переход должен перестать влиять на статистику за количество шагов, равному окну. За пределами окна переход не должен влиять на статистику. У нас будет минимальная вероятность. Если есть 10 шагов без устаревания, то получим 0.05 вероятность. Если учесть коэффициент устаревания, то получаем коэффициент устаревания 1.78. Если в эту последовательность ввести устаревание, то получим 0.31684 – более приличный результат. Граничное значение для вероятности может быть задан экспертом. Количество маловероятных переходов в окне можно задавать.

 

<== предыдущая лекция | следующая лекция ==>
Вопрос 18. Поиск аномалий. Простейшие методы | Вопрос 22. Построение дерева индуктивного вывода. Применение деревьев принятия решений в СОВ
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 550; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.015 сек.