Главная Обратная связь

Дисциплины:






Контейнерный анализ



Этот метод анализирует свойства файла или другого контейнера, в котором находится информация. Каждый контейнер содержит некую метку, которая однозначно определяет тип содержащегося внутри контейнера контента. Упомянутые методы практически не требуют вычислительных ресурсов для анализа перемещаемой информации, поскольку метка полностью описывает права пользователя на перемещение контента по любому маршруту. Плюсы такого подхода очевидны: быстрота анализа и полное отсутствие ошибок второго рода (когда открытый документ система ошибочно детектирует как конфиденциальный). Минусы — система заботится только о помеченной информации: если метка не поставлена, контент не защищен. Слабость таких систем проявляется и в организации расстановки меток. Если их расставляет автор документа, то по злому умыслу он имеет возможность не пометить информацию, которую собирается похитить. Метки обычно подразделяют на атрибутные, форматные и внешние. Как следует из названия, первые размещаются в атрибутах файлов, вторые — в полях самого файла и третьи — прикрепляются к файлу (ассоциируются с ним) внешними программами.

Контентный анализ

Задача этих технологий — извлечь значащий контент из контейнера или перехватить передачу по каналу связи и проанализировать информацию на наличие запрещенного содержимого. Основными технологиями в определении запрещенного контента в контейнерах являются контроль сигнатур, контроль на основе хеш-функций и лингвистические методы.

Сигнатуры

Самый простой метод контроля — поиск в потоке данных некоторой последовательности символов

К достоинствам этого метода можно отнести независимость от языка и простоту пополнения словаря запрещенных терминов. Недостатки становятся очевидными при использования не-английского языка. К сожалению, большинство производителей систем анализа текстов работают для американского рынка, а английский язык очень «сигнатурен» — формы слов чаще всего образуются с помощью предлогов без изменения самого слова.

Маски

Расширением функционала поиска сигнатур «стоп-слов» является поиск их масок. Он представляет собой поиск такого содержания, которое невозможно точно указать в базе «стоп-слов», но можно указать его элемент или структуру. К такой информации следует отнести любые коды, характеризующие персону или предприятие: ИНН, номера счетов, документов и т.д. Маска учитывает не только произвольный номер, но и любой регистр и даже подмену русских букв латинскими. Маска записана в стандартной нотации «REGEXP», хотя у различных DLP-систем могут быть собственные, более гибкие нотации.

Хеш-функции

Набирается база образцов конфиденциальных документов. С каждого из них снимается «отпечаток», т.е. из документа извлекается значимое содержимое, которое приводится к некоторому нормальному, например (но не обязательно) текстовому виду, затем снимаются хеши всего содержимого и его частей, например абзацев, предложений, пятерок слов и т.д., детализация зависит от конкретной реализации. Эти отпечатки хранятся в специальной базе данных. Перехваченный документ точно так же очищается от служебной информации и приводится к нормальному виду, затем с него по тому же алгоритму снимаются отпечатки-шиндлы. Полученные отпечатки ищутся в базе данных отпечатков конфиденциальных документов, и если находятся — документ считается конфиденциальным. Большинство преимуществ такого метода являются одновременно его недостатками. Прежде всего, это требование использования образцов документов. С одной стороны, пользователю не надо беспокоиться о стоп-словах, значимых терминах и другой информации, совершенно неспецифической для офицеров безопасности деятельности. С другой стороны, «нет образца — нет защиты», что порождает те же самые проблемы с новыми и входящими документами, что и при обращении к технологиям, базирующимся на метках. Очень важным плюсом такой технологии является ее нацеленность на работу с произвольными последовательностями символов. Низкоуровневые хеш-функции неустойчивы к примитивному кодированию. Они легко справляются с изменением порядка слов, перестановкой абзацев и другими ухищрениями «плагиаторов», но, например, изменение букв по всему документу разрушает хеш-образец и такой документ становится невидимым для перехватчика.



Лингвистические методы

Метод работает только с текстами. Лингвистика как наука состоит из многих дисциплин — от морфологии до семантики. Поэтому лингвистические методы анализа тоже различаются между собой. Есть методы, использующие лишь стоп-слова, только вводящиеся на уровне корней, а сама система уже составляет полный словарь; есть базирующиеся на расставлении весов встречающихся в тексте терминов.

Достоинством метода является полная нечувствительность к количеству документов, т.е. редкая для корпоративной информационной безопасности масштабируемость. Лингвистические системы наряду с сигнатурной фильтрацией так распространены, поскольку позволяют начать работать без изменений в компании сразу после инсталляции. Недостатки. Зависимость от языка. Еще один недостаток — высокий процент ошибок второго рода, (Соответственно, ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием. человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).) для снижения которого требуется квалификация в области лингвистики (для тонкой настройки базы фильтрации). Лингвистические методы выбирают тогда, когда хотят минимизировать вмешательство в бизнес, когда служба защиты информации не имеет административного ресурса изменить существующие процессы создания и хранения документов. Они работают всегда и везде, хотя и с упомянутыми недостатками.





sdamzavas.net - 2019 год. Все права принадлежат их авторам! В случае нарушение авторского права, обращайтесь по форме обратной связи...