Ещё относительно недавно (по меркам развития технологий) контекстуальный анализ был довольно простым: существенным преимуществом считалось наличие возможности анализа метаданных файлов. Однако сегодня методы контекстуального анализа существенно развились: теперь они способны учитывать и обрабатывать более сложную информацию. К ней относится:
Именно контекстный анализ часто служит основой для создания политик контент-анализа. Это одно из основных преимуществ анализа в DLP — вместо того, чтобы рассматривать саму конфиденциальную информацию, можно создавать политики, которые будут учитывать все важные атрибуты среды, в которой такая информация существует.
При защите конфиденциальных данных организации нужно обеспечивать их безопасность в любом месте, где бы они оказались, а не только там, где они хранятся. И если конфиденциальные данные по каким-либо причинам покинули своё безопасное место, следует иметь возможность оперативно принять меры по устранению рисков утечки данных, к которой может привести эта ситуация. Это довольно сложно сделать, не обладая комплексным подходом. Поэтому и существуют DLP-системы как класс программных продуктов, которые способны обеспечить такой подход к защите.
Первый шаг при анализе контента – это перехватить его и получить к нему доступ. Затем DLP-системе нужно понять контекст (он нужен для анализа) и исследовать его. Отметим, что при работе с обычными текстовыми файлами это легко решаемая задача. Немного сложнее, когда DLP-системе следует обрабатывать бинарные файлы.
Традиционно DLP-системы решают эту задачу с помощью технологии взлома файлов. Она используется для чтения и «понимания» файла, когда его содержимое скрыто. Российские DLP-системы, представленные сегодня на рынке, способны распознавать содержимое в около 300 различных форматах файлов, в том числе и зашифрованных. Например, это может быть таблица Excel, встроенная в заархивированный документ Word. В таком случае DLP-система должна сначала разархивировать файл, прочитать документ Word и проанализировать его содержимое, а затем найти, прочитать и проанализировать таблицу Excel. Могут быть и более сложные ситуации: например, когда DLP-системе приходится прочитать pdf-файлы, встроенные в САПР-файлы.
После доступа к содержимому используются ряд методов анализа DLP-систем, которые помогают определить нарушения политики безопасности информации в организации. Расскажем подробнее о принципе работы трёх методов анализа, которые реализованы в наиболее современных и высокотехнологичных DLP-системах.
Сигнатурный анализ – это самый распространённый метод контроля конфиденциальных данных, который может быть реализован в DLP-системе. Эффективность этого метода зависит от количества и проработанности установленных словарей, в которых включены слова и выражения, появление которых в бизнес-среде требует внимания. Например, в организации, где установлена DLP-система и существует словарь для контроля переписки с контрагентами, при упоминании работниками слов «взятка», «откат» или других подобных слов DLP-система оповестит об этом ответственное лицо.
Если словари «собраны» качественно, например, с учётом транслитерации или использования латинских букв вместо русских, то точность выявления нарушения политики безопасности будет близка к 100%. Кроме этого, при работе этого метода обеспечивается очень низкий уровень ложноположительных срабатываний DLP (их практически нет).
Анализ с помощью регулярных выражений – это также один из наиболее распространенных методов анализа содержания, реализуемый как в полноценных DLP-системах, так и в других инструментах, которые имеют лишь некоторые функции DLP. С помощью регулярных выражений (также их называют масками) можно проанализировать контент на наличие совпадений, установленных определёнными правилами.
Этот метод анализа удобен при поиске числовых сведений известной формы: банковских, финансовых, юридических, контактных, персональных и других данных. Например, в организации может существовать правило: нельзя сообщать любые номера счетов в переписке с контрагентами по электронной почте. Выявить нарушение помогут именно регулярные выражения (маски).
Большинство DLP-систем имеют большое количество предустановленных наборов правил, что помогает быстро внедрить систему. Кроме этого, при необходимости у организации будет возможность быстро создать уникальные и персонализированные правила. Это позволит определять тот контент, который ей свойственен, благодаря чему можно свести к минимуму количество ложноположительных срабатываний.
Анализ с использованием цифровых отпечатков – это один из самых новых методов анализа содержания в DLP-системах. Объясним принцип его работы. Сначала с конфиденциальных данных следует «снять отпечатки»: выявить чувствительное содержание, снять хэши всего корпуса данных и их определённых частей. Затем следует разместить полученные результаты в определённую базу. Данные, которые существуют в бизнес-среде, будут сравниваться именно с этой базой на предмет соответствия. При грамотном вычленении «отпечатков» DLP-система будет довольно точно определять нарушение конфиденциальности данных.
Особенно удобно использовать этот метод, если в организации работают с большим количеством баз данных, чертежей или других видов файлов с нетекстовым содержанием.
Помимо упомянутых методов контентного анализа DLP, также существуют лингвистические и статистические методы, которые на сегодняшний день реализованы в любых DLP-системах. Рассмотренные нами методы анализа контента свойственны наиболее развитым и качественным DLP. Так, на российском рынке примером такого программного продукта является DLP-система Falcongaze SecureTower.
В Falcongaze SecureTower реализованы все указанные методы анализа. Кроме этого, она также предоставляет пользователям возможность строить сложные правила анализа контента и контекста, которые сочетают сразу несколько методов, учитывают их последовательность при обработке данных и т.д. Всё это позволяет персонализировать DLP для наиболее продуктивной работы, а с учётом других преимуществ характеризует Falcongaze SecureTower как один из самых выгодных инструментов для защиты данных организации.