Управление данными кибербезопасности
Краткие теоретические сведения
Data Governance — это набор практик, процессов, методологий, обеспечивающих управление информационными активами внутри организации. На сегодняшний день включает 10 доменов:
1. Архитектура данных.
2. Метаданные.
3. Моделирование и проектирование данных.
4. Справочные и основные данные.
5. Безопасность данных.
6. Интеграция данных.
7. Управление документами и контентом.
8. Хранение и операции с данными.
9. Хранилища данных и бизнес-аналитика.
10 Качество данных. Их цель — извлечение пользы из данных организации.
С устройств платформ Сбера и внешних систем собираются и обрабатываются более 350 млрд событий в сутки:
телеметрия от сетевых устройств и устройств защиты;
системные логи и журналы;
аудит серверов и рабочих станций;
данные из инфраструктуры и информационных систем;
внешние источники информации об уязвимостях;
транзакционная активность клиентов.
Без выстраивания процессов управления данными невозможно реагировать на угрозы и события кибербезопасности.
Сегодня в платформах Сбера используются данные кибербезопасности:
для построения аналитических витрин с последующей передачей во внутренние и внешние системы;
внедрения в различные бизнес-процессы (уже более шести подразделений используют данные кибербезопасности в своих бизнес-процессах);
расчета скорингов и обучения моделей выявления мошенничества и киберугроз;
создания собственных аналитических продуктов на платформе кибербезопасности;
моделирования и исследования по данным кибербезопасности на основе созданного Data Lake.
Управление жизненным циклом
Экспоненциальный рост данных кибербезопасности привел к большой утилизации ресурсов и определил процесс управления жизненным циклом данных одним из важных для Сбербанка в управлении данными.
Выделяется девять этапов жизненного цикла данных:
1. Определение данных.
2. Сбор данных.
3. Описание данных.
4 - 6. Обработка, транспорт и хранение данных.
7. Использование данных.
8. Формирование отчетности.
9. Определение политики хранения и уничтожения данных.
Пример архитектуры этапов жизненного цикла в Сбербанке
Какие данные собираются в Сбербанке?
системные логи и журналы аудита серверов и конечных устройств;
телеметрии от сетевого оборудования и устройств безопасности по периметру;
транзакционные данные от клиентов;
данные об инфраструктуре;
информационные сервисы;
справочная информация из автоматизированных банковских систем (видео, фото, аудио документов, которые требуется обрабатывать);
информация из внешних источников.
Эти данные можно разделить на три группы:
слабоструктурированные;
структурированные;
неструктурированные.
Для каждого типа данных определяются свои инструменты сбора (файловые обработчики, стриминговые инструменты).
После этапа сбора и преобразования данные попадают в интеграционный слой — в нашей архитектуре это интеграционная шина Kafka.
Далее этап обработки реализован по лямбда-архитектуре:
первый слой обрабатывает события в режиме реального времени;
второй накапливает и хранит информацию.
Долговременное хранение производится в едином Data Lake:
аналитический слой для поиска или использования информации. Работа с данными осуществляется как специалистами (руководители, аналитики, форензик-инженеры, Data Scientists), так и в автоматизированных системах (антифрод-системы, IT и бизнес-системы платформы банка). В качестве дополнительных компонентов и инструментов управления данными используются:
система управления метаданными или каталог моделей данных;
аналитический поиск;
инструменты защиты данных и безопасности;
инструменты мониторинга и качества данных.
Работа с данными для понимания данных. Необходимо:
1. Организовать описание и связывание данных в логическую модель за счет загрузки физических данных, как базового технического слоя, и формирования бизнес-глоссария по предметным областям.
2. Выполнить маппинг терминов и понятий на физическую модель. Таким образом, создается логическая модель данных, позволяющая корректно работать с данными и получать от них пользу. Понимание данных пользователями достигается за счет поиска и анализа метаданных. Они позволяют получить следующую информацию или характеристики по данным:
владелец данных;
политика хранения и уничтожения данных;
уровень критичности информации;
уровни доступа;
где применяются модели данных в прикладных сервисах и продуктах.
Система управления метаданными - базовый сервис, позволяющий реализовывать потребности пользователей в работе с данными, а также объединять данные и строить логическую модель организации.
Аналитический поиск по данным — важная составляющая в оперативной работе по разбору инцидентов и проведению проверок.
Поиск должен обладать простым интерфейсом и не требовать специализированных навыков. Особенности организации сервиса поиска:
1. Поиск организуется по логической модели данных. Сервис поиска должен быть гетерогенным, то есть позволять искать одновременно по всем хранилищам данных.
2. Большой объем данных требует определенных навыков в построении поисковых систем и включает требования по количеству и разнообразию источников, объемам данных и нагрузке.
3. Отсутствие готовых решений для работы с большими данными требует использования OpenSource и разработки собственных сервисов. При небольших объемах данных потребности можно закрыть, например, с помощью Elastic и доработки управления доступом к нему.
Elastic - OpenSource - продукт, который предоставляет полнотекстовый поиск информации и позволяет реализовывать аналитический поиск.
4. Повышенные требования к информационной безопасности и доступу к данным:
контроль доступа;
журналирование;
аудит;
мониторинг обращений и поисковых запросов.
Подсистема мониторинга должна обеспечивать комплексный охват метрик и параметров в режиме «360 градусов».
Покрытие метрик, достаточное для выявления отклонений на всех уровнях работы с данными. Подсистема должна включать мониторинг:
инфраструктурный;
прикладной;
бизнес-мониторинг.
Система мониторинга и качества данных Сбербанка реализована следующим образом:
1. Инфраструктурный мониторинг и мониторинг приложений покрываются централизованной банковской системой мониторинга.
1.1. На уровне инфраструктурного мониторинга собираются метрики: как работает оборудование, программное обеспечение. Под мониторингом находятся облачная инфраструктура и железные серверы, предоставляющие метрики по утилизации процессоров, памяти, жестких дисков.
1.2. На уровне мониторинга приложений отслеживаются метрики, позволяющие видеть, каким образом работают наши разрабатываемые прикладные компоненты.
2. На уровне прикладных продуктов кибербезопасности осуществляется мониторинг бизнес-метрик.
3. Мониторинг качества данных осуществляется на всех уровнях:
3.1. На уровне инфраструктурного мониторинга и системного программного обеспечения производится сбор метрик гарантированной доставки и хранения данных.
3.2. На уровне бизнес-метрик проверяется, какие данные доставляются и не утеряна ли значимая информация.
Безопасность данных
К возможным внутренним нарушителям в Сбербанке относятся:
сотрудники банка, работающие с платформой, системные администраторы, имеющие расширенные права;
разработчики (могут добавить в разрабатываемый код ошибки, использовать открытый код и библиотеки, содержащие уязвимости);
Data Scientists, аналитики, имеющие доступ к критичной информации. К внешним нарушителям относятся экстремистские преступные группировки (физические лица, кибервойска).
Они способны внедрить дополнительные функциональные возможности в коммерческие и OpenSource-продукты.
Модель рисков и угроз Сбербанка состоит из следующих групп рисков:
утечки/хищения конфиденциальной информации;
нарушения целостности активов;
нарушения управлением доступом;
полной/частичной потери или недоступности объектов защиты;
несоблюдения требований регуляторов. Наибольшая критичность присвоена группам рисков, связанным с утечкой конфиденциальной информации или нарушением целостности активов.
Данные риски связаны с возможностью реализации угроз:
несанкционированный доступ к данным;
атаки на уязвимости ПО OpenSource;
заражение вредоносным ПО;
компрометация учетных записей и администраторов или пользователей технических учетных записей, привилегированных пользователей;
несанкционированные изменения, удаления конфигурации, файлов, баз данных или логов;
ошибки и закладки при разработке ПО.
Для устранения или смягчения угроз используются механизмы:
1. Ролевая модель доступа для управления полномочиями всех пользователей платформы.
2. Pam-система для контроля действий администраторов и привилегированных пользователей.
3. Виртуальные рабочие места для Data Scientists без возможности выгрузки данных.
4. Инструменты DevSecOps (статическое тестирование, сканирование пакетов OpenSource, Quality Gates в конвейерах DevOps при сборке дистрибутивов).
Дополнительно для Data Scientists развертываются лаборатории, в которые выгружается информация, необходимая для специализированных исследований, без доступа к общему хранилищу. На всех узлах применяется шифрование каналов связи со взаимной аутентификацией сервисов, ведется сбор аудита с компонентов.
Для контроля уязвимости применяется сканер уязвимости, а результаты работы используются при планировании процесса патч-менеджмента серверов.
Для практической оценки защищенности проводятся внутренние пентесты и киберучения.
Примеры типичных уязвимостей:
1. OpenSource-компоненты, обладающие уязвимостью в компонентах за счет отсутствия механизмов аутентификации.
2. Присутствие избыточных прав, позволяющих повысить привилегии.
3. Наличие в компонентах не заблокированных стандартных учетных записей.
4. Отсутствие парольных политик, как следствие — слабый пароль учетной записи. Наличие паролей в открытом виде в конфигурационных файлах, скриптах.
5. Наличие излишних прав доступа к директориям, отсутствие политик ограничения доступа на уровне хостов. Также в Сбербанке реализован стандарт, позволяющий оценить уровень защищенности любой автоматизированной системы банка. Для руководителей — это анкета уровня защиты их систем.
Интегральный уровень поделен на стримы:
правила;
процессы;
технологии.
Каждый стрим обладает критериями, весом, описанием, точной формулировкой и оценкой выполнения критерия. В сумме получается интегральный уровень защищенности автоматизированной системы.
Управление данными позволяет организации становиться Data- Driven и принимать решение, опираясь на анализ данных. Это позволяет расширить применение инструментов машинного обучения и искусственного интеллекта в кибербезопасности.
Эволюция работы с данными
Эволюция работы с данными в Сбербанке:
сбор;
обработка и хранение данных;
прикладная аналитика;
потоковый сбор, переход в режим реального времени;
продвинутая аналитика;
прогнозная аналитика и дополненная аналитика (ML и AI).