Риск-менеджмент в IT

Технические аспекты управления рисками в IT-проектах и инфраструктуре

Лекция 8

2025

Цели презентации

Изучить практические подходы к управлению IT-рисками
Познакомиться с современными инструментами и методологиями
Рассмотреть техническую интеграцию риск-менеджмента в SDLC
Проанализировать реальные кейсы из практики
Освоить метрики и KPI для измерения эффективности

Определение IT-рисков

IT-риски — потенциальные события или условия, которые могут негативно повлиять на IT-системы, данные или процессы

Ключевые характеристики:

Техническая природа: связаны с технологиями и архитектурой
Измеримость: могут быть оценены количественно
Управляемость: поддаются техническим методам митигации
Цепочечность: могут вызывать каскадные эффекты

Классификация IT-рисков

Технические

Отказы ПО/оборудования, багги в коде, архитектурные проблемы

Информационные

Утечки данных, нарушение целостности, доступности

Операционные

Сбои процессов, человеческий фактор, конфигурации

Проектные

Превышение сроков/бюджета, изменение требований

Процесс управления рисками

Идентификация

Выявление потенциальных рисков

Анализ

Качественная и количественная оценка

Оценка

Приоритизация по критичности

Обработка

Выбор стратегии митигации

Мониторинг

Контроль и обновление

Циклический процесс, требующий постоянного внимания

Идентификация рисков

Технические методы выявления:

Brainstorming: командные сессии с разработчиками, DevOps, QA
Architecture Review: анализ диаграмм, зависимостей, single points of failure
Threat Modeling: STRIDE, PASTA методологии
Code Analysis: статический анализ, security scans
Infrastructure Audit: проверка конфигураций, мониторинга
Historical Analysis: анализ инцидентов, post-mortems

Анализ рисков

Качественный анализ

Описание сценария
Причины возникновения
Потенциальные последствия
Связанные компоненты

Количественный анализ

MTBF/MTTR метрики
Probability × Impact
Cost of downtime
Recovery objectives

💡 Используйте исторические данные и отраслевые бенчмарки для точной оценки

Матрица рисков

Приоритизация рисков по вероятности и воздействию:

Средний

Высокий

Критический

Низкий

Средний

Высокий

Минимальный

Низкий

Средний

← Низкая вероятность Высокая вероятность →

← Низкое воздействие | Высокое воздействие →

Стратегии обработки рисков

🚫 Избежание

Изменение архитектуры, отказ от рискованных технологий

⬇️ Снижение

Резервирование, мониторинг, автоматизация

↗️ Передача

Страхование, cloud-провайдеры, аутсорсинг

✅ Принятие

Планы восстановления, резервные фонды

Выбор стратегии зависит от критичности системы и доступных ресурсов

Технические методы снижения рисков

🔄 Резервирование

RAID массивы
Database replication
Load balancing
Multi-AZ deployment

📊 Мониторинг

APM системы
Log aggregation
Health checks
Alerting systems

🧪 Тестирование

Unit/Integration tests
Load testing
Security testing
Chaos engineering

🤖 Автоматизация

CI/CD pipelines
Infrastructure as Code
Auto-scaling
Automated recovery

Инструменты управления рисками

📋 Jira + Risk Management

Трекинг рисков, интеграция с проектами

Российский аналог: YouGile (планирование задач)

🔍 Splunk

Анализ логов, выявление аномалий

Российский аналог: Логика (лог-анализ)

📈 Grafana + Prometheus

Мониторинг метрик, дашборды

Российский аналог: АстроСофт Мониторинг

🛡️ ServiceNow GRC

Корпоративное управление рисками

Российский аналог: Галактика ERP

☁️ AWS/Azure Security Center

Cloud security posture management

Российский аналог: Ростелеком Cloud

🔐 Qualys/Nessus

Vulnerability assessment

Российский аналог: Доктор Веб Сканер уязвимостей

Мониторинг и контроль рисков

Ключевые компоненты системы мониторинга:

Real-time dashboards: текущее состояние критических метрик
Automated alerting: уведомления при превышении порогов
Risk registers: централизованная база данных рисков
Periodic reviews: регулярная переоценка рисков
Incident correlation: связь между рисками и инцидентами
Trend analysis: анализ динамики изменения рисков

💡 Автоматизация критична: ручной мониторинг не масштабируется

Кейс 1: Риски в DevOps

Ситуация:

Компания внедряла CI/CD pipeline для микросервисной архитектуры

Выявленные риски:

Автоматический deploy багги в production
Отсутствие эффективного rollback механизма
Cascading failures при обновлении зависимостей
Недостаточное тестирование интеграций

Решение:

Blue-Green deployment: zero-downtime updates
Feature flags: контролируемый rollout
Contract testing: проверка API совместимости
Canary releases: постепенное развертывание

Результат: снижение incident rate на 75%, MTTR с 4 часов до 15 минут

Кейс 2: Миграция в облако

Проект:

Миграция legacy ERP системы в AWS

Критические риски:

Длительный downtime при переносе данных (2TB)
Потеря данных при миграции
Деградация производительности
Интеграция с on-premise системами

Стратегия митигации:

Pilot migration: тестирование на dev окружении
DMS replication: синхронизация данных в реальном времени
Performance testing: нагрузочное тестирование в cloud
Hybrid connectivity: VPN/Direct Connect

Результат: миграция выполнена за weekend с downtime 2 часа вместо планируемых 12

Кейс 3: Безопасность API

Задача:

Обеспечение безопасности публичного REST API для финтех приложения

Угрозы:

Injection attacks (SQL, NoSQL, LDAP)
Broken authentication & authorization
Excessive data exposure
Rate limiting bypass
OWASP API Top 10 vulnerabilities

Контрмеры:

API Gateway: centralized security policies
OAuth 2.0 + JWT: secure authentication
Input validation: schema validation, sanitization
Rate limiting: per-user, per-endpoint limits
API security testing: automated SAST/DAST scans

Результат: zero security incidents за год, 99.9% API availability

Интеграция с SDLC

Requirements

Security requirements, threat modeling

Design

Architecture review, risk assessment

Development

Secure coding, code review

Testing

Security testing, penetration testing

Deployment

Security hardening, monitoring setup

🔄 Shift-Left Security:

Внедрение security практик на ранних стадиях разработки снижает стоимость исправления на 100x

Роль архитектуры в управлении рисками

🏗️ Микросервисы

Изоляция рисков, независимое масштабирование

Российский стек: T1Market, Сбербанк Технологии

🔄 Event-Driven

Асинхронность, отказоустойчивость

⚡ Circuit Breaker

Предотвращение каскадных сбоев

🚢 Bulkhead Pattern

Изоляция критических компонентов

🎯 Saga Pattern

Distributed transaction management

🔍 Observability

Metrics, logs, traces для visibility

Российский аналог: Логика, АстроСофт

💡 Архитектурные решения должны закладывать отказоустойчивость на уровне дизайна

Автоматизация риск-менеджмента

🏗️ Infrastructure as Code

Terraform/CloudFormation
Российский аналог: CloudBroker (локальная IaC платформа)
Version control инфраструктуры
Automated compliance checks
Drift detection

📜 Policy as Code

Open Policy Agent (OPA)
AWS Config Rules
Azure Policy
Российский аналог: ЭЛВИС-Плюс

🔒 Security as Code

SAST/DAST в CI/CD
Container scanning
Infrastructure scanning
Российский аналог: Kaspersky Security Scan

💥 Chaos Engineering

Chaos Monkey/Litmus
Российский аналог: TestKube
Resilience validation
Game days

Метрики и KPI

99.9%

Availability SLA

Время доступности системы

< 15 мин

MTTR

Среднее время восстановления

< 1 час

RTO

Recovery Time Objective

< 5 мин

RPO

Recovery Point Objective

Дополнительные метрики:

Security: # инцидентов, время реагирования, покрытие уязвимостей (российские решения: Касперский SIEM, ЭЛВИС-СЕК)
Performance: response time, throughput, error rate (российские инструменты: Логика, АстроСофт)
Cost: стоимость downtime, затраты на митигацию (инструменты: YouGile, Галактика ERP)

Заключение и следующие шаги

🎯 Ключевые выводы:

Риск-менеджмент — это непрерывный технический процесс
Автоматизация и мониторинг критически важны для масштабирования
Интеграция в SDLC повышает эффективность на порядок
Архитектурные решения определяют 80% рисков системы
Метрики и мониторинг позволяют принимать data-driven решения

🚀 Следующие шаги:

1. Assess

Проведите риск-ассессмент текущих проектов

2. Monitor

Внедрите систему мониторинга и алертинга

3. Automate

Автоматизируйте security и compliance проверки

4. Train

Обучите команду методологиям риск-менеджмента

Вопросы и обсуждение