1 / 20

Риск-менеджмент в IT

Технические аспекты управления рисками в IT-проектах и инфраструктуре

Лекция 8

2025

Цели презентации

Определение IT-рисков

IT-риски — потенциальные события или условия, которые могут негативно повлиять на IT-системы, данные или процессы

Ключевые характеристики:

  • Техническая природа: связаны с технологиями и архитектурой
  • Измеримость: могут быть оценены количественно
  • Управляемость: поддаются техническим методам митигации
  • Цепочечность: могут вызывать каскадные эффекты

Классификация IT-рисков

Технические

Отказы ПО/оборудования, багги в коде, архитектурные проблемы

Информационные

Утечки данных, нарушение целостности, доступности

Операционные

Сбои процессов, человеческий фактор, конфигурации

Проектные

Превышение сроков/бюджета, изменение требований

Процесс управления рисками

Идентификация

Выявление потенциальных рисков

Анализ

Качественная и количественная оценка

Оценка

Приоритизация по критичности

Обработка

Выбор стратегии митигации

Мониторинг

Контроль и обновление

Циклический процесс, требующий постоянного внимания

Идентификация рисков

Технические методы выявления:

  • Brainstorming: командные сессии с разработчиками, DevOps, QA
  • Architecture Review: анализ диаграмм, зависимостей, single points of failure
  • Threat Modeling: STRIDE, PASTA методологии
  • Code Analysis: статический анализ, security scans
  • Infrastructure Audit: проверка конфигураций, мониторинга
  • Historical Analysis: анализ инцидентов, post-mortems

Анализ рисков

Качественный анализ

  • Описание сценария
  • Причины возникновения
  • Потенциальные последствия
  • Связанные компоненты

Количественный анализ

  • MTBF/MTTR метрики
  • Probability × Impact
  • Cost of downtime
  • Recovery objectives

💡 Используйте исторические данные и отраслевые бенчмарки для точной оценки

Матрица рисков

Приоритизация рисков по вероятности и воздействию:

Средний
Высокий
Критический
Низкий
Средний
Высокий
Минимальный
Низкий
Средний
← Низкая вероятность Высокая вероятность →
← Низкое воздействие | Высокое воздействие →

Стратегии обработки рисков

🚫 Избежание

Изменение архитектуры, отказ от рискованных технологий

⬇️ Снижение

Резервирование, мониторинг, автоматизация

↗️ Передача

Страхование, cloud-провайдеры, аутсорсинг

✅ Принятие

Планы восстановления, резервные фонды

Выбор стратегии зависит от критичности системы и доступных ресурсов

Технические методы снижения рисков

🔄 Резервирование

  • RAID массивы
  • Database replication
  • Load balancing
  • Multi-AZ deployment

📊 Мониторинг

  • APM системы
  • Log aggregation
  • Health checks
  • Alerting systems

🧪 Тестирование

  • Unit/Integration tests
  • Load testing
  • Security testing
  • Chaos engineering

🤖 Автоматизация

  • CI/CD pipelines
  • Infrastructure as Code
  • Auto-scaling
  • Automated recovery

Инструменты управления рисками

📋 Jira + Risk Management

Трекинг рисков, интеграция с проектами

Российский аналог: YouGile (планирование задач)

🔍 Splunk

Анализ логов, выявление аномалий

Российский аналог: Логика (лог-анализ)

📈 Grafana + Prometheus

Мониторинг метрик, дашборды

Российский аналог: АстроСофт Мониторинг

🛡️ ServiceNow GRC

Корпоративное управление рисками

Российский аналог: Галактика ERP

☁️ AWS/Azure Security Center

Cloud security posture management

Российский аналог: Ростелеком Cloud

🔐 Qualys/Nessus

Vulnerability assessment

Российский аналог: Доктор Веб Сканер уязвимостей

Мониторинг и контроль рисков

Ключевые компоненты системы мониторинга:

  • Real-time dashboards: текущее состояние критических метрик
  • Automated alerting: уведомления при превышении порогов
  • Risk registers: централизованная база данных рисков
  • Periodic reviews: регулярная переоценка рисков
  • Incident correlation: связь между рисками и инцидентами
  • Trend analysis: анализ динамики изменения рисков

💡 Автоматизация критична: ручной мониторинг не масштабируется

Кейс 1: Риски в DevOps

Ситуация:

Компания внедряла CI/CD pipeline для микросервисной архитектуры

Выявленные риски:

  • Автоматический deploy багги в production
  • Отсутствие эффективного rollback механизма
  • Cascading failures при обновлении зависимостей
  • Недостаточное тестирование интеграций

Решение:

  • Blue-Green deployment: zero-downtime updates
  • Feature flags: контролируемый rollout
  • Contract testing: проверка API совместимости
  • Canary releases: постепенное развертывание

Результат: снижение incident rate на 75%, MTTR с 4 часов до 15 минут

Кейс 2: Миграция в облако

Проект:

Миграция legacy ERP системы в AWS

Критические риски:

  • Длительный downtime при переносе данных (2TB)
  • Потеря данных при миграции
  • Деградация производительности
  • Интеграция с on-premise системами

Стратегия митигации:

  • Pilot migration: тестирование на dev окружении
  • DMS replication: синхронизация данных в реальном времени
  • Performance testing: нагрузочное тестирование в cloud
  • Hybrid connectivity: VPN/Direct Connect

Результат: миграция выполнена за weekend с downtime 2 часа вместо планируемых 12

Кейс 3: Безопасность API

Задача:

Обеспечение безопасности публичного REST API для финтех приложения

Угрозы:

  • Injection attacks (SQL, NoSQL, LDAP)
  • Broken authentication & authorization
  • Excessive data exposure
  • Rate limiting bypass
  • OWASP API Top 10 vulnerabilities

Контрмеры:

  • API Gateway: centralized security policies
  • OAuth 2.0 + JWT: secure authentication
  • Input validation: schema validation, sanitization
  • Rate limiting: per-user, per-endpoint limits
  • API security testing: automated SAST/DAST scans

Результат: zero security incidents за год, 99.9% API availability

Интеграция с SDLC

Requirements

Security requirements, threat modeling

Design

Architecture review, risk assessment

Development

Secure coding, code review

Testing

Security testing, penetration testing

Deployment

Security hardening, monitoring setup

🔄 Shift-Left Security:

Внедрение security практик на ранних стадиях разработки снижает стоимость исправления на 100x

Роль архитектуры в управлении рисками

🏗️ Микросервисы

Изоляция рисков, независимое масштабирование

Российский стек: T1Market, Сбербанк Технологии

🔄 Event-Driven

Асинхронность, отказоустойчивость

⚡ Circuit Breaker

Предотвращение каскадных сбоев

🚢 Bulkhead Pattern

Изоляция критических компонентов

🎯 Saga Pattern

Distributed transaction management

🔍 Observability

Metrics, logs, traces для visibility

Российский аналог: Логика, АстроСофт

💡 Архитектурные решения должны закладывать отказоустойчивость на уровне дизайна

Автоматизация риск-менеджмента

🏗️ Infrastructure as Code

  • Terraform/CloudFormation
  • Российский аналог: CloudBroker (локальная IaC платформа)
  • Version control инфраструктуры
  • Automated compliance checks
  • Drift detection

📜 Policy as Code

  • Open Policy Agent (OPA)
  • AWS Config Rules
  • Azure Policy
  • Российский аналог: ЭЛВИС-Плюс

🔒 Security as Code

  • SAST/DAST в CI/CD
  • Container scanning
  • Infrastructure scanning
  • Российский аналог: Kaspersky Security Scan

💥 Chaos Engineering

  • Chaos Monkey/Litmus
  • Российский аналог: TestKube
  • Resilience validation
  • Game days

Метрики и KPI

99.9%

Availability SLA

Время доступности системы

< 15 мин

MTTR

Среднее время восстановления

< 1 час

RTO

Recovery Time Objective

< 5 мин

RPO

Recovery Point Objective

Дополнительные метрики:

  • Security: # инцидентов, время реагирования, покрытие уязвимостей (российские решения: Касперский SIEM, ЭЛВИС-СЕК)
  • Performance: response time, throughput, error rate (российские инструменты: Логика, АстроСофт)
  • Cost: стоимость downtime, затраты на митигацию (инструменты: YouGile, Галактика ERP)

Заключение и следующие шаги

🎯 Ключевые выводы:

  • Риск-менеджмент — это непрерывный технический процесс
  • Автоматизация и мониторинг критически важны для масштабирования
  • Интеграция в SDLC повышает эффективность на порядок
  • Архитектурные решения определяют 80% рисков системы
  • Метрики и мониторинг позволяют принимать data-driven решения

🚀 Следующие шаги:

1. Assess

Проведите риск-ассессмент текущих проектов

2. Monitor

Внедрите систему мониторинга и алертинга

3. Automate

Автоматизируйте security и compliance проверки

4. Train

Обучите команду методологиям риск-менеджмента

Вопросы и обсуждение