7.3.3 Методы и техники управления доступностью

Для выработки процесса управления доступностью есть разные методологии:
- Анализ влияния отказа компонентов (CFIA - Component Failure Impact Analysis) - техника, позволяющая установить влияние отказа компонента на ИТ-услуги. Составляется матрица влияний, в которой по одной стороне находятся ИТ-услуги, а по другой компоненты. Это позволяет выявлять критические компоненты (сбой которых влияет на несколько ИТ-услуг).
- Метод анализа и управления рисками (CRAMM - CCTA Risk Analysis and Management Method), http://www.cramm.com/
- Анализ дерева неисправностей (FTA - Fault Tree Analysis) - техника, которая позволяет составить цепочку событий, приведших к проблеме.
Анализ влияния отказа компонентов - с помощью этой методики можно получить информацию, на которой основывается процесс управления непрерывностью ИТ-услуг. В результате анализа получают сведения о зависящих друг от друга ИТ-услугах и компонентах, на основании чего устанавливается:
- Критические услуги (Critical services), функционирование которых зависит от нескольких компонентов
- Единая точка отказа (Single Point of Failure) - элемент конфигурации, сбой в котором сразу приведёт к инциденты, и для которого еще не выработаны противомеры. Единой точкой отказа может быть человек, конкретный шаг процесса или действия или компонент ИТ-инфраструктуры.
- Услуги, для которых определено эффективно восстановление после сбоев.
Анализ дерева неисправностей - позволяет создать цепочку событий, которые привели к сбою ИТ-услуги. Для создания цепочки графически и логически объединяются различные отказы компонентов системы.
Ниже приведена простая модель анализа дерева неисправностей, в которой корень
дерева соответствует отказу ИТ-услуги, а ветви изображают комбинированные
события, представляющие причину отказа:
Рисунок 7‑3. Модель дерева неисправностей (Источник: Learning Materials for Information Technology Professionals (EUCIP-Mat))
События, которые покрываются анализом дерева неисправностей:
- Базовое событие (Base event) - сбой одного компонента ИТ-инфраструктуры (отказ аппаратуры или человеческая ошибка)
- Суммарное событие (Resulting event) - одна промежуточная ветвь дерева неисправностей, соответствующая результату комбинации событий
- Условное событие (Conditional event) - условие, происходящее только при определённых условиях (например, поломка кондиционера может привести к отказу услуги, если при этом температура в комнате превысит допустимую)
- Спусковое событие (Trigger event) - событие, вызывающее одно или несколько других событий.
События в дереве неисправностей комбинируются логическими операциями:
- AND - логическое И, суммарное событие появляется если входные значения верны
- OR - логическое ИЛИ, суммарное событие появляется если хотя бы одно входное значение верно
- XOR (Exclusive OR) - логическое исключающее или, суммарное событие происходит, если верно одно и только одно входное значение
- Запрет (Inhibition) - событие происходит, если входы неверны