|
|
|
Решения по обеспечению непрерывности бизнеса
Уровень автоматизации на подавляющем большинстве предприятий достиг такого уровня, что отсутствие доступа к бизнес приложениям и (или) потеря данных приводят к полной или частичной остановке деятельности предприятия и как следствие прямым финансовым убыткам. Поэтому ключевым требованием, которое бизнес структуры современного предприятия предъявляют своей IT службе, является обеспечение постоянного доступа к бизнес приложениям, с помощью которых предприятие осуществляет свою хозяйственную деятельность (организация производства, взаимодействие с заказчиками, поставщиками, контролирующими органами и.т.д.).
Основным документом, который в настоящее время определяет отношение между IT службой и остальными подразделениями предприятия по предоставлению требуемого уровня сервисов является Service Level Agreement (SLA). В таких документах четко расписывается уровень доступности каждого приложения для пользователей. Например, в нем может быть зафиксировано, что пользователи должны иметь доступ к ERP системе в режиме 24 часа в сутки, 7 дней в неделю, 365 дней в году с максимальным временем простоя 30 минут. Для другого менее критичного приложения такие требования могут быть ниже, например 9 часов в сутки, 5 дней в неделю с максимальным временем восстановления 4 часа и.т.д. Именно на основании такой информации специалисты компании “ГЕТНЕТ Консалтинг” осуществляют проектирование новых и модернизацию существующих Центров Обработки Данных (ЦОД) предприятий с помощью специальной методологии, которая кратко рассмотрена ниже.
Методология построения решений
Для построения оптимального решения необходимо определить, как долго каждое из используемых на предприятии приложений может быть недоступно в случае планового сервисного обслуживания или внештатных ситуаций (выхода из строя оборудования, на котором оно работает, человеческих или программных ошибок). Этот критерий принято называть Recovery Time Objective (RTO). Другим критерием выбора решения непрерывности является Recovery Point Objective (RPO), определяющий количество данных, которое позволительно потерять (ввести в систему повторно).
Решения можно условно разделить на три сегмента как это показано на графике.

Для критичных к выходам из строя приложениям, время восстановления работы которых не должно превышать нескольких минут, применяют решения, обеспечивающие непрерывную доступность. Для менее критичных, допускающих время восстановления в течение нескольких часов, используют решения для быстрого восстановления данных. Для приложений, допускающих время восстановления в течение 1-3 рабочих дней, вполне достаточно проводить регулярное резервное копирование данных и иметь отработанный план их восстановления с резервных копий.
Решения непрерывной доступности представляют собой полностью автоматизированные системы для поддержания работы в режиме 365x7x24. Как правило, они включают в себя территориально разнесенные серверы, объединенные в кластер высокой доступности. Когда система детектирует возникновение ошибки в приложении, она автоматически выполняет рестарт этого приложения на другом сервере кластера.
Решения, обеспечивающие быстрое восстановление данных, основаны на поддержание второй копии данных на жестких дисках, которая являются целостной на определенный момент времени. Отличительной особенностью решений быстрого восстановления данных от решений по обеспечению высокой доступности является отсутствие в масштабе всей системы автоматизации процесса восстановления работы приложений.
Резервное копирование данных и восстановление их с резервных копий является самым простым решением и обеспечивает восстановление данных на момент резервного копирования.
Каждое из трех вышеуказанных решений, в пределах своего сегмента, может быть реализовано на различных уровнях, которые отличаются набором используемых технологий и временем восстановления функционирования системы:
|
Уровень обеспечения непрерывности бизнес процессов |
Описание |
Время восстановления |
|
Уровень 1 — Резервное копирование. Есть удаленная площадка для хранения резервных копий. |
Резервное копирование данных и хранение резервных копий на удаленной площадке. В зависимости от регламента регулярности копирования, будет потеряна часть данных (от нескольких дней работы до нескольких недель). Отсутствуют системы (серверы, системы хранения, и т.д.), на которые данные будут восстановлены с резервных копий. |
От нескольких дней до нескольких недель |
|
Уровень 2 — Резервное копирование. Есть удаленная площадка с минимальной инфраструктурой. |
Резервное копирование и хранение резервных копий на удаленной площадке. Есть резервная площадка с необходимой инфраструктурой для восстановления критически важных приложений с резервных копий. |
От нескольких часов до нескольких дней. |
|
Уровень 3 – Есть канал связи. |
Резервные копии пересылаются электронным способом по каналу связи. Эти данные актуальней, нежели чем перевозимые на лентах. Как следствие, при восстановлении данных после аварии, будет потеряно меньше проделанной работы. |
От нескольких часов до нескольких дней. |
|
Уровень 4 – Резервные копии данных по контрольным точкам во времени. |
Время восстановления и объем потерянных актуальных данных предыдущих уровней ограничены временем перемещения резервных копий на удаленную площадку. На этом уровне внедряют решения на основе функции создания мгновенных копий дисковых систем по контрольным точкам во времени. |
Нескольких часов. |
|
Уровень 5 — Транзакционная целостность. |
Используется когда требуется обеспечение логического соответствия данных между основным центром и резервным. Данные практически не теряются (в размере нескольких незавершенных транзакций, которые откатятся назад при восстановлении). Тем не менее, такое решение требует поддержки со стороны прикладных приложений. |
Несколько часов |
|
Уровень 6 — Нулевые или близко к нулевым потери данных. |
Наивысший уровень соответствия данных основного и резервных центров. Используется бизнесом, не допускающим какую-либо потерю данных. Такие решения не зависят от прикладных приложений и реализуются синхронным зеркалированием данных на системах хранения. |
От одного до нескольких часов |
|
Уровень 7 – Полностью автоматизированное решение. |
Использует компоненты 6-го уровня с добавлением механизмов автоматизации. Полностью автоматизированный переход бизнес приложений на резервный центр. Более надежное решение, чем в случае с ручным переключением работы на резервный центр. |
Несколько минут |
Примеры решений по обеспечению непрерывности бизнеса
Централизованная система резервного копирования данных
Система резервного копирования данных является базовой для построения решений по обеспечению непрерывности бизнес процессов для всех семи уровней, так как даже наличие зеркальной копии данных на удаленной площадке не спасет от потери данных в случае проблем с прикладным программным обеспечением или ошибки программиста.
Централизованная система резервного копирования строится на базе одной или нескольких ленточных библиотек и специализированного программного обеспечения для осуществления резервного копирования и восстановления данных.
Построение централизованной системы резервного копирования автоматизирует ежедневную, рутинную работу системного администратора по созданию резервных копий, исключая человеческие ошибки максимально возможным образом. Такая система имеет множество плюсов по сравнению с системами резервного копирования, построенными с использованием разрозненных, собственных ленточных устройств серверов и различных утилит резервного копирования, которые имеют в своем составе многие операционные системы и СУБД. Но безусловно наиболее значимый эффект во внедрении такой системы состоит в том, что она позволяет осуществлять гарантированное восстановление данных в максимально сжатые сроки. В качестве программного обеспечения для создания централизованной системы резервного копирования можно рекомендовать IBM Tivoli Storage Manager (TSM). TSM выпускается в нескольких версиях и имеет модульную структуру, что позволяет использовать его, как небольшим организациям для которых выпускается версия TSM Express Edition, так и крупным предприятиям, которые в полной мере могут использовать богатый функционал представленной в версии TSM Extended Edition. Необходимо подчеркнуть, что TSM не является коробочным продуктом и требует от специалистов, которые его внедряют высокой квалификации. Компания “ГЕТНЕТ Консалтинг” имеет в своем составе сертифицированных специалистов по внедрению и администрированию TSM, имеющих большой опыт по реализации проектов создания систем резервного копирования, что позволяет строить такие системы практически любого требуемого масштаба и сложности, добиваясь максимального эффекта для заказчика от внедрения данного продукта.
Создание катастрофоустойчивых вычислительных комплексов
Для приложений, к которым требуется обеспечить постоянный доступ пользователей, обеспечив при этом полную сохранность данных (7-ой уровень), компания “ГЕТНЕТ Консалтинг” предлагает решения, в основе которых, стоит создание территориально распределенных кластеров высокой доступности. Построение решений такого уровня необходимо начинать с системной консолидации. Это позволяет строить такие системы с максимальной эффективностью использования вычислительных ресурсов и значительно упрощает дальнейшее администрирование комплексов.
Как правило, территориально распределенные кластеры состоят из двух узлов, работающих в режиме активный/пассивный. На каждой из площадок имеются дисковые системы хранения данных, к которым подключены узлы кластера. Между дисковыми системами осуществляется репликация данных в синхронном режиме, что обеспечивает полную сохранность данных (нулевые или около нулевые потери). При выходе из строя основного узла кластера и (или) всего оборудования, расположенного на основной площадке, приложение, которое на нем работает, автоматически запускается на резервном узле кластера.
Работа такого кластера проиллюстрирована на Рисунках 1 и 2.


Компания ГЕТНЕТ Консалтинг осуществляет построение территориально распределенных кластеров на различных платформах c использованием программного обеспечения IBM HACMP и Veritas SF HA. Методики создания, тестирования и технической поддержки катастрофоустойчивых вычислительных комплексов, проверенные в нескольких успешно выполненных проектов позволяют находить максимально эффективные решения для задач заказчиков, какими бы сложными и уникальными они не были.
|