Аварийное восстановление

Аварийным восстановлением называется восстановление нормальной деятельности (а также других ресурсов) после природной или антропогенной катастрофы. Под катастрофой подразумевается не сбой отдельного сервера, а полный выход из строя по причинам, которые обычно имеют внешний источник по отношению к инфраструктуре веб-сайта.

Катастрофа может произойти из-за выхода из строя питания или охлаждения вычислительных центров, а также в результате стихийных бедствий (например, землетрясения). Возможны и другие неприятности (скажем, ошибки при проведении строительных работ или взрывы), нарушающие работу питания, охлаждения или каналов связи, необходимых для вашего сайта. Независимо от причин последствия всегда одинаковы — сайт перестает работать. Безусловно, способность предоставления трафика в аварийных условиях является важной частью веб-деятельности и архитектуры, а управление мощностями должно учитывать и чрезвычайные обстоятельства. Аварийное восстановление (DR, Disaster Recovery) является лишь одной из частей планирования непрерывности бизнеса (ВСР, Business Continuity Planning) — более крупной логистической программы, обеспечивающей непрерывность ведения бизнеса перед лицом различных случаев отказа.

Во многих случаях проблема решается развертыванием двух полных архитектур в двух (и более) разных физических местоположениях, что увеличивает инфраструктурные затраты. Кроме того, это означает увеличение количества узлов, которыми вам придется управлять, дублирование всей системы репликации данных, кода и развертывания конфигураций, а также всех приложений сбора данных и мониторинга задействованных вычислительных центров.

Разумеется, аварийное восстановление создает множество проблем как экономического, так и технического плана. DR и ВСР — обширные самостоятельные вопросы, выходящие за рамки тематики сайта. Если эта тема вас заинтересует, почитайте специализированную литературу.