스토리지 기초지식 11편: 재해복구

최근 발생한 대형 데이터센터 장애를 계기로, 국회에서 IDC 법(데이터센터 재난관리계획포함법)을 2년 만에 재추진하고, 정보통신망법을 개정한다고 합니다. IDC 법은, 재난 발생 시 대규모 서비스를 제공하는 방송통신사업자의 재난 방지 대책 수립과 이행을 의무화하는 것이 포함되어 있습니다. 정보통신망법 개정과 관련해서는, 데이터센터 보호조치의 의무 대상을 일정 규모의 데이터센터 임차 업체도 포함하자는 내용입니다. 해당 법안들이 발의된 배경에는 데이터센터 장애로 인한 피해가 국가 전체에 영향을 끼칠 정도로 규모가 컸다는 것이 있습니다. 이처럼 데이터센터의 피해 규모가 전례 없이 커지면서, 장애 발생 후 대처를 위한 재해복구(disaster recovery) 시스템을 도입하는 기업과 국가기관이 늘고 있습니다.

재해복구란?

재해복구는 말 그대로 재해로 중단된 IT 인프라 및 서비스를 복구하는 작업을 말합니다. 재해로 인해 주(primary) 시스템이 중단되는 사태가 발생하면, 별도로 구축된 재해복구 시스템에서 자동으로 주 시스템의 역할을 위임 받도록 페일오버(failover)¹를 수행합니다. 페일오버가 발생하면 재해복구 시스템에서 주 시스템의 기존 서비스를 재개하고, 이를 통해 비즈니스 중단으로 인한 피해를 최소화할 수 있습니다. 이 모든 과정은 그때그때 수행하는 것이 아니라, 사전에 계획하고 절차와 설정을 만들어 놓아야 가능합니다.

재해복구에서 말하는 재해는 화재, 정전, 장비 고장과 같이 불가피하게 발생하는 재해부터 바이러스, 랜섬웨어, 테러 등과 같이 인위적으로 발생하는 재해까지 시스템이 중단될 수 있는 모든 요소를 가정합니다. 이러한 재해로 발생하는 비즈니스 다운타임과 데이터 손실로 인해 매년 천문학적인 피해 금액이 발생하고 있습니다. 이 때문에 금융기관, 병원, 정부 기관, IT 서비스업과 같이 비즈니스의 규모나 중요도가 큰 산업 분야에서는 도입을 권고하거나 금융기관과 같이 도입을 제도화하는 추세입니다.

재해복구는 어떻게 쓰이나요?

재해복구 시스템은 주 시스템과는 별도의 사이트에 위치하고, 주로 주 사이트와 지역 단위의 거리를 두고 구축됩니다. 홍수나 지역 송전망 중단과 같이 지역적으로 발생하는 재해의 영향을 최소화하기 위해 주 사이트와 물리적으로 떨어진 원격지에 재해복구 사이트를 구축합니다. 여기서 기업의 목적에 따라 주 사이트와 비슷한 구성 및 제원으로 구축되며, 데이터를 주 사이트와 동기화해 유사시 정상적인 서비스를 제공할 수 있도록 합니다.

재해복구 사이트는 비즈니스의 중요도와 예산에 따라 구축 및 가용 수준을 구분할 수 있습니다. 재해복구 사이트는 아래와 같이 크게 3가지 종류가 있습니다:

핫 사이트(hot site): 핫 사이트는 주 데이터센터와 거의 비슷한 수준의 인프라를 갖추고 데이터를 주기적으로 동기화해, 유사시 바로 서비스를 재개할 수 있는 재해복구 사이트를 말합니다. 핫 사이트는 서비스 중단과 데이터 손실을 최소화하는 것이 목표입니다. 그 때문에 즉각적인 페일오버를 위해 중단 없이 운영되어야 하고, 이에 따라 구축 비용과 운영비용이 다른 종류에 비해 가장 큽니다.
콜드 사이트(cold site): 콜드 사이트는 기본적인 냉난방과 전력 시설 정도만 구비된 재해복구 사이트를 말합니다. 서버 및 스토리지는 재해가 발생한 다음에 구축하고 마이그레이션 작업을 수행하기 때문에 복구까지 많은 시간이 걸리는 것을 상정하고 있습니다. 기본적으로 장기적인 복구 계획이 있으며, 다른 사이트들과 비교해 최저의 비용으로 운영됩니다.
웜 사이트(warm site): 웜 사이트는 핫 사이트와 콜드 사이트 사이의 절충안이라 할 수 있습니다. 장비는 핫 사이트만큼은 아니지만, 어느 정도 구비되어 있고 백업도 필요에 따라 한정적으로 수행됩니다. 이 때문에 페일오버 시 주 사이트의 기능을 제한적으로 제공할 수 있으며, 긴급 백업도 수행할 수 있습니다. 이처럼 제한된 리소스로 최소한의 재해복구 사이트 기능을 제공할 수 있어 비용 효율을 위한 옵션이라고 할 수 있습니다.

재해복구 사이트는 어떻게 구축하나요?

재해복구 사이트는 자체적으로 구축하는 경우와 외부에 맡기는 경우가 있습니다. 자체적으로 구축하는 경우에는 장비 조달 및 구축, 시설 확보, 냉난방, 전력 관리, 관리 인력 등 규모에 따라 비용이 가중될 수 있습니다. 하지만 사이트의 모든 리소스를 활용할 수 있고, 보안 측면에서 이점이 있기 때문에 예산이 충분한 기업들은 재해복구 사이트를 자체적으로 구축하는 편입니다.

외부에 맡기는 경우는 외부 데이터센터에 코로케이션²으로 장비를 구축하거나, 클라우드를 이용하는 경우가 있겠습니다. 코로케이션 방식의 재해복구는 자체 구축 방식에 비해 시설, 네트워크, 관리 인력 등을 제공해 비용을 절감할 수 있다는 장점이 있습니다. 다만, 규모에 따라 유지비용이 더 많이 발생하는 경우가 있어 중장기 계획을 미리 세워 유지비용을 계산해볼 필요가 있습니다. 공용 클라우드에 재해복구 환경을 구축하거나, 클라우드 재해복구 서비스를 구독하는 경우에는 코로케이션이 가지는 이점뿐만 아니라 장비 및 구성까지 전부 클라우드 업체에서 자체적으로 제공하기 때문에 코로케이션 대비 경쟁력을 가지고 있습니다. 다만, 코로케이션과 마찬가지로 유지비용이 규모에 따라 매우 커질 수도 있다는 단점이 있고, 코로케이션과는 달리 데이터센터에 고객이 방문할 수 없는 경우도 있습니다.

재해복구 계획하기

재해복구의 주목적은 비즈니스 중단에 따른 비용 손실과 고객 신뢰도 하락을 방지하는 것입니다. 재해 발생 시점으로부터 서비스를 최대한 빠르게 재개하고, 데이터 손실을 최소화하는 것을 중점으로 재해복구 계획을 수립해야 합니다.

최적의 재해복구 계획을 수립하려면 우선 자사 시스템에 악영향을 줄 수 있는 위험 요소와 피해 규모를 산정해야 합니다. 위험 요소는 시스템에 발생할 수 있는 자연재해나 인위적 재해들이 있습니다. 재해 시나리오와 각 재해의 발생 확률 등이 정리될 수 있으며, 이들은 산업 분야나 인프라의 규모에 따라 다릅니다. 그리고 피해 규모는 자사 비즈니스가 위험 요소들로 인해 받는 손실을 말하며, 금전적 또는 비금전적 손실에 대한 예상 규모가 산정될 수 있습니다.

이렇게 자사 시스템 내 발생할 수 있는 재해의 확률과 이에 따른 손실 규모를 다각적으로 분석할 수 있고, 이렇게 정리된 자료를 바탕으로 복구 시점(Recovery Point Objective, 이하 RPO)과 복구 시간(Recovery Time Objective, 이하 RTO)을 설정해 재해복구 기준을 세울 수 있습니다.

RPO는 목표한 비즈니스 운영 수준을 달성하기 위해 데이터를 어느 정도로 복구할 수 있어야 할지를 결정하는 지표입니다. 데이터의 백업 빈도가 짧으면 빈번한 백업으로 네트워크 부하가 발생하지만, 데이터 복구 수준은 높아집니다. 반면, 백업 빈도가 길면 데이터 복구 수준은 떨어지지만, 네트워크 부하는 줄어듭니다. 이 때문에 데이터 손실의 허용 수준과 자사의 네트워크 성능을 감안해 RPO를 설정하는 것이 중요합니다.
RTO는 목표한 비즈니스 운영 수준을 달성하기 위해 서비스를 재해 발생부터 얼마나 빨리 복구해야 할지를 결정하는 지표입니다. 어떤 웹사이트나 애플리케이션 서비스는 수 시간 중단되어도 큰 손실이 없는 반면, 온라인 금융 서비스와 같이 실시간성이 중요한 서비스는 몇 분만 중단되어도 비즈니스에 막대한 손해를 끼치는 경우가 있습니다. RTO를 짧게 잡을수록 고성능의 장비와 관리인력이 필요하기 때문에 RTO 설정 시 예산과 관리역량을 고려해야 합니다.

주 사이트와 재해복구 사이트 간의 데이터는 데이터 복제(replication) 기술을 통해 동기화할 수 있습니다. 주 사이트와 재해복구 사이트의 데이터가 항상 동일하도록 복제하는 동기식 복제(synchronous replication) 방식과 일정 주기를 두고 타겟 스토리지에 복제하는 비동기식 복제(asynchronous replication) 방식이 있습니다. 동기식 복제는 RPO가 거의 0에 가까운 반면, 비동기식 복제 방식은 복제 주기에 따라 RPO가 수분에서 수 시간까지 높아질 수 있습니다.

재해복구는 어떤 종류가 있나요?

재해복구를 수행하는 데는 여러 가지 방법이 있습니다. IT 관리자들은 자사 인프라와 비즈니스 상황에 가장 적합한 재해복구 방법을 계획하고 수행할 수 있어야 합니다. 재해복구의 종류는 다음과 같습니다:

데이터센터 재해복구: 말 그대로 데이터센터 단위의 재해복구를 의미합니다. 재해 발생 시 자체 데이터센터에서 제공하는 서비스를 다른 데이터센터에서도 문제없이 재개하고 주 사이트를 복구하는 것을 목표로 합니다. 이를 위해서는 주 사이트의 IT 인프라와 시설 환경을 재해복구 사이트에서도 비슷하게 구현할 수 있어야 합니다.
가상화 재해복구: 가상화 기술을 활용해 재해복구 환경을 타 사이트에 구성하는 것을 말합니다. 가상화로 구현된 인프라 전체나 애플리케이션 환경 등은 원격 데이터센터나 클라우드와 손쉽게 동기화할 수 있어 자동화 툴을 활용해 유연하고 편리한 운영이 가능합니다. 또한, 재해 발생 시 빠르게 페일오버할 수 있다는 장점이 있습니다.
클라우드 재해복구: 클라우드 재해복구는 공용 클라우드에 재해복구 사이트를 두는 것을 말합니다. 재해복구 환경을 구성하는데 별도의 시설을 준비할 필요가 없고, 장비와 시설도 클라우드 프로바이더 측에서 관리도 해주기 때문에 운영 및 관리의 부담을 덜 수 있습니다. 클라우드 재해복구 방법은 서비스 환경과 규모에 따라 유지비용이 크게 발생할 수 있으며, 특정 애플리케이션은 클라우드 환경에서 성능 이슈가 발생할 수 있다는 점을 고려해야 합니다.
서비스형 재해복구: 서비스형 재해복구(Disaster Recovery as a Service, 이하 DRaaS)는 재해복구 시스템 구축과 관리뿐만 아니라, 페일오버 후 복구까지 모든 과정을 제공하는 서비스를 말합니다. DRaaS 업체는 SLA(service-level agreement)에 따라 재해복구의 RTO와 RPO를 보장합니다. DRaaS는 업체에 따라 온프레미스 백업 환경과 공용 클라우드를 연동하거나, 멀티 클라우드에 재해복구 환경을 제공하는 경우 등이 있습니다.

마치며

재해복구는 비즈니스 연속성과 중요한 데이터를 보호하기 위해 많은 산업 분야에서 필수로 도입하고 있지만, 구축 및 운영 비용 문제로 도입을 망설이는 기업들도 많습니다. 하지만 데이터 인프라와 자동화에 의존하는 기업과 고객이 많아지고 디지털 전환이 가속화되면서, 서비스 중단에 따른 피해 규모도 점점 막대해지고 있습니다. 재해의 규모와 유형도 날이 갈수록 다양해지고 있는 지금, 기업들은 자사 비즈니스를 보호할 수단을 다시 한번 확인해볼 필요가 있습니다.

참고

https://en.wikipedia.org/wiki/Disaster_recovery
https://www.techtarget.com/searchdisasterrecovery/definition/disaster-recovery
https://www.techtarget.com/searchdisasterrecovery/feature/Using-a-colocation-data-center-for-disaster-recovery
https://www.computerweekly.com/feature/Five-key-points-about-cloud-vs-in-house-disaster-recovery

주석

페일오버(failover): 서버, 컴퓨팅 시스템 등에서 장애 발생 시 대기 중인 보조 시스템으로 자동으로 전환해 서비스를 계속하는 기능을 말합니다. ↩
코로케이션(colocation): 데이터센터 내에 서버나 스토리지 등의 장비를 구축할 공간을 빌리는 것을 말합니다. 자체 데이터센터를 구축할 필요 없이 장비를 코로케이션 시설에 구축해 데이터센터 내의 설치 공간, 네트워크, 전력, 냉난방, 관리 인력 등을 이용할 수 있어 초기 구축 비용을 절감할 수 있습니다. 보통 재해복구나 클라우드 서비스용으로 사용됩니다. ↩