무중단 배포: 안정적인 웹 서비스를 위한 필수 전략 1

웹 인프라

무중단 배포: 안정적인 웹 서비스를 위한 필수 전략 1

jinuk-io 2024. 8. 17. 16:28

안녕하세요:)

지난 글에서는 'GSLB와 CDN이 웹 서비스의 성능을 최적화하고, 안정적인 UX를 제공하는 방법'에 대해 알아보았습니다. 이번 글에서는 그 연장선에서, 무중단 배포에 대해 살펴보려 합니다.

평소 사용자들은 서비스가 업데이트될 때도, 예상치 못한 장애가 발생할 때도, 24시간 365일 끊김 없이 서비스를 이용하기를 기대합니다. 오늘은 이러한 기대를 충족시키기 위한 필수 전략에 대해 이야기해보도록 하겠습니다. 먼저 간단히 개념을 짚고 주요 전략에 대해 자세히 말씀드리겠습니다.

1. 무중단 배포(Zero-Downtime Deployment)란?

무중단 배포란, 새로운 버전의 소프트웨어나 업데이트를 배포하는 과정에서 서비스가 중단되지 않도록 하는 방법이며, 이는 사용자가 서비스를 이용하는 동안에도 배포가 이루어지기 때문에 서비스의 중단 없이 새로운 기능이 추가되거나 버그가 수정될 수 있다는 장점을 가지고 있습니다.

Zero-Downtime Deployment reference image(https://blog.coderco.io/p/zero-downtime-deployments-in-devops) - Blue-Green Deployment

무중단 배포는 특히 대규모 웹 서비스에서 중요한 역할을 하며, UX를 보호하는 데 중요한데, 사용자들이 서비스 중단을 겪지 않도록 보장하는 것이기 때문입니다.

사용자 경험(UX)은 웹 서비스의 성공에 직접적인 영향을 미칩니다. 예를 들어, 전자상거래 플랫폼에서 무중단 배포가 이루어진다면, 사용자는 결제 과정 중에 사이트가 다운되거나, 페이지가 로드되지 않는 등의 불편을 겪지 않을 수 있습니다. 이렇게 서비스가 운영이 된다면 고객 만족도도 높아질뿐더러 비즈니스 측면의 연속성을 보장하는 데 큰 역할을 할 수 있습니다.

그렇다면 기존 웹 서비스는 언제 중단되고 왜 중단이 됐을까요?

기존의 웹 서비스에서는 새로운 기능을 추가하거나 버그를 수정하기 위해 새로운 버전을 배포할 때 서비스가 일시적으로 중단되는 경우가 많았습니다. 보통 Server restart, DB Migratation, 네트워크 재구성(라우팅 or 로드 밸런싱) 등의 이유들로 전통적인 배포 방식에서 서비스가 중단되는 것은 불가피했습니다. 그러나 무중단 배포라는 기술은 이러한 문제를 해결하였고, 중단 없이 서비스 수정이 가능해져 평화로운 UX를 보장할 수 있게 되었습니다.

이렇게도 중요한 무중단 배포는 다양한 방법으로 구현될 수 있습니다. Blue-Green Deployment와 Canary Deployment, Rolling Deployment같은 전략들로 구현이 되는데, 이 부분은 주요 전략을 소개할 때 자세히 알아보도록 하겠습니다.

2. 무중단 배포를 위한 전략들

무중단 배포를 실현하기 위해 몇 가지 전략이 사용됩니다. 각 전략은 특정 상황에 맞춰 선택될 수 있으며, 이번 섹션에서는 가장 널리 사용되는 전략인 Blue-Green Deployment, Canary Deployment, Rolling Deployment, Immutable Deployment, 그리고 Docker와 Kubernetes를 활용한 배포, 이렇게 다섯 파트로 나눠서 살펴보도록 하겠습니다.

1. Blue-Green Deployment

처음 소개해드릴 전략은 Blue-Green Deployment입니다. 이 전략은 두 개의 환경, 즉 "Blue"와 "Green"을 사용하는 배포 전략입니다.

기존에 운영 중인 버전을 "Blue" 환경에서 서비스하고 하고, 새로운 버전은 "Green" 환경에 배포하여 준비한 후, 테스트와 검증을 마치면 실제 서비스로 전환할 준비가 끝납니다. 새로운 버전이 완전히 준비되면 Load Balancer를 통해 트래픽을 Green 환경으로 전환하는 전략입니다.

이 전략의 장점은, 새로 배포한 환경에 분제가 생겼을 때 쉽게 "Blue"환경으로 롤백할 수 있다는 점입니다. 예를 들어, 새로운 버전이 배포된 후 문제가 발견되면, 로드 밸런서를 다시 "Blue"환경으로 전환함으로써 즉시 서비스를 복구할 수 있습니다.

2. Canary Deployment

다음 전략으로는 Canary Deployment 입니다. 이 전략은 게임으로 비유하자면 "베타 테스터를 활용하는 방식"이라고 할 수 있는데, 새로운 버전을 일부 사용자들에게만 우선 배포하는 전략입니다. 소수의 우선 사용자 그룹이 새로운 버전을 사용하게 되며, 이 단계에서 문제가 발생하지 않으면 점차적으로 더 많은 사용자에게 배포를 확장해 나갑니다.

Canary Deployment의 핵심은 위험을 최소화하면서 새로운 기능이나 수정 사항을 배포할 수 있다는 점입니다. 예를 들어, 전 세계적으로 서비스가 제공되는 대규모 웹 애플리케이션에서, 새로운 기능이 특정 지역에서만 먼저 적용되어 테스트될 수 있습니다. 이 때 문제가 발생하면 빠르게 롤백할 수 있으며, 성공적으로 배포가 완료되면 모든 사용자에게 확장하는 방식입니다.

3. Rolling Deployment

Rolling Deployment는 전체 서버 중 일부만 새로운 버전으로 전환하며, 배포가 완료된 모든 서버가 새로운 버전으로 업데이트 됩니다. 간단하게 말하면 새로운 버전을 서버별로 순차적으로 배포하는 방식이라고도 할 수 있습니다.

Rolloing Deployment 전략은 많은 서버가 운영되는 환경에서 유용하게 사용됩니다. 각 서버에 점진적으로 새로운 버전이 적용되므로, 사용자는 서비스 중단을 거의 느끼지 못하게 됩니다. 하지만, 이 방식을 사용하다 문제가 발생할 경우 롤백이 복잡해지고 어려워진다는 단점이 있습니다.

4. Immutable Deployment

네 번째로 살펴볼 전략은 Immutable Deployment는 기존 서버를 업데이트하는 대신, 새로운 서버를 생성하고 트래픽을 새로운 서버로 전환하는 방식입니다. 새로운 서버를 생성하기 때문에 기존 서버는 유지되며, 문제가 발생했을 때 빠르게 롤백이 가능합니다.

이 전략의 장점은 배포의 안정성과 신뢰성을 극대화할 수 있다는 점에 있습니다. 새로운 서버가 완전히 준비된 후 트래픽이 전환되므로, 기존 환경에 영향을 주지 않으며, 만약 문제가 발생하더라도 기존 서버로 빠른 전환이 가능합니다. 전략 특성상 클라우드 환경에서 주로 사용되며, 서버의 빠른 생성과 전환이 용이한 상황에서 특히 효과적입니다.

5. Docker와 Kubernetes를 활용한 배포

Docker와 Kubernetes는 현대 애플리케이션 배포 환경에서 매우매우매우 중요한 도구입니다. 하나하나 조금 더 자세하게 설명해보겠습니다.

우선 Docker는 애플리케이션을 컨테이너로 패키징하여, 어디서든 동일한 환경에서 실행될 수 있도록 하는 도구입니다. 컨테이너로 패키징 한다는 건, 애플리케이션과 그 실행 환경을 함께 패키징하여, 개발 환경, 테스트 환경, 운영 환경 간의 차이로 인해 발생할 수 있는 문제를 최소화한다는 말입니다. 도커를 사용하면, 애플리케이션은 항상 일관되게 실행될 수 있으며 배포 속도도 크게 높이고, 오류 발생 가능성도 현저히 낮아집니다. 또한, Docker Container는 가볍고 이식성이 뛰어나서, 클라우드 환경에서도 유용하게 사용되고 있습니다.

Kubernetes는 방금 설명한 Docker 컨테이너를 관리하고 오케스트레이션(여러 IT 자동화 태스크 또는 프로세스를 조정하여 실행하는 것)하는 도구로, 무중단 배포와 같은 복잡한 작업을 쉽게 처리할 수 있습니다. 컨테이너의 배포, 확장, 관리를 자동화하여 대규모 분산 시스템에서 안정적이고 효율적인 운영이 가능하게 합니다. 조금 더 쉽게 말해보자면, Kubernetes는 새로운 버전의 애플리케이션을 배포할 때 자동으로 기존 컨테이너를 교체하고, 문제가 발생하면 즉시 롤백할 수 있는 기능을 제공하며 로드 밸런싱, 스케일링, 자가 치유(self-healing)와 같은 기능을 통해 시스템의 가용성과 신뢰성을 향상시킵니다.

무중단 배포를 위한 위와 같은 전략들은 모두 '사용자에게 끊김 없는 서비스를 제공하자'라는 동일한 목적을 가지고 있습니다. 다양한 상황과 요구사항에 따라 선택적으로 골라 사용할 수 있으며 이를 통해 사용자의 서비스 이용 만족도와 안정성을 크게 높이고 보장할 수 있습니다.

3. 모니터링과 피드백 루프

지금까지 무중단 배포와 전략들에 대해 살펴보았습니다. 살펴보니 '다양한 전략을 활용하여 배포를 성공배포를 성공적으로 마치기 위해서는 어떤 과정들이 필요할까?' 라는 궁금증이 생기지 않나요? 지금부터 그 과정에 대해 말씀드리겠습니다.

배포가 성공적으로 이루어지려면, 배포하는 과정에서 모니터링과 피드백 루프는 반드시 필요한 과정입니다.

두 과정이 왜 필요할까요?

새로운 버전이 배포되는 동안 시스템 상태를 계속 확인하고, 에러 사항이나 이상 징후를 신속하게 감지해야 하기 때문입니다. 이러한 과정은 배포 후에도 계속되며, 배포된 애플리케이션의 성능이 기대에 부합하는지, 사용자가 불편을 겪고 있지는 않은지 실시간으로 확인하고 대처할 수 있습니다.

예를 들어, 새로운 버전이 배포된 직후 시스템의 응답 속도가 느려지거나, 어떤 기능에서 오류가 발생한다면, 모니터링 시스템은 즉각 문제를 확인하고 경고를 발생시킬 수 있어야 합니다. 그리고 피드백 루프를 통해 빠르게 대처 방안을 마련하고, 문제가 해결되지 않을 경우 롤백을 결정할 수 있습니다.

그럼 이렇게 중요한 과정을 진행하는 도구는 무엇일까요?

Prometheus Monitoring with Open Source Grafana(https://logz.io/blog/prometheus-monitoring/)

Prometheus, Grafana, Datadog 등의 도구가 대표적인 모니터링 도구로 사용됩니다. 이 친구들이 서버의 CPU, 메모리 사용량, 네트워크 트래픽 등 다양한 지표를 실시간으로 모니터링하고, 특정 임계값을 초과할 경우 경고를 발생시키거나 자동으로 대응하는 등의 조치를 취하도록 되어 있습니다.

CI/CD Pipeline- The Key to Achieving Zero Downtime Deployment (https://inapp.com/blog/how-to-achieve-zero-downtime-deployment-a-journey-towards-uninterrupted-software-updates/)

그리고 피드백 루프는 모니터링 도구들이 수집한 데이터를 가지고 신속하게 문제 해결을 위한 결정을 내리는 과정입니다. 만약 피드백 루프 과정에서 롤백이 필요해진다면, 이때는 CI/CD 파이프 라인이 그 역할을 수행하게 됩니다.

(CI/CD 파이프라인은 4번의 배포 자동화 부분에서 조금 더 설명하도록 하겠습니다.)

이처럼 모니터링과 피드백 루프는 실시간 문제 상황 대처 부분에서 배포 성공에 기여할 수 있지만, 이것들만으로는 충분하지 않을 수 있습니다. 배포 과정을 자동화하고, 배포 발생할 수 있는 보안 위협을 예방하는 것도 매우 중요하기 요소이기 때문에 이에 대해 알아보도록 하겠습니다.

4. 배포 자동화

이어서 배포 성공을 위해 중요한 역할을 하는 배포 자동화와 보안 위협에 대한 내용에 대해 알아보겠습니다. 무중단 배포라는 큰 틀에서 핵심이 되는 부분이 바로 이 두 가지인데, 왜냐하면 배포의 안정성과 신뢰성을 보장해주는데 가장 큰 기여를 하기 때문입니다.

배포 자동화는 무중단 배포의 기반을 마련합니다. 배포를 원활하게 수행하려면 수작업으로 진행하기에는 어느정도 한계가 있습니다. 수작업 배포는 오류가 나기 쉽고, 배포 속도를 늦추며, 특히 대규모 서비스에서는 이러한 단점이 치명적일 수 있습니다.

CI/CD PIPELINE (https://www.spiceworks.com/tech/devops/articles/what-is-ci-cd/)

그~래서 필요한 것이 바로 CI/CD(Continuos Integration / Continuous Deployment) 파이프라인입니다. CI/CD 파이프라인은 코드를 변경할 때마다 자동으로 테스트, 빌드, 배포 과정을 실시해줍니다. 플로우를 간단하게 말해보자면, 개발자가 코드를 git에 push하면, 이 코드가 자동으로 테스트를 거치고, 문제가 없으면 빌드된 뒤 자동으로 배포됩니다. 이렇게 자동화가 되면, 배포 과정에서의 일관성을 유지할 수 있고, 배포 속도를 크게 높일 수 있으며, 오류 발생 가능성이 현저히 낮아집니다.

너무너무 이로운 기능을 하는 CI와 CD는 무엇일까요?

CI(Containuous Integration)

번역하면 '지속적인 통합'으로, 개발자들이 코드를 자주 merge하며, 버그를 조기에 발견하고 수정할 수 있습니다. CI 과정에서 테스트가 자동으로 실행되어 코드의 질을 높이는데 기여를 합니다.

CD(Containuous Deployment)

마찬가지로 번역하면 '지속적인 배포'입니다. CI 과정에서 검증된 코드를 자동으로 배포하여 사용자에게 전달하는 역할을 합니다. CD 과정으로 새로운 기능이나 오류 수정 사항이 빠르게 배포가 될 수 있습니다.

5. 보안

자동화된 배포가 이루어지면, 이제는 보안을 신경써야 합니다. 무중단 배포에서 보안은 절대 간과할 수 없으며 새로운 버전을 배포할 때, 보안 취약점이 발생하지 않도록 보안 테스트가 자동화된 CI/CD 파이프라인에 포함되어야 합니다.

이것도 예를 들어서 설명하자면, 코드가 배포되기 전에 코드 스캐닝, 취약점 분석, 종속성 체크 등을 통해 잠재적인 보안 위협을 미리 차단하는 것입니다. 이 과정까지 무사히 마쳐야 배포 과정에서 발생할 수 있는 보안 사고를 예방할 수 있고 시스템의 전반적인 관리가 가능해집니다. 만약, 보안 취약점이 발견되면 배포가 중지되고 문제가 해결된 후에 다시 배포가 재개됩니다.

이런 과정을 통해 보안 사고를 예방하여야 무중단 배포가 서비스의 신뢰성까지 보장해준다고 말할 수 있을 거 같습니다.

끝내는 말

이번 글에서는 '무중단 배포를 통한 안정적인 웹 서비스를 위한 전략'에 대해 알아보았는데, 도움이 되셨을까요?

이번 글은 작성하다보니 이것도 적어야 하고~ 저것도 적어야 하고~ 상당히 적을 게 많았습니다. 특히, CI/CD 부분은 조금 부족한 거 같은데, 다음에 따로 CI/CD만을 위한 글을 작성해보도록 하겠습니다.

다음 글도 마찬가지로 GSLB, CDN에서 연계되는 주제입니다. 바로 장애 대응에 대해서 다루어 보려고 합니다. 원래 저번 글에서 GSLB와 CDN이 무중단 배포와 장애대응에 어떻게 활용되는지를 다뤄보겠다 하였으나.. 내용이 많아져 세 개의 글로 나누어 작성하게 되었습니다.

아무튼! 다음 글에서는 장애 대응 이라는 주제를 다뤄보도록 하겠습니다.

읽어주셔서 감사합니다:)