Horizontal Pod AutoScaler

서비스 특성상 동시 접속자 및 대량 메시지 발송으로 인한 트래픽 과부하시, 이에 대한 자가치유를 할 수 있는 HPA를 도입했다. 대량의 트래픽이 유입되는 상황에서 파드가 준비되지 못하고 트래픽을 분산받아 죽는 현상이 발생해, 이를 위해 readiness probe를 두어, 서버로부터 ready API요청에 대한 200 응답이 올시에 트래픽을 분산 받도록 했습니다.

HPA의 대상이 되는 서버는 전체 서비스에 있어서 부하가 가장 심한 Sender Server와 Receiver Server에 있다.

오토스케일링 증감(Min - Max):
Sender Server: 1 - 2
Receiver Server: 1 - 4
오토스케일링 trigger기준:
memory: 50%
cpu: 30%
rules: 기준치 초과/감소시 그 즉시(stabilizationWindowSeconds=0)파드 갯수를 1초마다 1개 오토스케일링(증가/감소)

HPA.drawio-2.png