metrics1 Connection Timeout Monitoring in Connection Pool 운영을 하다보면 예기치 못한 일들이 많이 일어난다. 해당 상황들이 실제 서비스의 가용성에 부정적인 영향을 미치는 상황을 방지하기 모니터링 툴을 사용한다. DataDog이나 Prometheus + Grafana와 같은 모니터링 어플리케이션들을 통해 메트릭을 수집하고 주기적으로 확인하여 이상현상을 체크하고 확인 할 수 없는 시간대나 갑작스러운 상황에 대비하여 Alert을 걸어서 슬렉으로 확인하거나 메일 혹은 전화를 받는 식으로 빠른 대응 및 원인 파악에 드는 시간을 줄일 수 있게 한다. 서비스의 가용성에 부정적인 영향을 미치는 지표는 여러가지가 있어서 당장 장애 상황에 직면하면 당황하기도 하고 뭐가 문제인지 파악이 어렵다. 그리고 설정상으로 수집이 안 되고 있는 메트릭이 장애 유발 포인트라면 확인 및 해결까.. 2024. 2. 11. 이전 1 다음