서비스를 운영할 때 예상치 못한 부분에서 장애나 오류는 언제든지 일어날 수 있다. 사전에 예방하는 것도 중요하지만 장애가 발생했을 때 이를 빠르게 인지하고 대처하는 것 또한 중요하다. 도입이유 - 물리적 서버 문제 발생 시 사용하고 있는 클라우드 서비스에서 알람을 보내주지만 어플리케이션단의 문제가 발생했을 때 노티기능이 없다. - 서비스에 문제가 있는 상태에서 방관하고 있으면 유저에게 서비스에 대한 신뢰를 잃어버릴 수 있다. 의사결정 배경 및 요구사항 - 문제가 발생했을 떄 즉시 인지할 수 있어야 한다. - 다른 할일도 많다 개발이 간편해야한다. - 팀원에게 익숙한 언어이거나 러닝커브가 작아야한다. - 비용적인 문제가 없어야 한다. - 시스템 관련 알림채널은 통일되어야 알림이 왔을 때 집중할 수 있다. ..