반응형 DevOps2 devops problem solving(이슈해결 역량 기르기 팁) 필자가 k8s 등 여러 클라우드 이슈들을 경험하면서 정리한 이슈 대응 방법 절차이다. 정답은 아니니 참고하면 좋겠다.요약1. 우선순위를 판단한다(critical, major, minor)- 현상해결이 원인분석에 우선한다.- 조직 내 전파가 필요한지 판단2. 히스토리를 확인한다.3. 각종 정보(지표 등)를 확인한다.4. 가설을 세우고 증명하기(원인 파악하기)5. 해결되면 생각해볼 것들6. 미해결 이슈 공유우선순위 판단Critical: 장애상황, 서비스 중단. 사용자가 바로 알아차릴수 있음Major: 일부 극소수 사용자가 알아차릴수 있음. 서비스는 계속 제공가능Minor: 사용자가 알아차리지 못함. 서비스 계속 제공가능원인분석보다 현상해결이 우선이다. 예를 들어, 어떤 k8s 노드가 문제라서 장애라면 스케줄.. 2024. 11. 14. 운영 자동화와 최적화 DevOps 에서는 개발자가 운영자가 된다. 물론 24시간 대응하는 티어그룹이 따로 있을 수는 있지만 결국에 원인을 분석해서 이슈를 수정하는 책임은 보통 개발자가 된다. 이슈가 많아지면 개발자는 고통받는다. 심지어 개발팀이 정상적인 개발업무를 수행하기 어려워진다. 보통은 온콜(oncall) 프로세스를 도입하여 당번제 처럼 돌아가면서 한두명의 개발자가 들어오는 CS나 이슈를 모두 처리하도록 하여 다른 개발자들이 개발에 집중할수 있도록 한다. 하지만, 빈번히 발생하는 이슈를 계속해서 온콜로만 대응하다가는 개발팀의 효율이 개선되지 않는다. 그러므로 운영에 있어서 자동화와 최적화는 지속적으로 이루어져야 한다. 자동화의 범위 어느정도 게으른 개발자가 되라는 얘기가 있듯이, 개발자는 항상 개선을 고민해야 한다. 그.. 2024. 1. 15. 이전 1 다음 반응형