분포 패턴으로 보는 장애 유형 Part I (수학 이야기보다 더 중요한..)

이전 포스트인 누워서 보는 웹 애플리케이션 성능에 필요한 수학 I – 분포와 평균의 인기에 감사드립니다. 평균의 함정에 대한 설명 및 분포에 대한 이론과 필요성에 대해 말씀 드렸는데요. 많은 분들이 공감해 주셔서 와탭 블로그 포스트 역사상 페이스북에 가장 많이 공유된 글이 되었습니다. 감사합니다.

이전 포스트에서 수학적인 부분을 쉽게 전달하는데 집중한 나머지, 응답시간 분포가 주는 큰 장점, 분포가 가져오는 또 다른 가치가 제대로 전달되지 않은 듯 합니다. 분포의 큰 장점은 트랜잭션의 분포 유형을 패턴으로 인식해, 시스템 내부의 문제를  유추할 수 있다는 점입니다. 이에 실제 분포 유형을 보여 드리고, 어떠한 원인 때문에 이러한 현상이 발생했는지 공유하도록 하겠습니다.

분포 패턴으로 보는 장애 유형 Part I (수학 이야기보다 더 중요한..) 더보기

가용성이란? 이론적 배경과 와탭에 추가된 가용성 대시보드 & 일일 리포트

가용성!! 서버 관리자, 백엔드 개발자, 아니 회사 입장에서는 정말 중요한 단어입니다. 서비스가 무정지 운행되어야 한다는 것은 정말 중요한 일이죠.

가용성/안정성에 대한 정의에 대해서 먼저 이야기 나누도록 하죠. 이전에 와탭의 황희선 님이 공개했던 Fault Tolerance 패턴의 글을 발췌합니다 .

안정성

시스템이 특정 기간 동안 장애가 없는 정도를 나타내며, MTTF(Mean Time To Failure)값을 지표로 삼습니다. MTTF는 아래 그림에서와 같이 시스템 수리 후 혹은 처음 시작해서 고장이 날 때까지의 시간을 말합니다.

MTTFMTTF(Mean Time To Failure)

MTTF 시간이 길수록 장애 없이 시스템이 사용자에게 서비스를 제공하는 시간이 길므로, 안정성은 높다고 할 수 있습니다.

예를 들자면, 시카고에서 로스앤젤레스로 가는 비행기의 경우 MTTF가 5시간보다 커야 합니다. 이는 시카고에서 로스앤젤레스까지 비행 거리가 5시간이고 이 시간에는 장애가 발생하면 안 되기 때문입니다.

가용성

시스템이 기능을 수행할 수 있는 기간이 전체 가동 기간의 몇 퍼센트인지 나타내며, MTTF(Mean Time To Failure)값과 MTTR(Mean Time To Repair)값을 지표로 사용합니다. MTTR은 아래 그림에서와 같이 시스템 고장 후 수리가 되기까지의 시간을 말합니다.

MTTF2MTTF(Mean Time To Failure), MTTR(Mean Time To Repair)

MTTF(장애가 나기까지 평균 보장) 시간이 길수록 장애 없이 시스템이 서비스를 제공하는 시간이 길어지므로, 가용성은 높아집니다. MTTR(수리하는데 걸리는) 시간이 길수록 수리시간이 길어 그 만큼 시스템이 서비스를 제공하는 시간은 짧아지므로, 가용성은 낮아집니다.

예를 들자면, 4ESS™ 스위치는 40년간 고장시간을 2시간만 허용합니다. 즉 가용할 수 없는 시간이 연간 3분 이내여야 함을 의미합니다.
가용성이란? 이론적 배경과 와탭에 추가된 가용성 대시보드 & 일일 리포트 더보기