[오픈스택 데이 발표자료] 클라우드 시대의 모니터닝및 성능 이야기

지난 오픈스택 데이 2017에 클라우드 시대의 모니터링및 성능 이야기 라는 주제로 와탭의 손영수님이 발표를 해주셨습니다.   많은 분이 자료를 요청해주셔서 공유를 해 드립니다.

와탭은 현재 15000대의 서버와  500개의 어플리케이션을  모니터링 하고 있으며,  국내 최조로 SaaS형 모니터링 솔루션을 개발해, 장애및 성능에 대한 많은 경험치를 가지고 있습니다.  와탭 팀원들의 여러  경험을 담아 만든 자료라고 보시면 됩니다.

직접 모니터링 솔루션을 구축하실때 어떠한 부분들을 고려하셔야 되는지 와탭의 고민과 경험들을 공유드립니다!

직접 구축하는 비용및 유지 보수 비용을 생각하신다면, 이러한 철학들이 반영된 와탭의 인프라스트럭쳐 모니터링과 어플리케이션 모니터링을  사용하시는게 좋겠죠.

모바일 앱 리뉴얼 이야기 – 10,000개 이상의 데이터 처리와 차트 반응성 올리기

중국 진출의 고민 – ‘모바일에서도 문제의 원인을 파악할 수 있도록’ 데이터를 어떻게 보여 줄까?

기존의 WhaTap 모바일 앱은 WebView 기반으로 차트를 보여줬습니다. 서버 상태를 확인하고, 장애 알림을 받는데 집중을 하였죠.

와탭은 중국 진출을 앞두고 있으며, 중국에서는 웹 보다 모바일을 더 많이 사용합니다. 즉 Mobile-Native 여야만 살아 남을 수 있죠. 그래서 모바일 앱의 중요성이 대두되었으며, 모바일에서도 모든 문제 상황을 판단할 수 있도록 만들어야 했습니다.

그래서 이번 모바일 앱 1.5 신 버전에는 ‘어떻게 빠짐없이 모든  문제 상황을 잘 보여 줄 수 있을까?’를 고민했고, 결국 그 해답으로 차트 표현에 집중하게 되었습니다.

즉, 웹에서 느끼지 못 하는 모바일만의 사용자 경험을 드리는데 많은 고민을 했습니다.

 

10,000개 이상의 데이터를 Native Chart로 보여 주기 위해 생긴 고민들…

하루를 표현하는 1분 데이터는 1,440개. 물려 있는 서버의 수집 단위 (CPU, Memory, Network Card 별 트래픽, 무수한 프로세스 정보, 무수한 디스크 정보)가 많으면 하나의 서버에서도 10,000개 이상의 데이터를 다뤄야 하는 상황이 발생했습니다.

또한 리뉴얼을 진행한 안드로이드 앱은 다양한 디바이스의 상황에 맞게 설계해야 했습니다. 안드로이드는 다양한 사양과 화면의 디바이스들이 있기 때문에 최소 사양과 다양한 화면 비율까지 지원해야 합니다.

하지만, 10,000개가 넘는 데이터를 수집하여 차트를 그리려면 기본적으로 디바이스의 CPU와 Memory를 많이 사용하기 때문에, 사용자의 시나리오를 고려해 어떻게 데이터를 수집하고 표현할지 많은 고민을 했습니다.

모바일 앱 리뉴얼 이야기 – 10,000개 이상의 데이터 처리와 차트 반응성 올리기 더보기

WhaTap이 보내드리는 장애 보고서

이번 글에서 WhaTap의 성능 분석 보고서에 대해 소개하고자 합니다. 많은 서비스 회사들이 서비스 운영 중에 부딪히는 장애로 어려움을 겪고 있으며, 장애를 미리 예측하거나 감지하여 보고해 줄 수 있는 도구들을 찾고 있습니다.  하지만 시스템의 많은 문제를 발견하게 되면 무엇부터 잡아야 할까요?

APM 사용에 익숙해지면 괜찮지만, 처음 사용하시는 분들이 많은 지표 중에 무엇이 문제인지, 장애가 될 수 있는 잠재적 요인을 미리 안다는 것은 어려운 일입니다. 

WhaTap은 이러한 문제를 해결하기 위해, 생성한 프로젝트의 사용자에 help@whatap.io를 추가해 주시면 모니터링 하면서 장애가 발생하거나, 장애가 예상되는 부분에 대해 보고서를 보내드립니다.   

 

성능 / 장애 보고서 

이 보고서는 OpenSurvey 서비스를 운영하시는  IDINCU 제품 총괄 분께서 흔쾌히 실제 사례를 사용해도 좋다고 허락해 주셨습니다.  정말 감사드립니다.

(슬라이드 상에서는 공간의 제약 문제로 보고서의 이미지가 잘 보이지 않으니, 불편하시더라도 슬라이드를 확대하여 자세히 보시는 것을 추천합니다.)

WhaTap이 보내드리는 장애 보고서 더보기

누워서 보는 웹 애플리케이션 성능에 필요한 수학 I – 분포와 평균

애플리케이션 성능 향상을 위해 알아야 하는 여러 개념들을 소개하고, 왜 와탭 APM이 실시간 모니터링, 분포도를 표현하는 히트맵 등을  도입했는지, 철학에 기반을 둔 여러 이론들을 하나 둘씩 설명하도록 하겠습니다.  이번 글은 분포와 평균에 대해 다루고자 합니다.

제목으로 누워서 본다는 글을 적었는데 최대한 쉽게, 특별한 수학적 배경이 없어도 알 수 있도록 차근차근 알려드리도록 하겠습니다.

성능의 기준은 LogNormal이 기본

이미지 참조 사이트 - https://www.unc.edu/courses/2007spring/enst/562/001/docs/lectures/lecture6.htm
그림 1. Normal과 Lognormal

예전 수학시간에 많은 것들이 정규분포를 가진다고 배웠습니다. 위 그림에서 보시면, Normal은 정규분포를 의미합니다. 특정 기준값(위 그림에선 0)에 수렴하며 +, -의 값이 균등한 분포를 가지면서 0에 수렴하는 것을 가집니다. 하지만 웹 서버의 성능에 대한 지표는 정규분포를 가지면 안 됩니다. 응답시간에서 -(마이너스)는 존재하지 않으며, 모든 트랜젹선의 응답시간이 한없이 0에 가까워야 되기 때문입니다.

그래서 오른쪽 그림의 LogNormal(로그 정규분포)이 성능이 추구하는 분포에 훨씬 가까우며, 이로 인해 성능 관련 블로그들이나 글들을 보면 자주 LogNormal이라는 단어들이 등장하는 것을 보실 수 있습니다. 심지어 lognormal이라는 이름의 성능 관련 회사도 있습니다.

누워서 보는 웹 애플리케이션 성능에 필요한 수학 I – 분포와 평균 더보기

와탭으로 하이브리드 클라우드 모니터링 하기 (폐쇄망을 위해 DMZ 지원 기능 추가)

많은 기업들이 순수하게 Public Cloud만 사용하기 보다, 기존의 IDC와  Public Cloud를 병행해서 사용하는 Hybrid Cloud 환경을 선호합니다.

기존의 기저 부하를 IDC에서 처리하고, 피크 타임 때의 부하를 클라우드로 대처한다거나, 반대로 핵심 트랜잭션들은 물리적 서버의 사용을 선호하고,  나머지 트랜잭션을 클라우드를 사용하는 등 다양한 방식으로 사용하고 있습니다.

하이브리드 클라우드(Public 클라우드와 기존  IDC, Private Cloud를 병행해서 사용하는) 환경의 고객들은  폐쇄망 환경에  데이터베이스 서버 등 핵심 서버들이 다수 존재하고 있었습니다. 하지만 와탭을 이용하는 많은 고객들이 전체 서버들을 모니터링하기 위해 인트라넷에서 존재하는 서버들의 모니터링 요청이 증가하였고, DMZ에 Proxy를 쉽게 구성할 수 있는(유료 사용자 한정) 기능을 추가하였습니다.

이번 호에서는 폐쇄망에 있는 서버들이 네트워크 DMZ를 경유하여 와탭을 모니터링하는 방법을 소개합니다. 저희와 유사한 SaaS 솔루션 업체라면, 꼭 고민해 보셔야 하는 기능입니다.

와탭으로 하이브리드 클라우드 모니터링 하기 (폐쇄망을 위해 DMZ 지원 기능 추가) 더보기