본문 바로가기

잡다한것

[Kakao if] 카카오는 왜 첫날에 키노트 하나만 했을까?

반응형

 

주주님들 그랜절 씨게 박겠습니다.일수도 있다

 

정확하게는 키노트 하나만 했다. 바로 '1015 장애 사태' 관련해서 말이다. 진짜 그 장애 사태와 관련되서 

'원인이 무엇이며'

'이러한 것을 개선해 나가고'

'앞으로 어떻게 하겠다'

를 깔끔하게 밝혔다.

 


1. 원인은 무엇인가 

 1). 발생원인

"우리집에 불났다요"

 

10.15일 퇴근을 기다리던 kakao 엔지니어

 

진짜 불이 났다..데이터 센터에... 모두들 기억하겠지만 카카오톡이 불통된것을 기억할것이다.

물론 친구없는 사람은..몰랐었..

 

2).왜 복구가 늦어졌는가

내가 글을 쓰고 싶었던 이유..

카카오는 10.15에 시작한 장애를 10.20 되서야 복구했다. 카카오가 큰기업인데 이중화가 안되있을리가 없지 않는가근데 왜 늦어졌을까..

  • 완벽하지 않은 이중화

 

 이중화 자체가 비용도 많이 들고 송수신 하는게 배로 늘어나기 때문에 번거로운 작업이긴하다. 그래서 중요데이터만 이중화하고 아니라고 판단된 애들은 안한 것으로 추측된다.

은행으로 치면 은행 돈거래 정보는 다른 지사에 빡세게 2중 3중으로 기록 시켜놨는데 다른것들 고객 이벤트 내역같은 거는 기록 안해놓고 둔거 같은 개념이다.

더보기

다른 db군은 다중화가 잘되어있지만 데이터를 분산시키는 기능을 하는 db군과 클러스터부분이 이중화가 잘안되있었다고한다(hbase,druid,hadoop,카카오 클라우드등) 

카카오서비스는 많은게 엮여있다.

뭐 카카오T를 예를 들면 카카오T안에 카카오맵을 사용해서 경로랑 예상 시간을 예측할꺼고 카카오톡을 이용해 안심메세지를 보내기도 하고 카카오페이로 결제를 하기도 하지 않는가?

근데 그러면 어떤 서비스부터 먼저 키는게 옳을까? 카카오톡? 카카오맵? 카카오페이? 카카오톡도 카카오페이를 쓰는데? 켜지나? 여러 서비스가 복잡하게 얽혀있어 뭐부터 시작해야 정상화가 될지 헷깔렸을꺼다.

 

놀이공원은 정상동작하고 뭐 랜드의 매직패스를 샀는데 만약의 자기 번호를 못본다면? 핸드폰이 꺼져있다면? 놀이기구를 타지 못하지 않는가? 카카오도 마찬가지였을것이다. secondary server로 정상 구동하려하려해도 어떤 정보를 넣어서 정상화해야하지? 그 정보가 들어가있는데가 맛이갔는데.. 설렁탕을 사줘도 먹질 못하는 김첨지같은 상황인것이다.

 

 

 

위의 내용들을 깔끔하게 요약한 ppt화면이다

 

 

 

- 전환 및 관리 시스템  이중화 부재

근데 장애가 나면 다른 데이터 센터로 전환되야하는데 그시스템이 불난데 있었나보다. 그래서 이중화 한 다른곳으로 전환이 어려웠단다.

그 이상을 감지하는 모니터링 운영시스템도 전환하는 시스템도 다 판교에만 있었다고한다. (서버 및 환경 설정정보 포함)

이중화가 되어있는데 왜 써먹질 못하니..

은행 한곳이 불나서 다른 지점 은행을 찾아가야하는데 그 안내해줄 직원이나 포스터, 업무매뉴얼 같은 정보데이터가 불타 없어진 상황인 것이다.

더보기

 

 

소스 운영관리툴같은것이 일부 이중화가 안되있었다고 한다. 개발자들이 개고생했다고한다.

정확하진 않지만 픽사였나 블라자드개발설중에 누가 rm -rf  *을 입력하여 모든 자료가 삭제됬던 상황에서 개발자 컴퓨터에 있던 개발소스로 복구했다는 썰이 있는데 여기도 그렇게 비슷하게 복구했으려나싶다..

 

 

- 가용 자원의 부족

우리가 카카오 서비스를 많이 이용하긴 하지..

이중화는 되어있었지만 이중화 한데의 규모가 크지 않았었는지 원래 서비스를 대체 하기엔 많이 부족했나보다. 그래서 찔끔찔끔 복구가 되었던가 같다.

불난은행은 막 3층짜리 본사였는데 대체할 은행은 조그마한 지점이라 본사의 모든 고객은 감당하기 힘들었을것이다.

더보기

내가 이거 후기 올려야겠다 생각한 계기이다.

은행이든 어디든간에 다들 이중화가 되있겠지만 내 기억상으로 동스펙급으로 하는데는 많지 않았던걸로 기억한다.

다른데 불이 났었다면 대응이 카카오보다 더 철저히 잘 됬을꺼란 보장이 있었을까 싶다

내가 잘몰라서 그런걸수도 있다.

  • 위기 대응 부족

사람도 없고 서로 잘 모르고 총대맨 사람도 없고.. 각각 담당별로 주먹구구식으로 복구 작업을 진행한 것으로 보인다(조별과제 확장판)

 

 

2. 그럼 앞으로 어떻게 할껀데?

 

 

 

 

 

 

 

 

 

 

 

뭔가 많아보이지만 요약하면

 

'이중화가 아니라 삼중화 할께요'

 

'이중화 안했던 것들도 열심히 이중화 할께요'

 

' 장애시나리오에 대해 체계적으로 훈련 및 프로세스를 구성할께요'

 

'시설투자 열심히 할께요'

 

그러니까 돌아와줘요

 

 

 

 

안산에 생긴다요

 

 

 

 

그 키노트하시는 분도 말씀하다싶이 신박한 방법이 아니라 아주 당연하고 기초적인 방법이다.

하지만 그냥 들으면서 생각이 든거지만 지금 시스템이 자동화가 발달되고 했다지만 마냥 믿을 수는 없다는 생각이 었다.

 

막 서비스가 다운되도 자동으로 체크해서 다시 올리는 기능이 있던 모든 서버를 모니터링 할수 있는 빅브라더같은 하나의 시스템이 있다하더라도 그 모니터링 하는 서버가 망가졌으면 원인을 파악하기 힘들며, 다운된 서비스가 다른 시스템하고 연동된 중요한 서비스라면 모든 서비스가 다운되는 대참사가 발생하는 것이다.

 

그렇기에 자동화에 의존하지 않고 업무에 대해 체계화가 되고 파악이 되야하는게 중요하구나 느꼈다. 솔직히 가끔 우리 회사 서버가 불났으면 할때가 있지만 실제로 불난다면 잘 정상복구가 가능할까?  살짝 반성하게 됬다.

 

진짜 IF일거 같은 상황을 카카오가 실제로 겪으면서 IF상황이 실제됬을때 이러한 상황들이 있다를 몸소 보여줬던거 같다. 단순히 얘내가 제대로 안했대보다는 나도 겪을수 있는 IF기에 새겨들어야할 내용이라고 생각했다.

 

아마 카카오도 그걸 느꼈기에 첫날에 가장 중요한 키노트 하나만 한거 아닐까 싶다.

 

 

반응형