[리뷰] 스파크 완벽 가이드
개발 업무를 진행하면서 서비스를 런칭 했을 때 사용자들의 행위나 서비스가 제공하는 각 기능에 대한 가치를 파악하기 위해 데이터 분석을 해보고 싶다는 생각을 항상 해왔었다. 이 전에는 게임 서버 개발 진행과 병행하여 엘라스틱서치를 도입해 데이터 분석을 위한 준비를 했었고, 서비스 런칭 후 이를 통해 사업부와 협업하여 사용자 행위 지표에 대한 다양한 차트를 만들어보기도 했었다. 이로 인해 생각지 못했던 아이디어가 떠오르기도 하고, 업데이트 된 기능에 대한 사용자들의 반응을 바로바로 확인할 수 있어서 굉장히 큰 도움이 되었었다.
이 때의 경험을 계기로 어떤 개발을 할 때는 항상 데이터 분석도 함께 해보려고 노력하고 있다. 얼마전에는 본 업무와 별개로 사이드 프로젝트를 진행하며 데이터 분석을 해보기도 했다.
이처럼 데이터 분석에는 엘라스틱서치 뿐만 아니라 다양한 도구들이 존재하는데 문제는 이러한 분석을 위한 데이터가 서비스 기간이 길어질 수록, 서비스를 사용하는 사용자가 많아질 수록 기하급수적으로 증가한다는 것에 있다. 데이터가 많아지면 그만큼 집계를 하기 위한 시간도 오래걸리고 데이터가 차지하는 용량도 감당하기 어려울 정도로 증가하기 때문에 관리 비용이 굉장히 커진다. 이를 해결할 수 있는 도구로 스파크를 많이 사용한다.
이 책에서는 스파크가 무엇인지, 어떤 경우에 사용해야하는지에 대해 자세하게 설명하고, 유지보수를 하기 위해 필요한 지식들을 담고 있다. 데이터 분석을 위한 도구들은 사용도 까다롭지만 운영도 굉장히 어렵다. 충분히 돈을 벌고 있는 서비스라면 클라우드의 관리형 도구를 사용하게 되면 운영 이슈 없이 사용 방법에 대해서만 숙지하면 되지만 비용이 굉장히 크기 때문에 아마도 대부분의 회사에서 초기에는 직접 구축해서 사용하게 될 것이라고 생각한다. 이 책을 통해 사용방법 뿐만 아니라 트러블슈팅에 대한 팁도 알 수 있어서 좋았다.
스파크라는 도구 자체가 알아야 할 것들도 많고, 개념도 쉽지 않기 때문에 그만큼 책의 두께가 굉장히 두꺼워서 처음부터 하나씩 보다 보면 지치게되는데 간단한 프로젝트에 도입하여 직접 사용해보면서 궁금한 부분을 책에서 찾아 공부하는 식으로 본다면 더욱 재미있게 볼 수 있을 것이라 생각한다. 이 책은 스파크를 도입하려는 데이터 엔지니어들에게 큰 도움이 될 것이다.