본문 바로가기

Work/책 정리

[리뷰] 데이터 과학을 위한 통계

데이터 과학을 위한 통계

소프트웨어 엔지니어로 일하고 있지만 수포자(수학포기자)로 살아왔기 때문에 수학 관련된 공부는 항상 기피를 했었다. 게다가 게임 개발자로 오랜 시간 업무를 해왔기 때문에 생각보다 전문적인 수학 지식이 필요로 하지는 않았었다. 그렇게 지금까지 수학과는 거리감을 유지하면서 지내왔는데 몇년 전 부터 조금씩 빅데이터와 관련된 업무나 스터디를 진행하면서 수학의 필요성을 느끼게 되었다.

 

 

가장 처음 필요성을 느꼈던 때는 스타트업에서 게임 서버 개발자로 근무할 당시였는데, 사업부에서 현재 게임에 대한 동접, 사용자 이탈률, 매출, 각 기능별 사용률 등등 통계가 필요한 요구사항들이 생기면서부터 였다. 당시에는 엘라스틱서치를 사용하여 잘 모르는 통계 지식들을 겉핥기 식으로 찾아가며 대응을 했었는데 개념 잡는데 꽤 오랜 시간이 걸렸다.

 

 

이 후에는 어떤 패턴을 가진 사용자가 실제 결제까지 하게 되는지 예측을 하기 위해 머신러닝을 공부하고 PoC를 진행해보았는데 이 때도 마찬가지로 개념 잡는데 꽤 오랜 시간이 걸렸다. 이 과정들을 겪으면서 느낀 것은 수포자도 충분히 할 수 있을 것 같다는 것이었다. 그 이유는 이미 수학적으로 깊게 들어가고 어려운 부분은 라이브러리화 되어 사용하기 쉽게 제공되고 있었고, 이를 개발자 및 데이터 엔지니어들이 잘 가져다 사용하면 되기 때문이다. 가져다 사용하는 것이지만

 

컬러풀한 예제와 그림

그래도 기본적인 개념을 가지고 있어야 이마저도 할 수 있는 것이기 때문에 기본적인 공부는 필요하다. 이를 위해 좋은 선택지는 책을 통한 공부인데, 그 중에서도 이 책 "데이터 과학을 위한 통계"는 기본 이론부터 실제 사용까지 잘 정리가 되었기 때문에 공부가 필요한 부분을 찾아서 이해하는데 큰 도움이 될 것이라고 생각한다.

 

중간중간 노트와 주요 개념 정리

일단 책이 컬러풀하기 때문에 읽는 재미가 있었고, 실제 따라해볼 수 있는 예제가 존재하기 때문에 이해에도 큰 도움이 되었다. 중간 중간 주요 개념에 대한 정리가 있어서 요점을 정확히 알 수 있고, 노트와 더 읽을 거리를 통해서 부족한 지식을 더 찾아 볼 수 있어서 좋았다.

 

사실 이 책의 내용이 나에게 쉽지는 않았고, 어려운 용어들도 많아서 이해하지 못한 것이 대부분이지만 어떤 경우에 어떤 것을 가져다 사용할지에 대한 선택은 할 수 있을 것 같았다. 데이터 분석을 어떻게 시작해야 할 지 모르는 나 같은 수포자들에게는 큰 도움이 될 수 있을 것이라고 생각한다. 이 책을 시작으로 다양한 데이터 분석 사례와 머신러닝 사례가 나오면 좋겠다.