본문 바로가기
Work/책 정리

[리뷰] 하둡 완벽 가이드 4판

by ★용호★ 2017. 4. 8.

#1

책을 항상 깔끔하게 유지하고 싶은 마음에 책을 받자마자 비닐 포장으로 감싸고 읽어보기 시작했습니다. 1장을 읽어나가면서 느낀 것은 번역이 정말 잘 된 것 같다는 것이었습니다. 번역서를 읽다보면 문맥이 이상해서 이해가 잘 안되는 경우가 많았는데 이 책은 마치 한국분이 작성한 책 처럼 술술 잘 읽혔습니다. 물론 책의 두께 만큼이나 심도있는 내용들을 다루기 때문에 쉽지는 않지만 자연스러운 문장 덕에 이해하는데 도움이 많이 되었습니다.


#2

하둡에 대해서는 이름만 알고 있는 상태였고 실제로 어떤 원리로, 어떠한 곳에 쓰이는 지는 잘 모르는 상태로 접했는데, 읽다보니 여러가지 아이디어와 현재 개발 중인 프로젝트에서 적용할 수 있을 법한 것들이 떠올랐습니다.

진행 중인 프로젝트에서는 사용자들의 정보를 수집하고 통계를 내는 데 ELK(Elasticsearch + Logstash + Kibana)를 사용하고 있는데, 유저 데이터가 쌓일 수록 Elasticsearch의 용량이 점점 커지게 되므로 나중에는 분명히 한계에 다다를 것을 예상 할 수 있었습니다. 이 때 과연 어떻게 처리를 할 것인가가 큰 고민중에 하나였는데, 책을 읽다 보니 하둡이 좋은 해결책이 될 수 있을 것 같았습니다.


#3

처음에는 모든 개념을 숙지하고 싶은 마음에 모든 개념을 하나하나 파악하려고 노력을 했었습니다. 하지만 1~3장을 읽다보니 생소한 개념들과 어려운 용어들이 나와서 몇 번을 반복해서 읽게 되었는데, 진도가 너무 나가지 않아서 우선은 어렴풋이 이해하고 넘어가고 나중에 실제 적용할 때 디테일하게 살펴보는 방향으로 목표를 재설정해야했습니다. 그래서 이론적인 부분은 빠르게 넘어가고 실제 사용 부분을 살펴보며 막히는 부분에 대한 이론적인 내용을 다시 찾아가서 살펴보았습니다.

저의 경우 단순히 각 기능들을 사용하는 것보다는 이 기능들이 동작하는 원리에 대해 이해를 하고 조금 깊게 들여다보는 것을 좋아하는데 이 책은 그러한 부분들을 만족시켜주었습니다. 그리고 중간 중간 실제 코드를 예제로 보여주면서 거기에 대한 설명을 보충해주기 때문에 직접 따라해 볼 수도 있고, 이해하는 데에도 큰 도움이 되었습니다. 


#4

책에서 언급하 듯이 어떠한 기술이든 장점과 단점이 존재하기 때문에 자신의 프로젝트에 적합한 기술을 잘 선택하는 것이 중요합니다. 하둡은 그런면에서 실시간으로 원하는 데이터를 빠르게 가져오는 데에는 이에 적합한 다른 기술들에 비해 비효율적이지만 대량의 데이터 속에서 원하는 데이터를 검색해야 하는 경우, 거기에 더해서 속도 보다는 정확도를 중요시하는 곳에서는 적합 할 수 있습니다. 이 대량의 데이터를 다루는 것이 참 어려운 부분인데 하둡에서 제공하는 기능들을 잘 활용하면 이런 기능들을 개발자가 직접 구현해야하는 번거로움을 많이 덜 수 있을 것입니다. 물론 이 책 하둡 완벽 가이드에서 이러한 기능들에 대한 설명을 디테일하게 잘 설명해주고 있습니다.


#5

그래서 결론적으로 현재 진행 중인 프로젝트에서는 한달 이상 된 데이터는 검색할 일이 거의 없을 것이라는 판단에 근 한달간의 사용자 데이터는 Elasticsearch에 보관하고, 이 보다 오래된 데이터들은 하둡에 저장하여 실시간으로 통계 정보를 눈으로 확인해야 하는 Elasticsearch에 최소한의 데이터를 유지하는 전략으로 진행해 볼 생각입니다.

아직 우선순위가 높지 않아서, 실제 구현은 들어가지 않았지만 구현에 들어가면 그 과정을 블로그에 포스팅 해보려고 합니다. 


댓글