[KR-2001061] '빅데이터를 지탱하는 기술' 리뷰
Last updated
Was this helpful?
Last updated
Was this helpful?
개발하다보니 데이터 드리븐이 중요한것은 당연한거 알고있고, 아쉬운대로 Google Analytics(이하 GA) 같은것으로 드리븐을 시도했지만 사실 GA는 workflow개선에 초점이 맞춰져 있기때문에 그 한계는 너무나도 명확했다.
물론 데이터 엔지니어, 사이언티스트가 있는 곳에서도 일했지만 내가 경험한것은 쌓여있는 데이터를 활용하는게 보통이었다. 이 말인 즉슨 개발자가 어떤 재료를 가져다 주냐에 따라 데이터 사이언티스트 라는 요리사가 할 수 있는 요리의 한계가 정해지게 되는것이다.
요리사가 요리를 잘 할 수 있도록 데이터를 잘 쌓고 싶긴 한데. 도대체 어떻게 해야 하나? 잘 쌓는다는게 무엇인가? 라는 질문을 할때 '개발_좀_아는_언니'님과 '카일'님이 이 책을 추천 해 주었다.
이 책은 감언이설로 빅데이터 약을 파는 약장수 책이 아니다. 기존 RDB와 time-series data, Schemaless(NoSQL)를 간략하게 소개하면서 실제로 데이터를 어떻게 쌓고, 어떻게 정제할건지 설명한다.
소소한 예제는 덤.
기존 Data warehouse 는 거의 말그대로 웨어하우스 = 창고에 가깝다.
일단 다 쌓는거다! 이게 무슨말이냐고? 거짓말 조금 보태면 분리수거장 이라고 보면 된다;...
데이터 사이언티스트들은 분리수거장에서 쓸만한걸 줍는다;;;...(미안 친구들... 내가 잘할게)
Type
DataTypes
Data Warehouse
RDB (usually)
Data Lake
Structured and unstructured data
Data Mart
RDB (usually)
아까 말한 분리수거장 이야기를 이어나가자면 기존 Data warehouse는 그냥 막무가내로? 쌓고, 이 책에서 소개하는 Data Lake는 종류별로 분리한다. 종류별로 분리해도 데이터 사이언티스트들은 쓸만한걸 알아서 주워야 한다.
'종류별로 분리한다' 에서 '분리한다' 에 집중해보자. '분리' 라는건 필터링 인데 이게 자동으로 될까? 그렇지 않다. 그것이 바로 이 책에서 설명하는것이다. 도데체 Data Lake를 구성하기 위해서 필터링을 어떻게 할건지 그렇다. 세상에 공짜는 없다.
이 책은 거기서 딱 한걸음만 더 나간다. 분리수거를 했으면 이쁘게 모아두어야 할 것 아닌가? 바로 '시각화'다.
시각화는 적절한 예제가 없어서 이만 빨리 마무리 하도록 하겠다.
마지막 그림은 대충 Data Lake가 생각보다 돈이 많이 든다는 뜻이다. 그럼 이만!
'lugi'님이 일전에 Kafka Stream을 소개 해준적이 있다.
Kafka Stream은 데이터 스트림(플로우)에 훅을 거는 개념이다. 이 책이 나온지 좀 되서 Kafka Stream을 소개 안해주길래 보너스로 넣었다.
진짜 안녕!