하둡 1장 하둡과의 만남
오늘부터 하둡 공부를 시작했다.
1장은 하둡의 개요 부분이었기 때문에 대부분 이해할 수 있었다.
간단히 요약하자면 아래와 같다.
요약
-
시대가 흐르면서 데이터가 쌓였다
-
H/W 저장소의 크기는 빠르게 증가했지만, 데이터를 읽는 속도는 증가폭이 미미했다
-
느린 데이터 읽는 속도를 보완하기 위해 분산 처리가 대두되었다
-
-
분산 처리에는 두 가지 단점이 있다
-
H/W 손실 등의 장애
- RAID와 같은 다수의 백업을 만듦으로 극복
-
데이터 분석 작업 시 분할된 데이터의 재병합 필요
- 맵 리듀스를 통해 극복 (아마도)
-
- 또한, Hadoop을 돕기 위해 YARN이라는 것이 개발되었다.
궁금증
과연, 맵리듀스란 대체 무엇인가???
이렇다할 설명이 없었다.
결국 컴공 특유의 ‘아, 그런게 있어.’로 넘어갔지만, 생각보다 중요한 개념인 것 같다.
다행히, 다음 장이 맵리듀스였기 때문에, 아마 금방 알 수 있을 것 같다.
그리고 YARN 역시 뭔지 모르겠다.
이것 역시 공부하다보면 알게 되겠지…