하둡 1장 하둡과의 만남

오늘부터 하둡 공부를 시작했다.

1장은 하둡의 개요 부분이었기 때문에 대부분 이해할 수 있었다.

간단히 요약하자면 아래와 같다.

요약

시대가 흐르면서 데이터가 쌓였다
- H/W 저장소의 크기는 빠르게 증가했지만, 데이터를 읽는 속도는 증가폭이 미미했다
- 느린 데이터 읽는 속도를 보완하기 위해 분산 처리가 대두되었다
분산 처리에는 두 가지 단점이 있다
- H/W 손실 등의 장애
  - RAID와 같은 다수의 백업을 만듦으로 극복
- 데이터 분석 작업 시 분할된 데이터의 재병합 필요
  - 맵 리듀스를 통해 극복 (아마도)

과연, 맵리듀스란 대체 무엇인가???

이렇다할 설명이 없었다.

결국 컴공 특유의 ‘아, 그런게 있어.’로 넘어갔지만, 생각보다 중요한 개념인 것 같다.

다행히, 다음 장이 맵리듀스였기 때문에, 아마 금방 알 수 있을 것 같다.

그리고 YARN 역시 뭔지 모르겠다.

이것 역시 공부하다보면 알게 되겠지…