맵리듀스(MapReduce) 개념 정리
1. 맵리듀스의 개념 맵(Map)과 리듀스(Reduce)라는 두 가지 단계로 처리를 한다. 맵은 입력 파일을 한 줄씩 읽어서 데이터를 변형(transformation)한다. 리듀스는 맵의 결과 데이터를 집계(aggregation)한다. 2. 맵리듀스 모델의 처리 과정 맵은 한 줄에 있는 단어 개수를 계산해 한 줄씩 출력한다. 그 후 리듀스는 맵의 출력 데이터를 집계한다. 맵 : (k1, v1) → list(k2, v2) , 리듀스 : (k2, list(v2)) → (k3, list(v3)) 맵은 키(k1)와 값(v1)으로 구성된 데이터를 입력 받아 이를 가공하고 분류한 후, 새로운 키(k2)와 값(v2)으로 구성된 목록을 출력한다. → 여러 개의 데이터 생성 맵의 입력키는 각 줄 번호, 입력 값은 각 줄..
Hadoop
2023. 7. 29. 17:57