상세 컨텐츠

본문 제목

4. 빅데이터 수집 개요

Hadoop

by 견오수 2021. 9. 13. 11:16

본문

728x90

빅데이터 구축 단계 

 

빅데이터 프로젝트는 크게 수집, 적재, 처리/탐색, 분석.응용으로 크게 4단계로 구성이 되어있다.

첫 번째인 수집 단계입니다.

 

 

빅데이터 수집 데이터

 

빅데이터는 크게 내부 데이터와 외부 데이터로 나누어진다.

 

※내부 데이터

  • 빅데이터 시대 이전에는 주로 내부 데이터를 주로 활용하였다.
  • 특징은 정형 데이터이며, RDBMS에서 주로 사용하였다.
  • 종류에는 기업의 조직에 담긴 데이터 즉, 고객정보, 거래정보, 상품/서비스 정보 등이 있다.

 

※외부 데이터

  • 특징은 비정형 데이터이며, 스키마가 없는 구조이다.
  • 비정형은 크게 반정형 데이터(CSV 형태), 완전형 비정형 데이터(SNS, 포털 블로그)로 되어있다.

 

빅데이터 수집절차

수집 대상을 선정을 하고 수집 계획을 수립을 후 수집 실행을 한다.

수집 정의서/계획서 기반으로 개발을 진행을 하기 때문에 매우 중요하다.

 

실무에서는 수집 실행을 하며 나온 테스트 결과를 보고 수집 계획을 재수립 한 후 수집 실행하는 사이클을 반복을 하게 된다

 

Tip)  데이터 수집이 먼저인가? 분석 활용이 먼저인가?

 

정보 없이 데이터만 가질 수 있다. 하지만 데이터 없이 정보를 가질 수는 없다.  -대 이얼 키즈 모란-

 

이 말을 해석하면

 

분석 없이 수집은 할 수 있다. 하지만 수집 없이 분석을 할 수 없다를 의미하는 것 같습니다.

뭐가 먼저다에 대한 정답은 없지만 상황에 맞춰서 결정하면 될 거 같습니다.

 

 

 

 

출처 : 실무로 배우는 빅데이터 기술  데이터 수집, 적재, 처리, 분석, 머신러닝까지(책)을 보고 정리함.

728x90

'Hadoop' 카테고리의 다른 글

6. 빅데이터 적재 개요  (0) 2021.09.16
5. 아파치 플럼과 카프카란?  (1) 2021.09.13
3.하둡 간단한 명령어 실습  (0) 2021.09.10
2. Cloudera Manager (CM) 설치  (1) 2021.09.01
1. Centos 환경 구성  (1) 2021.08.30

관련글 더보기

댓글 영역