상세 컨텐츠

본문 제목

빅데이터란?

Hadoop

by 견오수 2021. 8. 25. 11:11

본문

728x90

1.  빅데이터 개념

 

빅데이터는 단순히 큰 데이터, 큰 정보로만 보지않음. 과거로부터 현재까지 쌓인 데이터를 분석해 현재를 이해,

데이터에서 만들어지는 다양한 패턴을 해석해 미래를 예측하기 시작, 조직의 중요한 의사결정에 빅데이터가 활용됨.

큰 데이터 집합에서 기술, 분석, 통찰력까지 총칭하는 용어로 사용함.

 

※빅데이터 정의

 

  • 빅데이터는 통상적으로 사용되는 데이터 수집 및 관리, 처리와 관련된 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말하며, 빅데이터의 규모는 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징이다.
  • 일반적인 데이터베이스 소프트웨어로 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터이다.
  • 대용량 데이터를 활용,분석해서 가치 있는 정보를 추출하고, 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술이다.
  • 단순한 데이터의 크기가 아니라 데이터의 형식과 처리 속도 등을 함께 아우르는 개념으로, 기존 방법으로는 데이터의 수집, 저장, 검색, 분석 등이 어려운 데이터를 총칭해서 일컫는 용어이다.

 

빅데이터 정의:6V

 

  • 크기(Volume) : 방대한 양의 데이터(TB, PB 이상의 크기)
  • 다양성(Varity) : 정형(DBMS, 전문 등) + 비정형(SNS,동영상,사진,음성,텍스트 등)
  • 속도(Velocity) : 실시간으로 생산되며, 빠른 속도로 데이터를 처리/분석
  • 진실성(Veracity) : 주요 의사결정을 위해 데이터의 품질과 신뢰성 확보
  • 시각화(Visualization) : 복잡한 대규모 데이터를 시각적으로 표현
  • 가치(Value) : 비즈니스 효익을 실현하기 위해 궁극적인 가치를 창출

 

※6V로 정의하는 빅데이터

 

지구상에선 지금 이 순간에도 방대한 크기(Volume)의 다양한(Varity) 데이터들이 빠른 속도(Velocity)로 발생하고 있다. 빅데이터는 3V(Volume, Varity, Velocity)를 수용하며, 데이터의 진실성(Veracity)을 확보하고, 분석 데이터를 시각화(Visualization)함으로써 효익을 가져다줄 가치(Value)를 창출 하는 것이다.

 

2.  빅데이터 목적

 

빅데이터 시스템의 도입 목적

 

빅데이터 시스템의 목적은 크게 비용절감인사이트, 수익 창출인사이트, 문제 해결인사이트를 찾는 것이 최종목표이다.

 

문제에 대한 이해를 하고 원인을 분석을 한 후 머신러닝을 이용하여 예측을 한다.

 

3.  빅데이터 활용

 

빅데이터 활용 방안

 

빅데이터시스템과 AI시스템

최근에는 빅데이터시스템은 AI시스템에 학습데이터를 제공하는 역할도 한다. 

 

 

※빅데이터에 대한 오해

 

"RDBMS와 Bigdata는 엄연히 다르고 비교를 하면 안된다. "

 

4.  빅데이터 프로젝트

 

  1.  플랫폼 구축형 프로젝트

플랫폼 구축형 프로젝트

전형적인 빅데이터 SI(System Integration) 구축형 사업이며, 빅데이터의 하드웨어와 소프트웨어를 설치 및 구성을 하며,

수집 -> 적재 -> 처리 -> 탐색 -> 분석의 기능을 구현

 

 

  2. 빅데이터 분석 프로젝트

빅데이터 분석 프로젝트

 

빅데이터 플랫폼 구축 완료 후 수행, 빅데이터 탐색으로 데이터의 이해가 높아질 때 시작을 하고, 조직의 가치사슬 중 대규모 분석이 필요한 시점에 추진하며 분석주제영역은  – 마케팅/고객 , 상품/서비스 개발, 리스크 관리이다.

 

  3. 빅데이터 운영 프로젝트

 

빅데이터 운영 프로젝트

 

구축 완료된 플랫폼을 중장기적으로 유지 관리를 하며,  대규모 하드웨어/소프트웨어로 운영 비용 높고, 빅데이터 분야별 전문가 그룹이 확보 되야 함. 또한 빅데이터 거버넌스 체계를 수립 해야 함

 

 

5. 빅데이터의 기술의 변화

 

빅데이터 활용 기술의 변화

대용량 저장소 대규모 배치 처리 -> 실시간 처리 온라인 분석 -> 전처리 및 분석 마트 고급분석 및 마이닝 순으로 변화를 하고 있다.

 

현재는 하둡 기술을 주도한 기업이 빅데이터를 주도하고 있다.

 

6. 빅데이터 구현 기술

 

빅데이터 아키텍처의 레이어 및 역할

수집, 적재  -> 전처리 , 처리, 탐색 -> 후처리, 응용 -> 활용 

위의 사진과 같이 각 단계별로 다양한 활용 기술이 있는 것을 알 수 있다. 

 

 

출처 : 실무로 배우는 빅데이터 기술 : 데이터 수집, 적재, 처리, 분석, 머신러닝까지[2판]

 

 

728x90

'Hadoop' 카테고리의 다른 글

4. 빅데이터 수집 개요  (0) 2021.09.13
3.하둡 간단한 명령어 실습  (0) 2021.09.10
2. Cloudera Manager (CM) 설치  (1) 2021.09.01
1. Centos 환경 구성  (1) 2021.08.30
하둡이란?  (1) 2021.08.25

관련글 더보기

댓글 영역